1.情報とその表現方法
ゆうこさんのおうちでは、A新聞をとっています。昨夜の夕刊にこのような見出しの記事がありました。
「日本国民の平均貯蓄高は1,352万円!」
ゆうこさんは、日本の一般家庭が、こんなに貯蓄を持っているのかとびっくりしました。どう考えても、ゆうこさんのおうちには、こんな額の貯蓄はありません。
そこで、インターネットを利用して、他の新聞の記事を検索してみることにしました。
その結果、
B新聞:「日本の国民の平均的貯蓄高は400万円!」
C新聞:「日本の国民の平均的貯蓄高は893万円!」
という記事を見つけることができました。
驚いたことに、3つの新聞とも、見出しの数字がまったく違うのです。
この3つの新聞は、3つとも、総務庁が発表した「平成10年度貯蓄動向調査」の結果をもとにした記事です。同じデータをもとにしているのに、なぜ、このような違いが起こるのでしょうか?
グラフをみてみましょう。これはヒストグラム1)と呼ばれるグラフで、x軸に階級の境界点をとり、y軸に度数をとっています。各階級を底辺とする柱をたてて、その高さはその区間に対応する度数に比例しています。これにより、度数分布2)を視覚的に見ることができます。

グラフによると、度数分布は貯蓄高の低い方に偏っており、さらに、貯蓄の多い方に低い度数で伸びています。このように、どちらかに偏りのある分布を「ひずみがある」といいます。
このような分布の特徴を、できる限り簡単な数字であらわすために、いくつかの値があります。それをみてみましょう。
(1)平均値
私たちにとって、一番身近なのがこの平均値でしょう。平均といった場合、たいていは算術平均のことをさし、すべての値を足して、その値の数で割ること(1/n*(x1+x2+・・・+xn)で導出します。ヒストグラムから平均値をもとめる場合、元の値をその測定が属する階級の中心値でおきかえて、平均値を出します。今回の場合、調査した世帯すべての貯蓄高を足して、世帯数で割ったものが平均値になります。
算術平均のほかに、調和平均3)、幾何平均4)などがあります。
(2)最頻値
最大の度数を持つ測定値のことをさします。一番高い度数を持つ柱の階級の中心値をとります。今回の場合、度数が最大になるのは、200万以上〜400万未満、400万以上〜600万未満の2つの階級なので、その2つの柱の中心値をとって、400万が最頻値となります。
(3)中央値
測定値を大きさの順にならべたとき、ちょうど中央にくる測定値を、中央値として定義します。中央値をとると、この値よりも大きな値と小さな値がちょうど同数あることになります。今回の場合、中央値の貯蓄高よりも貯蓄の多い世帯と少ない世帯が同じ世帯数になります。
さて、今回の新聞記事は、A新聞は平均値、B新聞は最頻値、C新聞は中央値をとっていました。どの新聞も、決して嘘の数字を出しているわけではありませんが、それぞれの値の性質から、どの値が一番今回のこのグラフを表現するのに適した値なのでしょうか?考えてみましょう。
今回のように、ひずみのあるヒストグラムを持つ分布では、平均値は、高いほうにずれる傾向があります。実際、平均値より貯蓄高の低い世帯数が全体の66%を占めるなど、世間一般には受け入れにくい値となりました。最頻値は、多くの世帯がこのあたりの値を取っているという意味では、受け入れやすい数値ではありますが、度数全体の分布に関する情報が何もありません。また、200万以上600万未満の世帯数は約24%にすぎません。中央値は、その値より多い世帯が半分、少ない世帯が半分という意味では、平均値よりも実際的な貯蓄高の平均を表しているといえるでしょう。今回の場合、中央値をとるのが一般的ですが、読者に比較的貯蓄高の少ない層の人が多かったり、政府に批判的な新聞の場合、最頻値をとる場合があります。
私たちが情報と付き合うときには、情報をそのまま受け入れるのではなく、その情報の発信者の意図までを読み取って、正しく情報を理解するようにしなければなりません。今回の新聞記事の場合も、A新聞の読者は「1,352万円!そんなにみんな貯蓄しているんだ!!」と思うだろうし、B新聞の読者は「みんな、400万円ぐらいは貯蓄しているのね」、C新聞の読者は「893万円ぐらいはみんな貯蓄してるんだわ」と思うでしょう。元は同じ1つのデータなのに、それぞれの新聞の読者は、違う認識をもってしまうわけです。
今後、情報を収集するときには、発信者の意図がはいらない、事実のデータ部分のみを収集する必要があります。また、発信するときには、見る人が誤解しないように、適切な処理を行って、適切な表現方法で表現を行わなければなりません。情報を収集・発信するときには、このようなことに気をつける必要があるのです。
|