2021/07/31

割合③ 現実社会で起こっている信頼できない統計データ【後】

前回はデータを見て判断してもらいました。今回は元データを提示し、問題点を考えていきます。

A県K市B小学校の5年生を対象に、2学期のあいだ毎週月曜日の朝に1週間の読書調査を行いました。下の表がその統計データです。A~Eの5クラスを15週に渡り調査を行い、調査結果は百分率で表しました。また、どのクラスも児童数は20人で、検査日の遅刻・欠席はありませんでした。調査対象の一週間というのは、先週の月曜日から前日の日曜日までです。


前回と同じものです。データは百分率表記

123456789101112131415
A504555455055655555605070606560
B30403525405065756560609010095100
C25302020152540100909590100859095
D1015102530253055506060100100100100
E505100100100100100100100100100100100100


データは実人数表記です。
123456789101112131415
A1091191011131111121014121312
B6875810131513121218201920
C56443582018191820171819
D23256561110121210101010
E101202020202020202020202020


前回触れなかったことをいいます。それはデータをどのように取ったかです。

Aクラスは、物語や小説および学術書に類するもので、受験参考書は含めていません。この条件で本を読んだ人に手を挙げてもらいました。

Bクラスは、6週目まではAクラスと同じでしたが、7週目からはHow-to本(手引書:参考書やパソコンの使い方など)も調査対象に含め、12週目からはゲームのHow-to本(手引書)も調査対象に含めました。

Cクラスは、8週目から本なら何でも調査対象に含めました。鬼滅の刃や名探偵コナンなどのコミックスもゲーム雑誌もナンクロも何もかもです。

Dクラスは、4週目からはHow-to本(手引書:参考書やパソコンの使い方など)も調査対象に含め、8週目からは本なら何でも調査対象にし、12週目からは本を読んでいるであろう成績上位者10名だけを調査対象にしました。

Eクラスは、4週目からは活字を読んだら本を読んだということにし調査対象に含めました。テレビの字幕でも、パソコンのコメント欄でも、ツイッターでも、ラインでも何でもです。


「ふざけるなっ!」と思ったなら、ふつうの反応だと思います。でも現実社会ではこのようなデータの取り方をしていますね。
データとして価値があるのは、Aクラスだけです。他のクラスは一切価値がありません。統計を取っているときに、統計の取り方を変えるのは言語道断です。変えた時点で、それまでのデータを比べることに意味がなくなります。上のB~Eはそれを解りやすくしたものです。現実社会で起こっていることを理解してくれたでしょうか。

さらに、Dクラスのように調査対象者を意図的に変えるのも言語道断です。でもこのようなデータ操作を頻繁に行われていますが、実数値でなく割合で表現されたらそれを見抜くことはできません。前回、最初に割合のデータを提示したのは目を眩ませるのが目的でした。そのようなことが行われているか否かは、元データが出てから判ります。

現実社会では統計学など学ぶ以前の問題が起こっているのです。この意味で、統計は数学の威を借る狐です。▢


前回も紹介しましたが、
谷岡一郎 著『「社会調査」のウソ リサーチ・リテラシーのすすめ』文春新書

は統計を学ぶ前に読む本だと思います。数学科で学ぶ数理統計は、「データに問題ない」が前提なので、データの取り方に問題があったら何の役にも立ちません。データに問題があるのに、数理統計を用いて分析したら人を欺くことに使われてしまいます。社会の動きに興味関心がなければ、数学はただの奴隷です。

2021/07/28

ユークリッド原論の第5公準と平行線公理

ユークリッド原論の第5公準
2直線に第3の直線が交わってできる同側内角(同傍内角)の和が2直角より小さいならば,2直線は同側内角の和が2直角より小さい側で交わる.

公理5(平行線公理)
直線上にない1点を通ってこれと交わらない直線は1つしかない. 


この『数学雑談』を読んでくれている人は数学の得意な人が多いとおもうのですが、やはり第5公準をはじめて知ったときには違和感を持ったりしたのでしょうか。ひょっとしたら第5公準の証明を試みた天才肌の人もいるかもしれませんね。

凡人の私は何も感じることなく、ユークリッド原論と数学者たちの闘いの話を読んでから、そうなのかと思ったくらいです。はじめて知ったのは矢野健太郎氏の著書(新潮文庫か講談社新書)かと思います。

大抵の啓蒙書だと非ユークリッド幾何の誕生に触れ、数学者クライン(Klein)のエルランゲンプログラム(Erlangen program)の話で、幾何学と群の話になると思います。これだけでも十分おもしろく、幾何と代数が出遭うだけでわくわくします。

この第5公準と平行線公理が同値であることは知られていますが、同値であることに気づくものなのでしょうか。どの本だったか覚えていないのですが、第5公準から平行線公理が得られるとさらりと書いてあり頭を悩ませたことがあります。当時は疑問符しか出てきませんでした。

第5公準と平行線公理が同値であることは、現在連載している『理一の数学事始め』で証明を書きました。ユークリッドは同値であることに気づいていなかったようですが、第5公準から平行線公理を証明しているようです。この2つが同値であることに気づいた数学者は驚いたと思います。

みなさんは平行線公理から第5公準が導けると思えましたか。証明を理解するのに時間を要した私には想像すら出来ません。平行線公理があまりにきれいだからです。ゴツゴツした第5公準が導けるなんて。▢


左)L. ムロディナウ著『ユークリッドの窓』(NHK出版→ちくま学芸文庫)
右)寺阪 英孝著『非ユークリッド幾何の世界』(ブルーバックス)

左は副題の通り物語で読み易いと思います。
右は高校で1回、大学2年で1回、大学卒業して1回読んでいますが、いずれも途中からついていけずに挫折しています。一度は全体に目を通したのですが理解した感じはありません。今なら読み通せるかな...

2021/07/24

割合② 現実社会で起こっている信頼できない統計データ【前】

 A県K市B小学校の5年生を対象に、2学期のあいだ毎週月曜日の朝に1週間の読書調査を行いました。下の表がその統計データです。A~Eの5クラスを15週に渡り調査を行い、調査結果は百分率で表しました。また、どのクラスも児童数は20人で、検査日の遅刻・欠席はありませんでした。調査対象の一週間というのは、先週の月曜日から前日の日曜日までです。

このデータをみて、本離れが続いているという噂は本当なのでしょうか。

123456789101112131415
A504555455055655555605070606560
B30403525405065756560609010095100
C25302020152540100909590100859095
D1015102530253055506060100100100100
E505100100100100100100100100100100100100

※ 左の縦1列目はクラス名を表し、横1行目は何週目かを表しています。
※ 百分率はパーセント(%)のことです。
(このパーセントというのは、100点のテストで何点取ったかを表しています)

例えば、上から4行目、左から6列目に「15」という数値がありますが、これはCクラスの5週目の割合を表しています。つまり、5週目はCクラスの対象者の15%がこの1週間に読書をしたということです。


さて問題です。あなたならどのような分析をしますか。例えば、
①どのクラスが、読書習慣があると思いますか。
②Eクラスは4週目から読書率100%になりましたが、何があったと思いますか。
③このデータで気になることがあれば、それらをすべて挙げてください。
※正解を求めているのではありません。


自分なりの判断ができましたか。
では次に、上の元データを提示します。

123456789101112131415
A1091191011131111121014121312
B6875810131513121218201920
C56443582018191820171819
D23256561110121210101010
E101202020202020202020202020


これらの数値は1週間内に本を読んだ児童数を表しています。例えば、上から4行目、左から6列目に「3」という数値がありますが、これは5週目にはCクラスの3人がこの1週間に読書をしたことを表しています。


またまた問題です。この元データを見て、先ほどの分析を変えますか。また、気付いたことはありますか。ところで、このデータから本離れが起こっていると思いますか。


私の作ったデータですが、参考にしているのは現実社会で表に出ている統計です。
自問自答になりますが、こういうデータで気になることを書きます。
①本離れの真偽を調べるための調査であれば、比較できるデータが必要ですが何の提示もないところが気になります。
②読書とは何か、対象図書は何かについて言及がないのが気になります。
③データの計算式の提示がありません。
④この場合は、どのクラスも20人であるし値が小さいので実人数でいいように思う。割合を使う意味はあるのか。
⑤BCDEとも割合が高くなっているが、何が起こったのか寸評がない。
⑥Dクラスは12週目から実人数が10人なのにデータでは100%になっているのは何故か。
⑦Eクラスが100%になったのは、強制的に読書をさせたと考えられます。

したがって、読書離れについての判断は不可能です。また、どのクラスが読書習慣が身についているかは判断しかねます。読書習慣をクラス毎に分析する意味が理解できません。ちなみに、データを読んだ本の冊数にしても同じようなことが言えます。読んだ冊数に意味があるか否かが問題になります。

次回は、このような統計データの問題を明らかにします。▢


以前読んでおもしろかった本を紹介します。
谷岡一郎 著『「社会調査」のウソ リサーチ・リテラシーのすすめ』文春新書

読書記録をみると、読んだのは5年前です。この頃は「欺き」に興味関心があり、オカルトによる欺きも調べていました。なぜ興味をもったのかは忘れてしまいましたが、記憶の嘘についての本も読んでいました。

ちょっと・・・それは・・・ ~ 定義とその周辺の話 ~

内容的には高校数学なのですが高校生には難しいと思います。ただ高校生であっても定義・定理(命題)・公理の区別が出来ているのであればおもしろいと思うし、数学教師志望の教育学部や数学科の学生には興味深い話だと思います。 現在、 『数学事始め』 では指数関数・対数関数の話をしています...