発表

一般研究発表(ポスター)
1AM-058

フェイク・データに関する基礎研究Ⅱ

[責任発表者] 小野寺 孝義:1
1:広島国際大学

目的
 社会調査や授業評価などのアンケートが多数行われているが、その分析結果については十分な注意が必要とされる。それは分析手法の誤用や解釈の誤りというものではなく、データ自体に信頼がおけないケースがどれほど含まれているのかがわからないからである。実際、信頼できないケースを知る指標や手段がこれまではなかった。統計学的には欠損値と外れ値という概念があるが、それらは変数単位の判断で,平均からの乖離を基にしているためケースの全体としての回答パターンには対応できていない。
本研究では回答者が意図的にでたらめに答え、信頼できないデータをフェイク・データと呼ぶことにする。
 過去に出会った信頼がおけないデータの実例は、ある大学で実施されたアンケート調査の例である。複数の項目について尋ねた中にセクハラについてのものがあった。誰からどのようなセクハラを受けたのかを尋ねた項目であったが、ローデータを吟味してみると教員から、事務員から、同級生から、先輩から、さらには後輩から、つまりすべての項目対象からセクハラを受けているというケースが少なからずあったのである。このようなことは非常に考えにくいことに加えて、大学1年生にも少なからず、そのようなケースが見つかった。1年生にもかかわらず後輩からセクハラを受けているというのは論理的にも考えられない。言い換えると、回答者は面白半分にセクハラやアカハラという刺激的な項目すべてに反応したということが推測される。
ローデータを吟味せずに集計データを分析すれば、そのようなケースがすべて含まれることになる。結果としては、かなりのセクハラがあるのだという印象だけが報告書に残ることになった。しかし、そのようなケースを除いて分析すると実際のセクハラは、はるかに少なかったのである。
 このように愉快犯的にウソの反応をする以外にも面倒だから、早く終わらせたいからという理由で,全ての質問項目に同じ回答(例えば項目尺度で1のみを回答)しているケースや回答がジグザグに連続したり,幾何学的な模様を思わせるようなパターンになっているなどがある。
 無記名式のアンケートなどではデタラメに回答しても自分が特定されないため、このような反応は増加していると考えられる。
 前回の研究では人間が故意にデタラメ回答、あるいはランダム回答したものが数学的な意味でランダムになっているかどうかを検討した。その結果、人間の反応はランダムではないということ、また,「ランダム」に回答してくださいと伝えても「でたらめ」に回答してくださいと教示しても両者には教示の差がでないことがわかった。
 本研究ではフェイク・データを検出するために、項目への反応の前後を考慮したパターンを指標として検討した。

方法
 実験参加者は大学生で「でたらめ条件」の平均年齢20.84歳73名、「ランダム条件」平均年齢20.45歳73名、「乱数条件」60ケースである。質問紙は大学の講義時間の一部を利用して一斉に実施された。被験者に質問項目は示さず、XXとのみ記した。7点尺度の項目が20項目あり、A4一枚に収まるものであった。条件は全部で3つあり、「でたらめ条件」「ランダム条件」「乱数条件」があった。質問項目は同じであるが、教示の部分が「でたらめ条件」ではでたらめに○を塗りつぶすように、「ランダム条件」ではランダムになるように○を塗りつぶすよう教示されていた。「メルセンヌ乱数条件」ではMersenne Twisterにより1〜7の一様乱数をコンピュータによって60ケースを発生させた。Mersenne Twisterとは、松本・西村により開発されたもので優れた特質を持つ疑似乱数生成アルゴリズムである。

図は同値の連続回答と隣接連続回答の個数の合計の箱ひげ図である。メルセンヌ乱数条件では最小値が1で最大値が7であるのに対して、人間が回答したランダム条件・でたらめ条件では最小値が0と1、最大値はともに19であった。項目数が20だったので、これはほとんどすべての回答が同じか、隣り合っていたことを意味する。また、平均値はメルセンヌ乱数条件が2.68に対してランダム条件・でたらめ条件ではそれぞれ4.03と4.43であった。 
結果と考察
人間の反応による「でたらめ条件」と「ランダム条件」では実際の乱数に比べて同値・隣接反応が多い。このような反応をフェイク検出の指標に使う可能性が考えられる。

文献
Mersenne Twister Home Page : http://www.math.sci.hiroshima-u.ac.jp/~m-mat/MT/mt.html

詳細検索
アプリバナー iPhone版,iPad版 Android版