発表

1A-042

テキストマイニングを用いた著者の年齢層推定—サポートベクターマシーンとランダムフォレストの精度比較—

[責任発表者] 財津 亘:1
[連名発表者] 金 明哲#:2
1:富山県警察本部刑事部科学捜査研究所, 2:同志社大学

 犯罪者プロファイリングとは,犯人を早期に検挙することを目的として,犯罪現場の状況などを基に,統計データや心理学的手法を用いて分析し,犯人の性別や年齢層,就業状態などの特徴を推定する捜査支援手法である。窃盗事件や放火事件などにおいては,犯罪現場が存在するが,名誉毀損や脅迫,いわゆるストーカー規制法違反,公職選挙法違反,サイバー犯罪に絡む事件のような,印字された文書もしくは電子メールのみが存在するといった場合もある。そのような事案に対して,期待される手法として,計量文体学的分析が挙げられる。計量文体学的分析とは,文章上の文体的特徴(漢字などの使用率や文の長さ,読点の打ち方など)を分析することであり,中でも文体的特徴から著者の特徴を推定することを諸外国では著者プロファイリング(author profiling),我が国ではテキストプロファイリング(萩野谷,2010)などと呼称されている。著者の特徴推定に関する研究は,主に情報工学などコンピュータサイエンス系分野において行われており,ブログやエッセイコーパスを対象に,サポートベクターマシーン(SVM)などの機械学習を用いた研究がある。なお,テキスト分析に関しては,機械学習の中でも,ランダムフォレスト(RF)の成績が良いことが知られており,我が業界で唯一この種の研究を行った萩野谷(2010)も,RFを用いて年齢層の推定を行っている。両者の機械学習による年齢層推定の精度比較を行った研究はみられないことから,本研究では両機械学習の精度比較を行った。
方法
サンプル テキストを,インターネットサイト「にほんブログ村」のブログから抽出した。このインターネットサイトから5つの年齢層(20代から60代)×2つの性別(男性,女性)の10グループごとに10名のブログを無作為に抽出し,100名のサンプルを収集した。文字数を統制し,1名につき1,000文字程の1テキストを扱った。
手続き(1)年齢層推定に有効な文体的特徴の探索 まず,次の文体的特徴に着目し,各文体的特徴の特徴量を比較検討することで,年齢層推定に有効な文体的特徴を探索した((1)漢字,平仮名,片仮名,ローマ字,数字の使用率,(2)文字のunigram,bigram,trigram,(3)読点前の文字や単語,(4)文の長さ「文字数」,(5)品詞のunigram,bigram,trigram,(6)単語のunigram,bigram,trigram,(7)単語の長さ(文字数),(8)句点前の文字や単語)。続いて,年齢層別で各文体的特徴の特徴量を比較した。(2)1個抜き交差確認法(LOOCV)による精度検証 20・30代を「Young」群,40代を「Middle」群,50・60代を「Old」群と設定し,SVMとRFを用いたLOOCV(leave one out cross validation)による年齢層推定精度の検証を行った。具体的には,100名のサンプルから1名のサンプルを予測用として抜き取った,残りの99名のサンプルを基に学習させ,学習したSVMまたはRFで予測用サンプルの年齢層を推定するという方法である。これを100名すべてのサンプルで実施し,(1)再現率(「Young」群のサンプルを正しく「Young」と判定する割合,感度と同義),(2)適合率(「Young」と判定し,実際に「Young」群であった割合,機械学習の判定に関する精度),(3)正解率(全サンプル100名中正しく判定した割合)を機械学習ごとに算出した。
結果
 年齢層推定に有効な文体的特徴 探索的に年齢層推定に有効な特徴を検討した結果,次の17の文体的特徴が年齢層推定に有効と考えられた。なお,1要因3水準(年齢層群)の分散分析では,すべての特徴において,有意差がみられた。矢印は,加齢にともなう特徴量の増減を示している。
(1) 文字の使用率ー↑「急」「道」「切」↓「じ」
(2) 読点前の文字の使用頻度ー↑「ら,」↓「く,」
(3) 読点前の語の使用頻度ー↑「たら(助動詞),」
(4) 品詞の使用頻度ー↑「名詞ー数」↓「格助詞ー連語」
(5)語(形態素)の使用頻度ー↑「の(助詞ー連体化)」「くる(動詞ー非自立)」「来(動詞ー非自立)」↓「に(助詞ー副詞化)」「くらい(助詞ー副助詞)」「感じ(名詞ー一般)」「全然(副詞ー助詞類接続)」「だっ(助動詞)」
 LOOCVによる年齢層推定の精度検証 100名のテキストを基に実施した精度検証の結果をTable 1に示す。Table 1のとおり,どの指標においてもRFに比べてSVMの精度が高かった。また,「Middle」群の精度は両機械学習で低く,この群を正しく推定することが困難であることを示唆した。
考察
SVMとRFの精度比較を行った結果,年齢層推定に関してはSVMの方が高い精度を得た。また,犯罪者プロファイリングでは,適合率の高さが重要といえるが,「20・30代」「50・60代」に限定すれば,SVMで8割近い適合率を得たことから,本手法が実務上有効である可能性を示したといえよう。

詳細検索