[卒研メモ] PythonによるTwitterテキスト分析例

 今週に入って語彙力テストなるWebテストが話題になりましたが,その点数分布をTwitterから拾い出してヒストグラムにするPythonスクリプトを作成・公開し,結果として偏りがいびつであることを突き止めたページがありましたので紹介しておきます。

 件のPythonスクリプトは,OAuthを経由してTwitter APIを利用し,語彙力テスト結果をTLから取り出して自動的に集計させています。コメントで指摘がありましたが,語彙力テスト自体はJavaScriptに全部のテストと点数が埋め込まれているので(ソースを見ると一目瞭然),そちらを解析した方が正確になるのですが,仮にソースがなくても結果の異常性が探索できるという点,今のAIに通じる物の見方と言えるでしょう。

 APIを使うことはPHPでも十分可能ですが(PECLのOAuthを使うと楽そう),美しいヒストグラムを出力するのはmatplotlibを活用できるPythonの面目躍如ですね。