Critique of Games メモと寸評

http://www.critiqueofgames.net の人のブログです。あんまり更新しません。

文化を計る ―文化計量学序説―

www.asakura.co.jp

同僚の本棚にあったのをパラパラ読んだ。

2002年とちょっと古い本で、計量化III類、主成分、クラスター分析等を使って多変量の判別をしつつ、なんとか議論を構築しているという感じの本。

簡単なメモ

 

  • コラムで書かれていたショーロホフ『静かなるドン』が盗作なのかどうなのか、という議論と、検定はわかりやすかった。文字の頻度や、語彙数などを単純な分布に変換できるデータは変換して、検定をかけるというのは、話としてはクリアー。
  • 一方で、主成分、クラスター、計量化III類といった手法を多用しているのは、若干、狙いがよくわからない印象。ただ単に、対応分析とかをかけただけだと、議論として弱い感じがあるが、ちゃんと読めばわかるのかも。ここらへん、自分も悩みどころだなと思うところがあるので、勉強したい。単純に謎なのは、なぜ、主成分分析メインで、因子分析ではないんだろう。統計に強い先生なので、なんか理由がありそうなのだが。
  • 顔の図像分析で、目と目の距離とか、鼻と口の距離とかをパラメータ化して、多変量の解析にかけるというやり方は、なるほど勉強になった。内容分析的なものを内容分析で終わらせずに、多変量の解析にもっていくという手法は、いろいろなもので参考になりそう。最近だと、ガチのデータサイエンティストの人だと、こういうのは、SVMとか機械学習系系の手法で済ませるんだろうな、という感じもする。→ ちょっとぐぐってみたら、金&村上(2007)で、ランダムフォレスト法を用いた著者同定というのをやっていた。なるほど、そういう方向にすすむだろうなというのはよくわかる。

    https://www.ism.ac.jp/editsec/toukei/pdf/55-2-255.pdf(ここで、共著をしてらっしゃる、金明哲先生は、テキストマイニング系の方法論でいろいろとやっていらっしゃる先生らしい。同志社の先生方のグループ。金 明哲 (Meitetsu Kin) - MISC - researchmap

  • しかし、「何をパラメータ化するのが妥当なのか」という話は、機械学習の話になったら、解決する問題でもないような。
  • 村上 征勝先生は、2004年にも『計量文献学の世界 シェークスピアは誰ですか』という本をご出版されていて、こちらでは著者割り出しの論点をメインで書いているらしい。ゲーム研究だと、著者割り出しの話はいまのところ、あまり大きな論点にはならないが、多変量の「内容」を分析していく手法自体は大いに参考になりそうではある。

 

www.kinokuniya.co.jp

  • 比較的最近のお仕事としては、下記のようなお仕事もやってらっしゃるご様子。基本的な枠組みは、2002年の本のフォーマットに沿っている。
  • 上阪彩香, & 村上征勝. (2014). 西鶴遺稿集の著者に関する統計分析‐北条団水の浮世草子との文体比較‐. じんもんこん 2014 論文集, 2014(3), 113-118.

ipsj.ixsq.nii.ac.jp

 

 ちなみに、金先生は、Rに出力可能で、日中韓英の多言語の解析が可能なテキストマイニングツールMTMineRというのを公開してらっしゃる。

 もっとも、KHcoderも多言語には対応している。MT MineRがすごそうなのは、ランダムフォレストとか、SVMとかそっち系の機械学習系メソッドを使った判別とか、そっち系かな?

mjin.doshisha.ac.jp