2014年12月8日月曜日

単語から文へ…:paragraph2vec関連まとめ

次のような記事を見つけました

「雑談」でさえ、話が噛み合わない人の思考メカニズム (2014/11/28)

この記事は「人間」の話ですが、「機械」でも同じことがいえるのではないかと思い至りました。

つまり、現在の「機械」による解析は単語を対象としたものがほとんどで、文・文書を扱っていたとしても、単語の集合あるいは統計情報としてであり、文の意味を理解などはしていません。

その先に進むためには、「人間」のみならず「機械」でも文(Sentence)の理解が必要となっていくと考えるのは当然の流れに思えます。


文(文書)間の意味的関係がわかれば、上記の記事の問題は解決できそうです。
word2vec では、単語をベクトル表現し、単語間の関係性を表していますから、これを拡張して、文や文書に適用できないでしょうか?…


…などと考えていたところ、すでにMikolov氏らによる論文がありました。
  • Distributed Representations of Sentences and Documents
    • pdf1, pdf2
    • Quoc V. Le, Tomas Mikolov
    • 2014/05/22

この論文では、ParagraphVectorの作成方法、および、他の手法との比較を行っています。明示されてはいませんが、「word2vec」からの類推で「paragraph2vec」に相当する手法のようです。ただし、該当するプログラムは公開されていないようです。


他の方が、この論文を参考に実装していました。
いくらか処理を簡略化?しているみたいです。

関連情報



今日のメモ:気になった論文