2010年11月2日火曜日

サイト内の類似ページ(関連記事)を取得するための日本語形態素解析

wordpressの記事を閲覧したときに似た内容の記事を表示するために調査。応用すると「漢字」で入力された内容を「読み」で並び替えるとかできると思う。

プラグインとしては下記を導入すれば解決しそう。

WordPress Related Post for Japanese (関連投稿表示プラグイン)

ただしYahoo!Japanが提供する日本語形態素解析APIを使うので、別途デベロッパー登録+クレジット表示が必要。商用利用の場合は、問い合わせしないといけない。

Google先生がAPIで提供してくれないかと思ったけど、まだみたい

API経由の方が辞書のメンテナンスをしなくてよいので助かるのだけど、自前で形態素解析をできないかと調べてみると、下記のツールがオープンソースで公開されている。

  ライセンス 説明
MeCab (和布蕪) GPL/LGPL/BSD Chasenに比べて解析速度が早い。開発者はGoogle日本語入力を開発した一人(wikipedia
ChaSen(茶筌) 公式サイト参照 wikipedia参照

詳細な比較はMeCabのサイトが分かりやすい。

下記サイトも読んでおくと形態素解析について理解が深まる

形態素解析の基礎

次回はMeCabをコンパイルしてPHPで使えるようにするまで。

 

<関連記事>

Googleの類似ページ検索をAPI経由で利用できないものか
コメントを投稿
Related Posts Plugin for WordPress, Blogger...

Blog Archives