投稿

3月, 2018の投稿を表示しています

WordPressブログで関連記事を表示するため形態素解析のプラグイン開発

イメージ
前に日本語形態素解析「MeCab」を使った関連記事表示機能の精度が良かったので、今の環境で導入してみたときの覚書。環境: CentOS 7.4.1708, PHP 7.0.28, MariaDB 10.1.31, WordPress 4.9.4ちなみにここまでしなくても関連記事を表示するWordPressプラグインはたくさんある。形態素解析すると、文章の中で名詞だけ取り出し、漢字の読みも分かるので「御飯」「ご飯」「ごはん」を同じ「ゴハン」として判断可能。形態素解析 - Wikipedia
目次MeCabのダウンロードとコンパイル辞書のインストールPHPで使うための拡張ライブラリをインストールMariaDBの全文検索設定WordPressのプラグインとして実装
1.MeCabのダウンロードとコンパイルC++で書かれているのでコンパイラと辞書のコード変換ライブラリlibiconvが必要。# yum install gcc-c++ libticonv公式サイトからダウンロードしてビルドMeCab: Yet Another Part-of-Speech and Morphological Analyzer# /opt/software/
# tar -xzvf mecab-0.996.tar.gz
# cd mecab-0.996
# ./configure --with-charset=utf8
# make
# make check
# make install
2.辞書のインストールこれも公式サイトからダウンロードしてインストール。charsetを指定しないと文字化けする。# cd /opt/software/
# tar -xzvf mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801
# ./configure --with-charset=utf-8
# make
# make installさらに辞書の精度を上げたい場合は下記のような辞書も参考にmecab-ipadic-NEologd : Neologism dictionary for MeCab | GitHub新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた : LINE Engineering Blog今回は似て…