投稿

3月, 2018の投稿を表示しています

WordPressブログで関連記事を表示するため形態素解析のプラグイン開発

イメージ
前に日本語形態素解析「MeCab」を使った関連記事表示機能の精度が良かったので、今の環境で導入してみたときの覚書。 環境: CentOS 7.4.1708, PHP 7.0.28, MariaDB 10.1.31, WordPress 4.9.4 ちなみにここまでしなくても関連記事を表示するWordPressプラグインはたくさんある。 形態素解析すると、文章の中で名詞だけ取り出し、漢字の読みも分かるので「御飯」「ご飯」「ごはん」を同じ「ゴハン」として判断可能。 形態素解析 - Wikipedia 目次 MeCabのダウンロードとコンパイル 辞書のインストール PHPで使うための拡張ライブラリをインストール MariaDBの全文検索設定 WordPressのプラグインとして実装 1.MeCabのダウンロードとコンパイル C++で書かれているのでコンパイラと辞書のコード変換ライブラリlibiconvが必要。 # yum install gcc-c++ libticonv 公式サイトからダウンロードしてビルド MeCab: Yet Another Part-of-Speech and Morphological Analyzer # /opt/software/ # tar -xzvf mecab-0.996.tar.gz # cd mecab-0.996 # ./configure --with-charset=utf8 # make # make check # make install 2.辞書のインストール これも公式サイトからダウンロードしてインストール。charsetを指定しないと文字化けする。 # cd /opt/software/ # tar -xzvf mecab-ipadic-2.7.0-20070801.tar.gz # cd mecab-ipadic-2.7.0-20070801 # ./configure --with-charset=utf-8 # make # make install さらに辞書の精度を上げたい場合は下記のような辞書も参考に mecab-ipadic-NEologd : Neologism dictionary for MeCab | GitHub 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調