「めかぶ」とは?食べ物ではないとっても賢いMeCab
こんにちは。
製造建設ソリューションサービス部の村上です。
突然ですが、皆さんは「形態素解析」という言葉をご存知でしょうか?
とても難しそうなこの言葉ですが、「形態素解析」とは
私たちが常日頃使っている会話や文章の内容を、言語学的に意味を持つ最小要素(形態素)まで分解する技術というものです。
これだけを聞いても、あまりピンとこないかもしれません。
しかし、形態素解析という技術は日常の中でも普通に使われている技術となっています。
では、形態素解析というものはどのようなところに使われているのか?
形態素解析を行う為にはどのようなものが必要なのか?
今回はそんなお話をしたいと思います。
形態素解析の利用実績
形態素解析という技術は、現在ではなくてはならない技術です。
その利用先としてよくあげられるのが、以下の二つです。
- Googleなどの検索エンジン
- AIの言語解析
形態素解析という技術は上述の通り、「会話や文章の内容を形態素まで分解する」というものです。
つまり、会話や文章の中から不必要なものを取り除くことができ、その会話や文章の中で情報となりうる単語を抽出することが可能となるということです。
例えば、以下のような文章をGoogleで検索したとします。
秋葉原で居酒屋
このとき、形態素解析を行うと以下のように分解されます。
秋葉原 アキハバラ 秋葉原 名詞-固有名詞-地域-一般
で デ で 助詞-格助詞-一般
居酒屋 イザカヤ 居酒屋 名詞-一般
Googleの検索エンジンではこの解析結果を用いて、検索精度を高める為に助詞を除外して名詞のみで検索・絞込みを行います。
このように任意の会話や文章を形態素解析することにより、その中に含まれている情報を簡単に抜き出すことができるというのが形態素解析の強みです。
これを応用して形態素解析や各種解析を行った文章を機械学習させることにより、AIなどは自然言語を理解できるようになり、自然な応答が可能となっているということです。
形態素解析を使うには
こんなに便利な形態素解析ですが、実は無料で誰でも使用することが可能です。
ここで登場するのがとっても賢い「めかぶ」こと、オープンソース形態素解析エンジンである「MeCab」です。
MeCabはGoogle日本語入力の開発者の一人である工藤拓さんによって開発されており、その由来は好物である「めかぶ」から来ているそうです。
このMeCabは文章を形態素解析する際に使用する辞書を指定できるのですが、このときに使用する辞書の種類によって、形態素解析の精度が大きく変わってきます。
その中でも一番一般的である辞書なのが、「mecab-ipadic-NEologd」です。
mecab-ipadic-NEologdとは
mecab-ipadic-NEologdとは、MeCabと共に使うための単語分かち書き辞書であり、現在も週2回以上の頻度で新語などを更新しています。
つまりこの辞書を使って形態素解析を行うことにより、文章に含まれる最新の単語なども名詞として検出することが可能となります。
例えば新語を含んだ以下の文章を形態素解析してみます。
欅坂46はアイドルです。
これを形態素解析すると、
欅坂46 ケヤキザカフォーティーシックス 欅坂46 名詞-固有名詞-人名-一般
は ハ は 助詞-係助詞
アイドル アイドル アイドル 名詞-一般
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
ちゃんとアイドル名は固有名詞として判別されました。
次に最近流行のVtuberでも試してみます。
ミライアカリと輝夜月はVtuberです。
これを形態素解析すると、
ミライアカリ ミライアカリ ミライアカリ 名詞-固有名詞-一般
と ト と 助詞-並立助詞
輝夜月 カグヤルナ 輝夜月 名詞-固有名詞-一般
は ハ は 助詞-係助詞
Vtuber Vtuber Vtuber 名詞-一般
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
きちんと名前の読みも正しいものが表示されました!
このように形態素解析を行うことで、複雑な文章からでも意味を汲み取る為の情報を抽出可能なことが分かると思います。
このような仕組みを知ると、AIなどの超未来的な技術でもちょっとは身近なものに思えるかもしれません。
Error, group does not exist! Check your syntax! (ID: 1)