日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました
CRANK
多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon Sagemaker を用いて学習に必要なリソースを確保することで、ALBERT のような最新の言語モデルを利用することが可能です。 今回、AWS の Open Dataset に新しく、日本語自然言語処理で定番の形態素解析器である MeCab を、ラッパーライブラリである fugashi 経由で Python で使用する際の語彙データが加わりました。以下で詳しく説明します。 MeCab MeCab はオー…