HomeDeep LearningTraining a Japanese Wikipedia Word2Vec Model by Gensim and Mecab
Deep Learning Specialization on Coursera

After “Training a Chinese Wikipedia Word2Vec Model by Gensim and Jieba“, we continue “Training a Japanese Wikipedia Word2Vec Model by Gensim and Mecab” with “Wikipedia_Word2vec” related scripts.

Still, download the latest Japanese Wikipedia dump data first: https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2. You can use “wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2” or download it directly. The Japanese wikipedia dump data is about 2.52G.

Then you can use the process_wiki.py script to get the text from the bzip and xml wikipedia data based on Gensim wikipedia process script, which use pyhton multiprocessing module to accelerated the process speed:

python process_wiki.py jawiki-latest-pages-articles.xml.bz2 wiki.ja.text

2017-08-04 13:16:02,431: INFO: running process_wiki.py jawiki-latest-pages-articles.xml.bz2 wiki.ja.text
2017-08-04 13:17:04,652: INFO: Saved 10000 articles
2017-08-04 13:17:47,132: INFO: Saved 20000 articles
2017-08-04 13:18:27,795: INFO: Saved 30000 articles
2017-08-04 13:19:05,638: INFO: Saved 40000 articles
2017-08-04 13:19:40,950: INFO: Saved 50000 articles
2017-08-04 13:20:16,599: INFO: Saved 60000 articles
2017-08-04 13:20:48,003: INFO: Saved 70000 articles
2017-08-04 13:21:18,028: INFO: Saved 80000 articles
2017-08-04 13:21:47,330: INFO: Saved 90000 articles
2017-08-04 13:22:17,611: INFO: Saved 100000 articles
......
......
......
2017-08-04 13:45:40,584: INFO: Saved 600000 articles
2017-08-04 13:46:11,887: INFO: Saved 610000 articles
2017-08-04 13:46:44,076: INFO: Saved 620000 articles
2017-08-04 13:47:15,212: INFO: Saved 630000 articles
2017-08-04 13:47:47,644: INFO: Saved 640000 articles
2017-08-04 13:48:19,396: INFO: Saved 650000 articles
2017-08-04 13:48:53,233: INFO: Saved 660000 articles
2017-08-04 13:49:23,844: INFO: Saved 670000 articles
2017-08-04 13:49:54,824: INFO: Saved 680000 articles
2017-08-04 13:50:12,764: INFO: finished iterating over Wikipedia corpus of 685719 documents with 154044918 positions (total 2185281 articles, 166268980 positions before pruning articles shorter than 50 words)
2017-08-04 13:50:12,781: INFO: Finished Saved 685719 articles

It extracted about 680000 articles texts, which saved in the wiki.ja.text, one article per line, about 2.4G. We can view it by “head wiki.ja.text”, and got some sample text:

trebuchet ms フォント アンパサンド とは を意味する記号である ラテン語の の合字で trebuchet msフォントでは pxと表示され et の合字であることが容易にわかる ampersa すなわち and per se and その意味は and the symbol which by itself is and である 歴史 アンパサンドの進展 その使用は 世紀に遡ることができ 世紀中葉 から現代 に至るまでの変遷がわかる 字目とされた時期もある のet と呼ばれる 数字の に似た記号があった 記号名の アンパサンド ラテン語まじりの英語 はそれ自身 and を表す per se and のくずれた形である 手書き 簡素化 日常的な手書きの場合 欧米でアンパサンドは また同様に または プラス に輪を重ねたような プログラミング言語 プログラミング言語では など多数の言語で and 演算子として用いられる 以下は の例 のように 個重ねたものは論理 and を表す この場合 がともに真ならば も真 それ以外は偽である のように 個であればビット and を表す この場合の結果は である phpでは 変数宣言記号 の直前に記述することで 参照渡しを行うことができる basic foo bar foobar を返す また を用い 十進で のように表現する sgml xml htmlでは その他 シングル アンド 浜崎あゆみが 年に発売した 曲入りマキシシングル 一青窈のアルバム アンド 一青窈が 年に発売したアルバム 及び同アルバムに収録された楽曲 漫画 アンド おかざき真里による漫画作品 日本の競走馬 アンパサンド 競走馬 符号位置 記号 unicode jis 文字参照 名称 脚注

Now it’s time to process Japanese text by Word Segmentation tool Mecab: Yet Another Part-of-Speech and Morphological Analyzer

MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。

Install MeCab on Ubuntu is very easy:

$ sudo apt-get install mecab libmecab-dev mecab-ipadic
$ sudo apt-get install mecab-ipadic-utf8
$ sudo apt-get install python-mecab

You can test it on by type:

mecab
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。
MeCab	名詞,固有名詞,組織,*,*,*,*
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
京都大	名詞,固有名詞,組織,*,*,*,京都大,キョウトダイ,キョートダイ
学	名詞,接尾,一般,*,*,*,学,ガク,ガク
情報	名詞,一般,*,*,*,*,情報,ジョウホウ,ジョーホー
学	名詞,接尾,一般,*,*,*,学,ガク,ガク
研究	名詞,サ変接続,*,*,*,*,研究,ケンキュウ,ケンキュー
科	名詞,接尾,一般,*,*,*,科,カ,カ
−	記号,一般,*,*,*,*,−,ヒク,ヒク
日本電信電話	名詞,固有名詞,組織,*,*,*,日本電信電話,ニホンデンシンデンワ,ニホンデンシンデンワ
株式会社	名詞,一般,*,*,*,*,株式会社,カブシキガイシャ,カブシキガイシャ
コミュニケーション	名詞,一般,*,*,*,*,コミュニケーション,コミュニケーション,コミュニケーション
科学	名詞,一般,*,*,*,*,科学,カガク,カガク
基礎	名詞,一般,*,*,*,*,基礎,キソ,キソ
研究所	名詞,一般,*,*,*,*,研究所,ケンキュウジョ,ケンキュージョ
共同	名詞,サ変接続,*,*,*,*,共同,キョウドウ,キョードー
研究	名詞,サ変接続,*,*,*,*,研究,ケンキュウ,ケンキュー
ユニット	名詞,一般,*,*,*,*,ユニット,ユニット,ユニット
プロジェクト	名詞,一般,*,*,*,*,プロジェクト,プロジェクト,プロジェクト
を通じて	助詞,格助詞,連語,*,*,*,を通じて,ヲツウジテ,ヲツージテ
開発	名詞,サ変接続,*,*,*,*,開発,カイハツ,カイハツ
さ	動詞,自立,*,*,サ変・スル,未然レル接続,する,サ,サ
れ	動詞,接尾,*,*,一段,連用形,れる,レ,レ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
オープン	名詞,サ変接続,*,*,*,*,オープン,オープン,オープン
ソース	名詞,一般,*,*,*,*,ソース,ソース,ソース
形態素	名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析	名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
エンジン	名詞,一般,*,*,*,*,エンジン,エンジン,エンジン
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
言語	名詞,一般,*,*,*,*,言語,ゲンゴ,ゲンゴ
,	名詞,サ変接続,*,*,*,*,*
辞書	名詞,一般,*,*,*,*,辞書,ジショ,ジショ
,	名詞,サ変接続,*,*,*,*,*
コーパス	名詞,一般,*,*,*,*,コーパス,コーパス,コーパス
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
依存	名詞,サ変接続,*,*,*,*,依存,イゾン,イゾン
し	動詞,自立,*,*,サ変・スル,未然形,する,シ,シ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
汎用	名詞,一般,*,*,*,*,汎用,ハンヨウ,ハンヨー
的	名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
設計	名詞,サ変接続,*,*,*,*,設計,セッケイ,セッケイ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
基本	名詞,一般,*,*,*,*,基本,キホン,キホン
方針	名詞,一般,*,*,*,*,方針,ホウシン,ホーシン
と	助詞,格助詞,一般,*,*,*,と,ト,ト
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。
パラメータ	名詞,一般,*,*,*,*,パラメータ,パラメータ,パラメータ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
推定	名詞,サ変接続,*,*,*,*,推定,スイテイ,スイテイ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
Conditional	名詞,一般,*,*,*,*,*
Random	名詞,一般,*,*,*,*,*
Fields	名詞,一般,*,*,*,*,*
(	名詞,サ変接続,*,*,*,*,*
CRF	名詞,一般,*,*,*,*,*
)	名詞,サ変接続,*,*,*,*,*
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
用	名詞,一般,*,*,*,*,用,ヨウ,ヨー
い	動詞,自立,*,*,一段,連用形,いる,イ,イ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
おり	動詞,非自立,*,*,五段・ラ行,連用形,おる,オリ,オリ
,	名詞,サ変接続,*,*,*,*,*
ChaSen	名詞,一般,*,*,*,*,*
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
採用	名詞,サ変接続,*,*,*,*,採用,サイヨウ,サイヨー
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
いる	動詞,非自立,*,*,一段,基本形,いる,イル,イル
隠れ	名詞,一般,*,*,*,*,隠れ,カクレ,カクレ
マルコフ	名詞,一般,*,*,*,*,マルコフ,マルコフ,マルコフ
モデル	名詞,一般,*,*,*,*,モデル,モデル,モデル
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
比べ	動詞,自立,*,*,一段,連用形,比べる,クラベ,クラベ
性能	名詞,一般,*,*,*,*,性能,セイノウ,セイノー
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
向上	名詞,サ変接続,*,*,*,*,向上,コウジョウ,コージョー
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。
また	接続詞,*,*,*,*,*,また,マタ,マタ
、	記号,読点,*,*,*,*,、,、,、
平均	名詞,サ変接続,*,*,*,*,平均,ヘイキン,ヘイキン
的	名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
に	助詞,副詞化,*,*,*,*,に,ニ,ニ
ChaSen	名詞,一般,*,*,*,*,*
,	名詞,サ変接続,*,*,*,*,*
Juman	名詞,一般,*,*,*,*,*
,	名詞,サ変接続,*,*,*,*,*
KAKASI	名詞,一般,*,*,*,*,*
より	助詞,格助詞,一般,*,*,*,より,ヨリ,ヨリ
高速	名詞,一般,*,*,*,*,高速,コウソク,コーソク
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
動作	名詞,サ変接続,*,*,*,*,動作,ドウサ,ドーサ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。
ちなみに	接続詞,*,*,*,*,*,ちなみに,チナミニ,チナミニ
和布	名詞,一般,*,*,*,*,和布,ワカメ,ワカメ
蕪	名詞,一般,*,*,*,*,蕪,カブラ,カブラ
(	名詞,サ変接続,*,*,*,*,*
め	名詞,接尾,一般,*,*,*,め,メ,メ
かぶ	動詞,自立,*,*,五段・ラ行,体言接続特殊2,かぶる,カブ,カブ
)	名詞,サ変接続,*,*,*,*,*
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
,	名詞,サ変接続,*,*,*,*,*
作者	名詞,一般,*,*,*,*,作者,サクシャ,サクシャ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
好物	名詞,一般,*,*,*,*,好物,コウブツ,コーブツ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
EOS

Now we can use mecab to segment the Japanese wikipedia data:

mecab -O wakati wiki.ja.text -o wiki.ja.text.seg -b 10000000

The process time is very quick, and we got the segment data like this:

trebuchet ms フォント アンパサンド と は を 意味 する 記号 で ある ラテン語 の の 合 字 で trebuchet ms フォント で は px と 表示 さ れ et の 合 字 で ある こと が 容易 に わかる ampersa すなわち and per se and その 意味 は and the symbol which by itself is and で ある 歴史 アンパサンド の 進展 その 使用 は 世紀 に 遡る こと が でき 世紀 中葉 か ら 現代 に 至る まで の 変遷 が わかる 字 目 と さ れ た 時期 も ある の et と 呼ば れ る 数字 の に 似 た 記号 が あっ た 記号 名 の アンパサンド ラテン語 まじり の 英語 は それ 自身 and を 表す per se and の くずれ た 形 で ある 手書き 簡素 化 日常 的 な 手書き の 場合 欧米 で アンパサンド は また 同様 に または プラス に 輪 を 重ね た よう な プログラミング 言語 プログラミング 言語 で は など 多数 の 言語 で and 演算 子 として 用い られる 以下 は の 例 の よう に 個 重ね た もの は 論理 and を 表す この 場合 が ともに 真 なら ば も 真 それ 以外 は 偽 で ある の よう に 個 で あれ ば ビット and を 表す この 場合 の 結果 は で ある php で は 変数 宣言 記号 の 直前 に 記述 する こと で 参照 渡し を 行う こと が できる basic foo bar foobar を 返す また を 用い 十 進 で の よう に 表現 する sgml xml html で は その他 シングル アンド 浜崎 あゆみ が 年 に 発売 し た 曲 入り マキシ シングル 一 青 窈 の アルバム アンド 一 青 窈 が 年 に 発売 し た アルバム 及び 同 アルバム に 収録 さ れ た 楽曲 漫画 アンド お かざ き 真 里 による 漫画 作品 日本 の 競走 馬 アンパサンド 競走 馬 符号 位置 記号 unicode jis 文字 参照 名称 脚注

Now we train the Japanese Word2Vec Model by train_word2vec_model.py

python train_word2vec_model.py wiki.ja.text.seg wiki.ja.text.model wiki.ja.text.vector

2017-08-05 10:07:36,488: INFO: running train_word2vec_model.py wiki.ja.text.seg wiki.ja.text.model wiki.ja.text.vector
2017-08-05 10:07:36,488: INFO: collecting all words and their counts
2017-08-05 10:07:36,987: INFO: PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2017-08-05 10:07:40,235: INFO: PROGRESS: at sentence #10000, processed 14821154 words, keeping 331578 word types
2017-08-05 10:07:42,616: INFO: PROGRESS: at sentence #20000, processed 26390071 words, keeping 460102 word types
2017-08-05 10:07:44,998: INFO: PROGRESS: at sentence #30000, processed 37964762 words, keeping 564342 word types
2017-08-05 10:07:47,194: INFO: PROGRESS: at sentence #40000, processed 48545047 words, keeping 646214 word types
2017-08-05 10:07:49,295: INFO: PROGRESS: at sentence #50000, processed 58317699 words, keeping 721035 word types
2017-08-05 10:07:51,343: INFO: PROGRESS: at sentence #60000, processed 68004654 words, keeping 792181 word types
......
2017-08-05 10:09:08,781: INFO: PROGRESS: at sentence #680000, processed 409479305 words, keeping 2834719 word types
2017-08-05 10:09:09,424: INFO: collected 2850995 word types from a corpus of 412099956 raw words and 686982 sentences
2017-08-05 10:09:09,424: INFO: Loading a fresh vocabulary
2017-08-05 10:09:14,927: INFO: min_count=5 retains 694985 unique words (24% of original 2850995, drops 2156010)
2017-08-05 10:09:14,927: INFO: min_count=5 leaves 408795795 word corpus (99% of original 412099956, drops 3304161)
2017-08-05 10:09:16,318: INFO: deleting the raw counts dictionary of 2850995 items
2017-08-05 10:09:16,848: INFO: sample=0.001 downsamples 21 most-common words
2017-08-05 10:09:16,848: INFO: downsampling leaves estimated 349167352 word corpus (85.4% of prior 408795795)
2017-08-05 10:09:16,848: INFO: estimated required memory for 694985 words and 200 dimensions: 1459468500 bytes
2017-08-05 10:09:18,921: INFO: resetting layer weights
2017-08-05 10:09:24,379: INFO: training model with 12 workers on 694985 vocabulary and 200 features, using sg=0 hs=0 sample=0.001 negative=5 window=5
2017-08-05 10:09:24,379: INFO: expecting 686982 sentences, matching count from corpus used for vocabulary survey
2017-08-05 10:09:25,404: INFO: PROGRESS: at 0.01% examples, 686393 words/s, in_qsize 23, out_qsize 1
2017-08-05 10:09:26,443: INFO: PROGRESS: at 0.03% examples, 725416 words/s, in_qsize 23, out_qsize 0
2017-08-05 10:09:27,446: INFO: PROGRESS: at 0.04% examples, 716348 words/s, in_qsize 21, out_qsize 0
......
2017-08-05 10:50:42,284: INFO: PROGRESS: at 100.00% examples, 704566 words/s, in_qsize 1, out_qsize 1
2017-08-05 10:50:42,284: INFO: worker thread finished; awaiting finish of 1 more threads
2017-08-05 10:50:42,288: INFO: worker thread finished; awaiting finish of 0 more threads
2017-08-05 10:50:42,288: INFO: training on 2060499780 raw words (1745853260 effective words) took 2477.9s, 704568 effective words/s
2017-08-05 10:50:42,288: INFO: saving Word2Vec object under wiki.ja.text.model, separately None
2017-08-05 10:50:42,288: INFO: not storing attribute syn0norm
2017-08-05 10:50:42,288: INFO: storing np array 'syn0' to wiki.ja.text.model.wv.syn0.npy
2017-08-05 10:50:42,601: INFO: storing np array 'syn1neg' to wiki.ja.text.model.syn1neg.npy
2017-08-05 10:50:42,852: INFO: not storing attribute cum_table
2017-08-05 10:50:49,565: INFO: saved wiki.ja.text.model
2017-08-05 10:50:51,939: INFO: storing 694985x200 projection weights into wiki.ja.text.vector

Now let’s test the Japanese Word2Vec Model based on the Japanese Wikipedia data:

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
Type "copyright", "credits" or "license" for more information.
 
IPython 2.4.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.
 
In [1]: import gensim
 
In [2]: model = gensim.models.Word2Vec.load("wiki.ja.text.model")

For example: 東京

In [3]: model.most_similar(u"東京")
Out[3]: 
[(u'\u6708\u4eac', 0.6112469434738159),
 (u'\u30ef\u30c3\u30b2\u30f3\u30aa\u30c3\u30b2\u30f3', 0.6062201261520386),
 (u'\u5927\u962a', 0.6042812466621399),
 (u'\u30db\u30c6\u30eb\u30cb\u30e5\u30fc\u30a2\u30eb\u30ab\u30a4\u30c3\u30af',
  0.5907672643661499),
 (u'\u5b87\u90e1', 0.5898394584655762),
 (u'\u4eac\u90fd', 0.5767502784729004),
 (u'\u5b87\u591a\u5ddd', 0.5670800805091858),
 (u'\u7b51\u99a8', 0.5605014562606812),
 (u'\u725f\u5208', 0.5499262809753418),
 (u'\u859b\u5b89', 0.5391339659690857)]
 
In [4]: for element in model.most_similar(u"東京"):
    print element[0], element[1]
   ...:     
月京 0.611246943474
ワッゲンオッゲン 0.606220126152
大阪 0.604281246662
ホテルニューアルカイック 0.590767264366
宇郡 0.589839458466
京都 0.576750278473
宇多川 0.567080080509
筑馨 0.560501456261
牟刈 0.549926280975
薛安 0.539133965969

大阪

In [5]: for element in model.most_similar(u"大阪"):
    print element[0], element[1]
   ...:     
京都 0.778857648373
名古屋 0.672450840473
神戸 0.670651137829
東大阪 0.633149981499
関西 0.613372206688
東京 0.604281187057
吹田 0.597456157207
札幌 0.591529905796
守口 0.584732532501
門真 0.57708132267

日本

In [6]: for element in model.most_similar(u"日本"):
    print element[0], element[1]
   ...:     
中国 0.550145804882
わが国 0.533122181892
韓国 0.504602491856
本邦 0.486742883921
日本人 0.48331362009
米国 0.47835868597
台湾 0.47254306078
欧米 0.4697945714
我が国 0.460208207369
東亜 0.458307474852

米国

In [7]: for element in model.most_similar(u"米国"):
    print element[0], element[1]
   ...:     
アメリカ 0.820016622543
英国 0.774657487869
アメリカ合衆国 0.747718691826
カナダ 0.736211895943
イギリス 0.720039367676
オーストラリア 0.661756575108
北米 0.639543294907
合衆国 0.636670708656
海外 0.623015642166
欧州 0.60345351696

アメリカ

In [8]: for element in model.most_similar(u"アメリカ"):
    print element[0], element[1]
   ...:     
イギリス 0.834335744381
米国 0.820016682148
カナダ 0.780647158623
アメリカ合衆国 0.778741955757
英国 0.743594348431
オーストラリア 0.718291401863
ドイツ 0.678660273552
フランス 0.671613454819
ヨーロッパ 0.651218116283
合衆国 0.64787209034

コンピューター

In [9]: for element in model.most_similar(u"コンピューター"):
    print element[0], element[1]
   ....:     
コンピュータ 0.791606009007
オートメーション 0.646292209625
パソコン 0.63801586628
マイコン 0.634540200233
ロボティクス 0.6023863554
ハッキング 0.593809187412
マイクロコンピュータ 0.592318475246
クアンタ 0.591250896454
ソフトウエア 0.590037584305
シミュレータ 0.586579084396

ソフトウエア

In [10]: for element in model.most_similar(u"ソフトウエア"):
    print element[0], element[1]
   ....:     
ソフトウェア 0.793316960335
ハードウェア 0.760105967522
アプリケーション 0.755239069462
ソリューション 0.750909507275
データウェアハウス 0.750815987587
catia 0.742572307587
fpga 0.737077832222
アセンブラ 0.734835624695
コンポーネント 0.733217716217
rdbms 0.731550693512

You can browse other Japanese word2vec model examples on Japanese Word Similarity, just enjoy it.

Reference:
Training Word2Vec Model on English Wikipedia by Gensim
Exploiting Wikipedia Word Similarity by Word2Vec
Wikipedia_Word2vec
Getting started with Word2Vec
Training a Chinese Wikipedia Word2Vec Model by Gensim and Jieba
Word Similarity

Posted by Text Mining

Deep Learning Specialization on Coursera

Comments

Training a Japanese Wikipedia Word2Vec Model by Gensim and Mecab — 3 Comments

Leave a Reply

Your email address will not be published.