CATEGORY 中国語

中国語をCEDICT, MeCab, Kuromojiで単語分割する

形態素解析ではありません。品詞などの情報は意識せず、長い単語を優先してザクザク切っていくだけです。 CC-CEDICTはオープンソース(Creative Commons)の中国語の辞書です。繁体字、簡体字、ピンインの発音…

SentencePieceをCLionでコンパイルする

最近SentencePieceというツールをいじっています。このツールについては「Sentencepiece : ニューラル言語処理向けトークナイザ」という記事で作者の方が解説をしてくださっています。ありがたや。 しかし…

MeCabの中国語分割辞書を作る話

この話題も何度目になるかわかりませんが MeCab的诸多优点以及它的通用性一直深深吸引着我,但是除了日文资料,相关的中文或英文资料相当匮乏,曾经尝试过基于MeCab的中文翻译文档以及代码中测试用例中的例子来训练一套中文分…

Mac OS X Lionのmecabについて

Mac OS X Lionが出た。さっそくインストールした。マルチタッチジェスチャは秀逸だけど古いノートでは対応していなかった。もうマウスの時代は終わった感じがする。特にノートパソコンに外付けマウスをつけて使っている人は…

中国語の単語帳を電子書籍で出したい

前にも同じようなことを書いたけどまた書きます。 まず概略 以前本屋で中国語の単語帳を見たときいくつか見つけたけどろくなものがなかった。 たとえばこの単語帳は6,000語とかなり充実しているけど、単語のテーマごと(色とか)…

中国語の同綴(同形)異義語について

単なる疑問だけど書いておくと誰か博識な人が教えてくれるかも知れない。。。 中国語は基本的に漢字1つに1つの音が当てはまる 外国人、とくに台湾人に日本語を教えるときに面倒臭いのは日本語の漢字には読みがたくさんあること。例え…

NHKのラジオ語学講座

まずはコメントのお返事をします。 POSTED BY 匿名 ON 2010年4月23日 とある会社の大株主としてのオレの実感。 ●日本の企業はどういうわけか株主が経営に口出しするのを好まない。 日本の企業の99%以上はオ…