CATEGORY 言語

中国語をCEDICT, MeCab, Kuromojiで単語分割する

形態素解析ではありません。品詞などの情報は意識せず、長い単語を優先してザクザク切っていくだけです。 CC-CEDICTはオープンソース(Creative Commons)の中国語の辞書です。繁体字、簡体字、ピンインの発音…

SentencePieceをCLionでコンパイルする

最近SentencePieceというツールをいじっています。このツールについては「Sentencepiece : ニューラル言語処理向けトークナイザ」という記事で作者の方が解説をしてくださっています。ありがたや。 しかし…

MeCabの中国語分割辞書を作る話

この話題も何度目になるかわかりませんが MeCab的诸多优点以及它的通用性一直深深吸引着我,但是除了日文资料,相关的中文或英文资料相当匮乏,曾经尝试过基于MeCab的中文翻译文档以及代码中测试用例中的例子来训练一套中文分…

英語の助動詞の過去形について

英語については詳しい人が色々記事を書いているので、細かいところは端折ります。 先日、ある非英語圏の女性とご飯に行ったのですが、なかなか悲惨な体験をしました(うそ)。お互いに相手の英語がよくわからないのです。自分の言ってい…

新しい形態素解析器Sudachiがリリースされていました

Sudachi 形態素解析器は文章を形態素に分割するツールですが、必ずしも形態素(意味を持つ最小の単位)に分割するとは限らないので、分かち書きツールとも言われますが、ここでは形態素解析器に統一します。 形態素解析器はMe…

「瑞穂の國記念小學院」はなぜ「紀念」ではないのか

ほんとどうでもいいいことなんだけど、森友学園問題が紛糾しています。「瑞穂の國記念小學院」は日本会議関係者がやってるとかで、漢字に旧字体を使っています。私は台湾で中国語を勉強したので旧字体には馴染みがあるのですが、「瑞穂の…

私の英語力

最初に断っておくと私は英語がうまくはない。「君は人の英語をとやかく言えるほどできるの?」と突っ込まれるとごめんなさいと言うしかない。なので最初に謝っておきます、ごめんなさい。 そういえばそろそろセンター試験の時期である。…

英語のリスニングの練習法

思いつきで書きますが、ネイティブの英語の話すスピードが速くて理解できないという話をよく聞きます。ですが個人的な経験から言うと、速いから聞き取れないことが原因であることは少ないと思っています。私の場合は聞き取れないのはその…