漢字を注音符号にするWebサービス(4)

広告

かなり雑なデザインだけどとりあえず完成。Webデザインはおいおいやることにします。追記:Googleで”漢字 注音符号 変換”を検索するとトップなので、たぶん唯一のサービスなんでしょう。

漢字→注音符号変換

サンプル

台湾のyahooあたりで適当なニュース記事を拾ってきてテスト。

入力「冬天針織款單品絕對不能錯過。草寫英文字母圖騰搭配合身的設計。不管是搭配襯裙或牛仔褲都很好看」
出力

ㄉㄨㄥ1
ㄊㄧㄢ1
ㄓㄣ1
ㄓ1
ㄎㄨㄢ3
ㄉㄢ1
ㄆㄧㄣ3
ㄐㄩㄝ2
ㄉㄨㄟ4
ㄅㄨ2/ㄅㄨ4
ㄋㄥ2
ㄘㄨㄛ4
ㄍㄨㄛ4
?
ㄘㄠ3
ㄒㄧㄝ3
ㄧㄥ1
ㄨㄣ2
ㄗ4
ㄇㄨ3
ㄊㄨ2
ㄊㄥ2
ㄉㄚ1
ㄆㄟ4
ㄏㄜ2
ㄕㄣ1
/ㄉㄧ2
ㄕㄜ4
ㄐㄧ4
?
ㄅㄨ2/ㄅㄨ4
ㄍㄨㄢ3
ㄕ4
ㄉㄚ1
ㄆㄟ4
ㄔㄣ4
ㄑㄩㄣ2
ㄏㄨㄛ4
ㄋㄧㄡ2
ㄗ1/ㄗ3
ㄎㄨ4
ㄉㄡ1
ㄏㄣ3
ㄏㄠ3/ㄏㄠ4
ㄎㄢ4/ㄎㄢ1

中国語でなくても問題なく処理できます。もちろん注音符号はありませんので”?”が表示されます。

入力「年が明けて1ヶ月ほど経ったため、ぼちぼち各地の大学のサマープログラムの案内が来るようになりました。」
出力

ㄋㄧㄢ2
?
ㄇㄧㄥ2
?
?
1 ?
?
yㄨㄜ4
?
?
ㄐㄧㄥ4
?
?
?
?
?
?
?
?
?
ㄍㄜ4
ㄉㄧ4
?
ㄉㄚ4
ㄒㄨㄜ2
?
?
?
?
?
?
?
?
?
?
ㄢ4
ㄋㄟ4
?
ㄌㄞ2
?
?
?
?
?
?
?
?
?
?

まだバグがありますね。月:yueが上手く変換できていない。直しておこう。

置き場について

Onaneet & Companyドメインに置くかネオニート商会にするか考えたけど、今後中国語関係を増やしていくなら卑猥なイメージのあるオナカンよりもネオニート商会か(株)自宅警備員の方がいいと思って暫定的に置きます。

ネオニート商会のWebサービス(というほど立派じゃないけど)には他にもいくつかあり

イートレードランキング

なんかは日常的に自分で使っています。これは近日中にもう少しマシなものにしたいと思っています。なんせ、イートレランキングってSBIランキング以前から使っているもので、よくこんなコードで動作するなと感心するほど汚いコードです。でも短くて案外合理的だったりする。新しいのはRuby + mechanize + Nokogiri + xpathを使ったモダンな設計になっています。mysqlにガシガシ記録していく方式なので時系列的な分析もできたり機能は飛躍的に向上するはず。

phaさんのトップページに色々Webサービスのリンクが張ってあるので、ああいう感じでそのうちまとめたい。

簡単な解説

前回までに作った漢字と注音符号の対応表(CSVファイル)をPHPで読んで、単に二分検索でごりごり計算しているだけの簡単なものです。文字が約20,000文字あるから、頭から探していくと文字数によっては大変なことになりそうなので、二分検索にしました。2^15 = 32,768なのでたかだか10回ちょっとの探索で全部の漢字を調べ尽くすことができるはずです。

PHPは久しぶりに使うから案外手こずった。PHPの文字列がどうなっているかとか知らないからね。C言語だと単なるcharの配列で、つまり数字の羅列だとわかっているから比較をするのも簡単です。