田吾作メモ文字コードのメモ

盛大な独り言日記・自分用メモ2010.11.17～

2025/07/19 (Sat)　00:49:13
[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2011/06/14 (Tue)　12:05:21
文字コードのメモ

形態素解析の前に、文字の種類が変わった時に切った単位で文生成みたいなのがあったので…
ひらがな、漢字、カタカナでそれぞれ区切るそうです。n-gramよりは区切り目がそれっぽくなるのかな。
0xが頭につくと続きの文字を16進数とみなすそうです。
２バイト文字を取り出すための条件式で(dは文字の第一バイト)
＞0x7Fとあった部分についてよくわかってなかったので

シフトJISでは、
①0x81〜0x9F、0xE0〜0xEFの範囲のバイトが現れると2バイトモードを開始
　このバイトは2バイト文字の第1バイトとして処理されます。次の２バイト目は、
②0x40〜0x7E、0x80〜0xFCの範囲でなければなりません。

と書かれているページを見つけました。（http://www.kanzaki.com/docs/jcode.html）
上の条件式でのdは第一バイトだけを比較して、ここでの２バイトモード開始範囲で
条件を出していたみたいです。頭だけ見れば２バイトかどうか判別できるんですね。
しかし最初の条件が7Fからなのはなぜなんだ。80じゃなくて81からが範囲なら、最初の条件は80
それでこの方法で２バイトだけ保存したら、次はその文字が漢字か、カタカナかそれ以外かを判別します。
漢字の範囲は8800～9FFFとE000～EFFF
第一バイトをb1、第二バイトをb2とすると、第二バイトは②の範囲全部取りうるので省略して
＞0x87っていうことでいいんだろうか。本は単に0x88<=b1ってなってるんですが、9FからE0までの間は特に何も割り当てられてないんでしょうか。
カタカナの範囲は8340～8396
＞b1==0x83 && 0x40<=b2<0x97

それで残りを句読点かどうかで振り分けて、たぶんひらがなとあれば記号が残って切り出しは完了らしいです。

形態素解析のページ見るつもりが文字コードのせいで時間が。。(^q^)うひゃー
文字種類での切り出しは読むくらいにしといて、ちょっとめかぶとかと組み合わせる方をやってみたいと思います。

なんかこのブログどれかの文字が入ると周辺の文字保存時に消されるんだけど…
しかもどの文字がいけないのか分からない(^o^)どういうことよ

研究用 Trackback() Comment(0)