田吾作メモ作ったものメモ

盛大な独り言日記・自分用メモ2010.11.17～

2025/07/19 (Sat)　00:42:49
[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2011/06/15 (Wed)　14:06:47
作ったものメモ

Mecabで形態素解析する
↓
sort並び替え
↓
uniqc重複した項目を、重複回数を記録して１つにまとめる
　例）納豆　　　　　１　納豆
　　　ごはん　　　　３　ごはん　　
　　　ごはん　　　　２　パン
　　　ごはん　　　→
　　　パン
　　　パン
↓
sortn文頭の数字の大きい順（＝出現頻度順）に並べ替える

zenkaku文頭の数字や、品詞idの数字（半角文字）を削除する用

Mecabで形態素解析で品詞idを出した後、品詞ごとに別々のファイルに保存して辞書を作って、
それに対してsort→uniqc→sortn→zenkakuをかけて
頻度順に上から並んでるはずなので、言葉選びをこの頻度をもとにしておこなうようにしたらいいのかな…？
辞書を分けるところまでいかないので、いったん
sort-uniqc-sortn-zenkaku
で品詞が混ざった状態で形態素＋マルコフ連鎖のを作ってみようと思います。
作るっていうか辞書ファイルを入れ替えるだけだけど…。

研究用 Trackback() Comment(0)