忍者ブログ
盛大な独り言日記・自分用メモ2010.11.17~
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

Mecabで形態素解析する

sort並び替え

uniqc重複した項目を、重複回数を記録して1つにまとめる
 例)納豆     1 納豆
   ごはん    3 ごはん  
   ごはん    2 パン
   ごはん   →
   パン
   パン

sortn文頭の数字の大きい順(=出現頻度順)に並べ替える


zenkaku文頭の数字や、品詞idの数字(半角文字)を削除する用


Mecabで形態素解析で品詞idを出した後、品詞ごとに別々のファイルに保存して辞書を作って、
それに対してsort→uniqc→sortn→zenkakuをかけて
頻度順に上から並んでるはずなので、言葉選びをこの頻度をもとにしておこなうようにしたらいいのかな…?
辞書を分けるところまでいかないので、いったん
sort-uniqc-sortn-zenkaku
で品詞が混ざった状態で形態素+マルコフ連鎖のを作ってみようと思います。
作るっていうか辞書ファイルを入れ替えるだけだけど…。
PR
この記事にコメントする
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
この記事へのトラックバック
この記事にトラックバックする:
[55]  [54]  [53]  [52]  [51]  [50]  [49]  [48]  [47]  [46]  [45
プロフィール
 たごさく(@Ta56)
カレンダー
04 2025/05 06
S M T W T F S
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
最新CM
最新記事
最新TB
バーコード
ブログ内検索
最古記事
Admin / Write
忍者ブログ [PR]