盛大な独り言日記・自分用メモ2010.11.17~
×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
1つのファイルで入力→訓練→分類→表示をするものが出来たので、今度はファイルを複数に分割してみることにしました。
あと入力文をソースに直接書いてたので、ここでコマンドライン引数→分かち書きにするのも入れときました。
できたもの
・入力文を分かち書きのリストに変換するプログラム①
・ベイズ分類の関数宣言と、訓練を行うプログラム②
・①からリストを持ってきて、②から関数と訓練した結果(?)を借りて入力文の分類を行うプログラム③(メイン)
・回答集のテキストファイル⑤
前の自分の記事読み直したけど、訓練の意味をまた間違えていたようです。
参考にしたソースを読んだときに勘違いしたのですが、訓練=適当な言葉でベイズ分類する
というわけでは無い…ですよね。たぶん。入力文の単語とかすってなければ意味無さそうだし。たぶん。
ベイズ分類機の訓練部分(train)でやっているのは、
1:⑤の回答集をリスト化、各行1項目目をカテゴリにする×行数分
2:辞書の初期化?
3:回答集のデータから、カテゴリの数と単語の数を取得、ボキャブラリ集合の作成
4:カテゴリ内の形態素の行数(数)+単語の種類の総数の計算(分類の際の計算に使う)
でこれは、入力文によらず決まっている作業なので、事前に全部やってデータを保管しておけば
実際に分類をするときにいちいちこの作業をしなくて済む……みたいです。
それでプログラムを分けてみたのですが、今のところは分類プログラムが訓練プログラムの関数を呼び出しているので、結局は毎回の分類の直前に訓練してから→分類という流れになってしまいプログラムが1つの時とやっている事は変わりません。
訓練部分でやった作業の成果をテキストファイルとかに書きこんで、それを分類部分で読み込み→リスト化して使用、とかだと最初に訓練するだけで何度でもお手軽に分類できるのかな。
しかしこれがまためんどくさそうです…。ややこしいっていうか、回答文集のファイル作るのとはまたわけが違うっていうか。しかも今の段階でも、前の(最初の)プログラムに比べたら待ち時間がかなり短くなったので、無理して事前作業にさせなくてもいいかな…と思ってしまいます。うーん
とりあえず伺かで動いてくれないとな…
あと入力文をソースに直接書いてたので、ここでコマンドライン引数→分かち書きにするのも入れときました。
できたもの
・入力文を分かち書きのリストに変換するプログラム①
・ベイズ分類の関数宣言と、訓練を行うプログラム②
・①からリストを持ってきて、②から関数と訓練した結果(?)を借りて入力文の分類を行うプログラム③(メイン)
・回答集のテキストファイル⑤
前の自分の記事読み直したけど、訓練の意味をまた間違えていたようです。
参考にしたソースを読んだときに勘違いしたのですが、訓練=適当な言葉でベイズ分類する
というわけでは無い…ですよね。たぶん。入力文の単語とかすってなければ意味無さそうだし。たぶん。
ベイズ分類機の訓練部分(train)でやっているのは、
1:⑤の回答集をリスト化、各行1項目目をカテゴリにする×行数分
2:辞書の初期化?
3:回答集のデータから、カテゴリの数と単語の数を取得、ボキャブラリ集合の作成
4:カテゴリ内の形態素の行数(数)+単語の種類の総数の計算(分類の際の計算に使う)
でこれは、入力文によらず決まっている作業なので、事前に全部やってデータを保管しておけば
実際に分類をするときにいちいちこの作業をしなくて済む……みたいです。
それでプログラムを分けてみたのですが、今のところは分類プログラムが訓練プログラムの関数を呼び出しているので、結局は毎回の分類の直前に訓練してから→分類という流れになってしまいプログラムが1つの時とやっている事は変わりません。
訓練部分でやった作業の成果をテキストファイルとかに書きこんで、それを分類部分で読み込み→リスト化して使用、とかだと最初に訓練するだけで何度でもお手軽に分類できるのかな。
しかしこれがまためんどくさそうです…。ややこしいっていうか、回答文集のファイル作るのとはまたわけが違うっていうか。しかも今の段階でも、前の(最初の)プログラムに比べたら待ち時間がかなり短くなったので、無理して事前作業にさせなくてもいいかな…と思ってしまいます。うーん
とりあえず伺かで動いてくれないとな…
PR
この記事にコメントする