忍者ブログ
盛大な独り言日記・自分用メモ2010.11.17~
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

動作が遅いのはやっぱりいちいちトレーニングファイル開いたり閉じたりしてたからかもしれない。
というかトレーニングの使い方が間違っていたぽい…

訓練(トレーニング)はあくまで訓練なので、ここで本番のテキストの分類を行うのではない!
今までのプログラムは普通にトレーニング要素に入力文と回答集をぶち込んでました。
そうじゃなくて、
トレーニング→適当な言葉や文で事前にやっておく、
テスト→本番、ヘルプ質問文の分類をする。

トレーニングではあらかじめ学習をさせておいて、DB化しておく
なのでDB作るプログラムと、それを利用して入出力を受け付けるプログラムの最低2つが必要になる?

で今、今までとは別のサンプルを探しだしてきていろいろいじってみました。

テキストはPC関連の使い方解説サイトから取り出して、改行分かち書きしたものをトレーニングデータとしてテキストファイルに保存。
3つほどカテゴリを用意して試してみたら、3つのどれに含まれるか、の判断はそこそこうまくいってました。
今はテキストファイル→まるごとpythonのリストにあてはめているのですが、
カテゴリに直接回答文を持ってくる場合だと、この方法では大量のテキストファイルが必要になってしまいます…。
テキストファイル内に見出し記号を作って、それが現れるごとに新しいリストを生成するとか、そういう方法で行きたいんだけどうまくいくかな…

いかめも:
テスト(訓練ではなく実際にカテゴリ求める)のときの入力文は、そのまま入れると最初のカテゴリにはめられてしまう。
トレーニングデータが形態素分かち書きなので、合わせて入力文も形態素分かち書き→リスト化したもので調べるようにする。

×(u'壁紙の設定方法は?')→◎(u'壁紙',u'の',u'設定',u'方法',u'は',u'?')
PR
この記事にコメントする
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
この記事へのトラックバック
この記事にトラックバックする:
[83]  [82]  [81]  [80]  [79]  [78]  [77]  [76]  [75]  [74]  [73
プロフィール
 たごさく(@Ta56)
カレンダー
04 2025/05 06
S M T W T F S
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
最新CM
最新記事
最新TB
バーコード
ブログ内検索
最古記事
Admin / Write
忍者ブログ [PR]