田吾作メモ

田吾作メモ盛大な独り言日記・自分用メモ2010.11.17～ 2010-11-17T17:49:25+09:00 Ta56 忍者ブログ ta539.dankanoko.com://entry/86 2011-10-06T22:25:11+09:00 2011-10-06T22:25:11+09:00 対応内容メモつづきはこちら]]> Ta56 ta539.dankanoko.com://entry/85 2011-10-06T19:51:28+09:00 2011-10-06T19:51:28+09:00 動作が毎回の質問の度に、回答が出るまでに一瞬待ち時間があってそれが気になる。
パソコン全体の問題なら仕方ないけど、何かおかしな動きをしているのかな…]]> Ta56 ta539.dankanoko.com://entry/84 2011-10-06T01:01:19+09:00 2011-10-06T01:01:19+09:00 アンケートェ…
とりあえずテスト版を配布するために、SSP同根の簡素ヘルプを作りました。ファイル削った。

このテスト版を使って、今の時点でのヘルプの回答の精度を測りたいと思っています。
５～１０回とか適当な回数質問をしてもらって、その正答率をテストしてもらった人に手動でアンケートフォームに入力してもらおうと思ったのですが、
華和梨で何かしらのデータをセーブできるみたいな記事を見つけたので、
やっぱり回答後の「質問が解決できる返事でしたか？　はい　いいえ」の選択肢でパラメータを作って、
最後にアンケートに記入する時に、ここの数値を見て記入してもらう形に出来ないかなと考え中です。

うまくいけばいいけど。
あと初回起動→最初の質問をしたときに、辞書をリスト化する作業でかなり時間を食ってしまうのが
申し訳ないので、これもどうにかしないと。初回起動と同時に一回分類するとかした方がいいかな…
]]> Ta56 ta539.dankanoko.com://entry/83 2011-10-04T18:01:38+09:00 2011-10-04T18:01:38+09:00 やることあと作って終わりじゃなくて完成させて誰かに使ってもらって論文に結果出さないといけませんね。
ダラダラしてる場合じゃなかったー！

今までの作業は構造とか機能とか、中身の面での「使いやすい」ヘルプを作る作業だったのですが
そろそろＵＩとか、見た目や外見面での「親しみやすい」ヘルプを制作していこうと思います。
並行して辞書の充実を…

とりあえずキャラクターに喋ってもらうのですが、「親しみやすい」キャラクターがどんなものなのか
アンケートを取ろうかなと思っています。
今のだるまさんは自分ではよく描けたつもりでも人にうけたかっていうとそうでもないわけで、独りよがりは良くないですねってことで…
webのアンケートでデータを集めるのは邪道かもしれませんがとりあえず図を載せたりできるアンケートサービス見つけたので使う予定です

アンケート作って公開→アンケート収集しつつ辞書増やす→アンケート集計・キャラクター作成

作成後のプログラムをいろんな人に使ってもらいたい…とは思うのですが、そういう配布のためのセットも作らないと；いらないファイル消したりとかせんといかんです]]> Ta56 ta539.dankanoko.com://entry/82 2011-09-27T15:38:38+09:00 2011-09-27T15:38:38+09:00 伺かで動かす printの内容をリストから文字列に戻して、文字コードをwindows標準に戻したらいけました。
以前にpythonで制作→py2exeでexeに変換→伺かでの動作を試したときに、文字が表示されなかったり固まったりしていたのですが、文字コードに問題があったようです。

リストのままprintすると、伺か側が受け取れない（コンソールだとリストのままでもOK）みたいなので
リスト→テキストに変換
テキストの文字コードをcp932(windows標準）に戻す
printする

で、伺か側に標準出力の結果を渡せるみたいです。ちゃんとうごいた！
]]> Ta56 ta539.dankanoko.com://entry/81 2011-09-23T00:36:39+09:00 2011-09-23T00:36:39+09:00 分類プログラムあと入力文をソースに直接書いてたので、ここでコマンドライン引数→分かち書きにするのも入れときました。

できたもの
・入力文を分かち書きのリストに変換するプログラム①
・ベイズ分類の関数宣言と、訓練を行うプログラム②
・①からリストを持ってきて、②から関数と訓練した結果（？）を借りて入力文の分類を行うプログラム③（メイン）
・回答集のテキストファイル⑤

前の自分の記事読み直したけど、訓練の意味をまた間違えていたようです。
参考にしたソースを読んだときに勘違いしたのですが、訓練＝適当な言葉でベイズ分類する
というわけでは無い…ですよね。たぶん。入力文の単語とかすってなければ意味無さそうだし。たぶん。

ベイズ分類機の訓練部分(train)でやっているのは、
１：⑤の回答集をリスト化、各行１項目目をカテゴリにする×行数分
２：辞書の初期化？
３：回答集のデータから、カテゴリの数と単語の数を取得、ボキャブラリ集合の作成
４：カテゴリ内の形態素の行数（数）＋単語の種類の総数の計算（分類の際の計算に使う）

でこれは、入力文によらず決まっている作業なので、事前に全部やってデータを保管しておけば
実際に分類をするときにいちいちこの作業をしなくて済む……みたいです。
それでプログラムを分けてみたのですが、今のところは分類プログラムが訓練プログラムの関数を呼び出しているので、結局は毎回の分類の直前に訓練してから→分類という流れになってしまいプログラムが１つの時とやっている事は変わりません。
訓練部分でやった作業の成果をテキストファイルとかに書きこんで、それを分類部分で読み込み→リスト化して使用、とかだと最初に訓練するだけで何度でもお手軽に分類できるのかな。
しかしこれがまためんどくさそうです…。ややこしいっていうか、回答文集のファイル作るのとはまたわけが違うっていうか。しかも今の段階でも、前の（最初の）プログラムに比べたら待ち時間がかなり短くなったので、無理して事前作業にさせなくてもいいかな…と思ってしまいます。うーん
とりあえず伺かで動いてくれないとな…]]> Ta56 ta539.dankanoko.com://entry/80 2011-09-17T20:35:43+09:00 2011-09-17T20:35:43+09:00 配列
readlineで一行ずつ取り出して、タブ区切りの配列を作ったら
適当な配列を用意して、その配列に順次appendを使って項目を追加していけばよかったぽい

list=[] #配列は使う前に定義しておかないと怒られる

f=codecs.open('text.txt','r','utf-8')　　#日本語テキストファイルがうまい事読めるcodecs.open
x=f.reand()
y=x.split('\n') #テキストファイルの行数を取得するのに使うだけ

for i in range(len(y)): 　　　#一行ごとの処理を、行数文繰り返す
line = f.readline()
words = line.split('\t')　　#タブ区切りのリストを生成
list.append(words)　　　　　#タブ区切りリストをlistの要素に追加する。
f.close()

みたいなかんじ。
これで例えばprint list[1][0]とかすると、元のファイルの２行目の最初の項目が表示される。

実際には先にreadをしてからreadlineをすると、なぜか空白ばっかり返されたりするので
一回行数(yまで）を取得したら、ファイル閉じてまた開き直したりしてました。二度手間…

配列とりあえず作れたのはいいけど、これだけのせいでかなり時間食ったのがくやしい。。
まだまだこれからなんだよ！何もできちゃいないんだよ…]]> Ta56 ta539.dankanoko.com://entry/79 2011-09-17T01:07:50+09:00 2011-09-17T01:07:50+09:00 配列
＞説明文(タブ)キーワード（タブ）キーワード（タブ）キーワード（タブ）……（改行）

＞説明文(タブ)キーワード（タブ）キーワード（タブ）キーワード（タブ）……（改行）

みたいにデータを並べたとき、

txt.split('\n')で改行ごとに１要素のリストができて、
txt.split('\t')でタブごとに１要素のリストが出来る。

タブごとに何行分もの要素を持ったリスト１個を作成してから
適当な記号が出てくるたびにリストを分割する感じでリストをたくさん作りたいんだけどなんかうまくいかない。
for文の中でlist[i]=txt.split('\t')とかやると怒られる。うーん…？
]]> Ta56 ta539.dankanoko.com://entry/78 2011-09-14T19:18:46+09:00 2011-09-14T19:18:46+09:00 色々と… というかトレーニングの使い方が間違っていたぽい…

訓練（トレーニング）はあくまで訓練なので、ここで本番のテキストの分類を行うのではない！
今までのプログラムは普通にトレーニング要素に入力文と回答集をぶち込んでました。
そうじゃなくて、
トレーニング→適当な言葉や文で事前にやっておく、
テスト→本番、ヘルプ質問文の分類をする。

トレーニングではあらかじめ学習をさせておいて、ＤＢ化しておく
なのでＤＢ作るプログラムと、それを利用して入出力を受け付けるプログラムの最低２つが必要になる？

で今、今までとは別のサンプルを探しだしてきていろいろいじってみました。

テキストはＰＣ関連の使い方解説サイトから取り出して、改行分かち書きしたものをトレーニングデータとしてテキストファイルに保存。
３つほどカテゴリを用意して試してみたら、３つのどれに含まれるか、の判断はそこそこうまくいってました。
今はテキストファイル→まるごとpythonのリストにあてはめているのですが、
カテゴリに直接回答文を持ってくる場合だと、この方法では大量のテキストファイルが必要になってしまいます…。
テキストファイル内に見出し記号を作って、それが現れるごとに新しいリストを生成するとか、そういう方法で行きたいんだけどうまくいくかな…

いかめも：
テスト（訓練ではなく実際にカテゴリ求める）のときの入力文は、そのまま入れると最初のカテゴリにはめられてしまう。
トレーニングデータが形態素分かち書きなので、合わせて入力文も形態素分かち書き→リスト化したもので調べるようにする。

×(u'壁紙の設定方法は？')→◎(u'壁紙',u'の',u'設定',u'方法',u'は',u'？')
]]> Ta56 ta539.dankanoko.com://entry/77 2011-09-13T01:21:27+09:00 2011-09-13T01:21:27+09:00 コンソールのヘルプ君・無駄に反応が遅い
・日本語の正規表現が？？？？

入力された質問文に「何」って含まれていたら、意味を問う質問だと判断して
他のファイルで解析をせずに優先的に意味用の辞書に持って行きたいのですが。。
入力文字列に”何”という文字が含まれているかどうか、の判断部分がうまく書けない。

ベイジアンフィルタとかは見よう見まねで書いてちゃんと動いてるのにこんな簡単な検索が出来ない。うーん]]> Ta56