*ひまわり用データ作成ツール『えだまめ』 [#t5725b46] RIGHT:小木曽 togiso@kokken.go.jp -フォルダに分類したテキストファイルから『ひまわり』で利用できるデータを作ります。 --出力されるファイルはUTF-16LEエンコード、LF改行のunidoc形式になります。 --入力元になるテキストファイルの文字コードはShift_JISとUTF-16が選べますが、すべてのファイルがどちらか一方でなければなりません。 --文字コードが混在したテキストファイル集を変換する場合は、[[このあたり(vector)>http://www.vector.co.jp/vpack/filearea/win/util/text/conv/code/]]にあるツールを使って置換して下さい。 &ref(edamame.jpg); **使い方 [#ld5f26f2] ***I.「えだまめ」で「ひまわり」用データを作る [#tb902b86] +edamame.htaをダブルクリックして起動します。 +[元データがあるフォルダ]の[参照]ボタンを押して、テキストデータがある場所を指定して下さい。指定されたフォルダより下の階層にあるデータが変換対象になります。 --例:フォルダ構造が次のようになっている場合に、近代の夏目漱石・森鴎外・与謝野晶子のデータを「ひまわり」で利用できるようにするためには G:\_テキストデータ\近代 を指定します。&br;&ref(folder_tree.png); +必要に応じて[変換オプション]を指定します。 --[文字コード]は変換対象となるテキストファイルの文字コードを指定します。一般にはShift_JISが使われています。 --[対象ファイルの種類]は変換対象となるテキストファイルを拡張子で指定します。通常はTXTのままにして下さい。 --[ふりがな]でオプションを指定すると振り仮名入りファイルの変換を行います。よくわからない場合には[変換しない]を選んで下さい。 ---例えば「&ruby(ふりがな){漢字};」という振り仮名付きの文字列が |漢字《ふりがな》 という形で入力されているような場合には[|漢字《ふりがな》]を指定します。括弧(《》)が振り仮名を囲む記号、最初の記号(|)が振り仮名が振られる部分の開始位置を表します。 --[改行文字]は改行の変換の仕方を指定します。よくわからない場合にはそのままにしておいて下さい。 --例:原文 吾輩は猫である 吾輩は猫である。名前は まだない。・・・ ---[改行タグに変換]:改行文字を改行タグに置換します。 吾輩は猫である<br/> <br/> 吾輩は猫である。名前は<br/> まだない。・・・ ---[「。」で改行]:改行文字を削除し、句点位置の直後に改行タグを挿入します。 吾輩は猫である 吾輩は猫である。<br/> 名前はまだない。<br/> ・・・ ---[除去(空行のみ変換)]:改行文字が二つ続いた場合のみ改行タグに置換し、それ以外の改行文字は削除します。 吾輩は猫である<br/> 吾輩は猫である。名前はまだない。・・・ +必要に応じて[コーパスデータの出力先]を変更します。通常はそのままでかまいません。 --変換結果の出力先フォルダを変更する場合には[参照]ボタンを押して指定して下さい。標準ではデスクトップに出力する設定になっています。 --[コーパス名](設定ファイルの名前や変換結果を保存するフォルダの名前に使用します)を変更したい場合には書き換えて下さい。標準では元データがあるフォルダの名前になっています。 +[出力する]ボタンを押して下さい。変換処理を実行します。 --変換過程の記録が表示され、[検証]ボタンが使えるようになります。&br; &ref(edamame_result.png); +[検証する]ボタンを押して正しくできたか確認して下さい。 --異常があるとエラーが表示されます。変換元テキストデータの文字コードや中身に問題がないか確認し修正した後、最初からやり直して下さい。 --正常であれば「~~corpus.xmlは整形式のXMLファイルです。「ひまわり」でインデックス付けを行うことができます。」と表示されます。 +出力先(通常はデスクトップ)に次のようなファイルとフォルダが出来ているはずです。これらが「ひまわり」用のデータです。&br; &ref(result_data.png); --config_近代.xmlは「ひまわり」用の設定ファイルです。 --Corporaフォルダにはテキストデータを変換したXMLファイルなどが入っています。 ***II.「ひまわり」でインデックスを作る [#s90a2c39] +出力されたファイル・フォルダを「ひまわり」をインストールしたフォルダ(himawari)に移動します。 --himawariフォルダ内のCorporaフォルダを上書きする形になります。次のような警告がでますが、[はい]を押して下さい。コーパス名が同じでない限り、Corporaフォルダに元から入っていたデータはそのまま残ります。&br; &ref(overwrite.png); --himawariフォルダの中は次のような状態になります。&br; &ref(himawari_folder.png); +「ひまわり」を起動し、先ほど出来た設定ファイルを選択します。 ++「ひまわり」メニューの[ファイル]から[新規]を選びます。 ++次のダイアログボックスがでるので、ここで先ほど出力された設定ファイル(config_近代.xml)を選び[設定ファイルの選択]ボタンを押します。&br; &ref(open_config.png); +「ひまわり」でインデックス付けを行います。 ++「ひまわり」メニューの[ツール]から[インデックス生成]を選びます。&br; &ref(menu_indexing.png); ++「インデックスを生成します」というメッセージがでますので[実行]ボタンを押して下さい。 +インデックス付けが終わるまで待ちます。 --データの大きさによりますが、1時間以上かかることもあります。 --「インデックス生成処理が正常に終了しました」と表示されたら作業完了です。 +インデックス生成が終わると、新しいデータが検索が可能になっています。検索文字列を入れて試してみて下さい。 --今後は「ひまわり」を起動してメニューの[ファイル][新規]から設定ファイル(config_近代.xml)を選ぶだけで新しいデータが利用できます。 **bug情報・アイデア・ご意見を募集中です [#iac19e95] -configファイルとCorporaフォルダごと出力し、そのままインデックス付け出来るようになりました。 -- [[おぎそ]] &new{2005-11-30 (水) 16:30:06}; -出力ファイルの検証(validation)機能も付けました。 -- [[おぎそ]] &new{2005-11-30 (水) 16:30:50}; -EDAMAME_20051202.lzh をアップしました(代理)。 -- [[山口昌也]] &new{2005-12-02 (金) 17:18:42}; #comment