近代文語形態素解析†
Taiyoインデックスのunidic登録†
作業の流れ†
- 短単位選定【済】
- 品詞付与(まもなく済)
- 再チェック(不要なエントリの除去、品詞確認)
- unidic登録候補の選定+unidic語彙素への修正
- unidic登録候補の最終チェック
- DBへ一括登録
unidic登録候補の選定†
- 原則として「辞書に載せるべきもの」を選定する
- ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する
- 次のようなものは選定しない
- 誤字と考えられるもの(当該出現形が辞書になく、似た出現形が辞書にある)
- 無理に分割して作られた見出し(例:過日[このあひだ]→日=あひだ)
- 語形変化を起こしており、出現形の仮名と見出しにずれがあるもの
- 辞書になく、品詞すら判別不能な語
- 注意すべきもの
- 語彙素(代表形)はunidicにあわせて登録する必要がある(※unidicの語彙素は、なるべく漢字を使った長い形で入れてある)
- 語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける
- 同じ語彙素の異語形→語形レベルでまとめる必要がある