近代文語形態素解析†
Taiyoインデックス・unidic登録候補の選定†
- 原則として「辞書に載せるべきもの」を選定する
- ただし、辞書になくとも当時通用だった(実際に複数出現している)ものは選定する
- 次のようなものは選定しない
- ふりがな付き出現形で、ふりがなと見出しが違うものは取らない
- 誤字と考えられるものは取らない(当該出現形が辞書になく、似た出現形が辞書にある)
- 無理に分割して作られた見出しは取らない(例:過日[このあひだ]→日=あひだ)
- 語形変化を起こしており、出現形の仮名と見出しにずれがあるもの
- 辞書になく、語義・用法が判別不能な訓読みの語
- 注意すべきもの
- 語彙素(代表形)はunidicにあわせて登録する必要がある。
- unidicの語彙素は、なるべく漢字を使った長い形で入れてある
- 語彙素(代表形)で送り仮名が省略されているもの→unidicにあわせて送り仮名を付ける
- 同じ語彙素の異語形→語形レベルでまとめる必要がある