(スライド参照)
どんなものか
以前から使われているソフトウェア
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
前文脈 | キー | 後文脈 | タイトル | 著者 | 著者ID | 生没年 | 原著者 | 原著者ID | 仮名遣い | コーパス名 |
前文脈 | キー | 後文脈 | タイトル | 著者 | 著者ID | 生没年 | 原著者 | 原著者ID | 仮名遣い | コーパス名 |
まずは、テキストエディタを使ってテキストデータを扱うことからはじめます。
この授業ではBCCWJのほかに、青空文庫・国会会議録などの広義のコーパス、自作のミニコーパスなども取り扱います。
全ての基本。テキストデータ≒テキストファイル≒電子化テキスト