#author("2023-07-17T19:28:39+00:00","default:ogiwiki","ogiwiki") *日本語テキスト処理のためのPC基礎講座2023 [#weccda4c] **はじめに [#x3584c26] -時間が足りないので、講習中に完全に理解するのは難しい場合があるかもしれません(というか、たぶん無理)。 -自分で検索して調べ直すためのキーワードは分かるはずなのでぜひ復習してください。 -勤務時間内だけですませたい方は参加しない方がいいと思います。 ***利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''Visual Studio Code''>https://azure.microsoft.com/ja-jp/products/visual-studio-code]]|テキストデータの処理全般、正規表現、XMLなど| |表計算ソフト''Excel''|ピボットテーブルによる分析、文字列関数、VLOOKUPなど| |ターミナル ''Ubuntu (WSL)''|Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用| **目次 [#qc83a889] ***[[DAY1 7月18日(火)①テキストエディタと正規表現>日本語テキスト処理のためのPC基礎講座2023/①テキストエディタと正規表現]] [#o3e2962a] **歴史を振り返る [#h883c88d] ***紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化 [#s7dfd61c] +(紙の)本文 +(紙の)総索引(コンコーダンス) +電子化テキスト:テキストファイル (199x年代~) --[[授業資料/テキストデータ紹介]] +構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~) --[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など +単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報(201x年代~) --[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.ninjal.ac.jp/bccwj/]]など --[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/chj/]]など ***コーパスのファイル形式とアプリケーション [#v16f2d86] ||ファイル形式|利用アプリケーション|年代|h |電子テキスト|プレーンテキストファイル,CSVファイル|テキストエディタ+grepなど|199x年代~| |構造化テキスト|XMLファイル|全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]、XMLエディタ(Oxygen, VSCode)、XPath・XSLTなど|200x年代~| |単語情報付きデータ|単語情報を埋め込んだXML/XMLファイル+CSVファイル|中納言(オンライン)/[[Chaki.Net>https://ja.osdn.net/projects/chaki/]](PC上)など|201x年代~| -XMLの限界とスタンドオフアノテーション --複雑なコーパスはタグの交差や検索性の面でXMLだけでの表現に限界がある --言語の構造と紙面情報、パラ言語情報(イントネーションなど)は奇麗に構造化できない --XMLファイル+文字位置を使った表形式データで扱っている