- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2023-07-18T00:13:45+00:00","default:ogiwiki","ogiwiki")
#author("2023-08-20T17:10:57+09:00;2023-08-09T19:12:06+09:00","default:ogiwiki","ogiwiki")
*日本語テキスト処理のためのPC基礎講座2023 [#weccda4c]
**はじめに [#x3584c26]
-時間が足りないので、講習中に完全に理解するのは難しい場合があるかもしれません(というか、たぶん無理)。
-自分で検索して調べ直すためのキーワードは分かるはずなのでぜひ復習してください。
-勤務時間内だけですませたい方は参加しない方がいいと思います。
-勤務時間内だけで全部すませたい方は参加しない方がいいと思います。
***利用する主なソフトウェア [#i06478d2]
|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''Visual Studio Code''>https://azure.microsoft.com/ja-jp/products/visual-studio-code]]|テキストデータの処理全般、正規表現、XMLなど|
|表計算ソフト''Excel''|ピボットテーブルによる分析、文字列関数、VLOOKUPなど|
|ターミナル ''Ubuntu (WSL)''|Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用|
|ターミナル ''WSL(Ubuntu)''|Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用|
**目次 [#qc83a889]
-録画を見るにはNINJALのMicrosoftアカウントが必要です。
***[[DAY1 7月18日(火)①テキストエディタと正規表現>日本語テキスト処理基礎講座2023/①テキストエディタと正規表現]] [#o3e2962a]
-資料:[[日本語テキスト処理基礎講座2023/①テキストエディタと正規表現]]
-録画:https://ninjal-my.sharepoint.com/:v:/g/personal/togiso_ninjal_ac_jp/EVZndtiWE4FHkV9wUEcjSv4BU2_2bWQvV4hYZ99CMsEh8A?e=5zm4ex
***[[DAY2 7月25日(火)②Excelの利用>日本語テキスト処理基礎講座2023/②Excelの利用]] [#cb88169c]
-資料:[[日本語テキスト処理基礎講座2023/②Excelの利用]]
-録画:https://ninjal-my.sharepoint.com/:v:/g/personal/togiso_ninjal_ac_jp/ETrXCUHhFV5CpF4XujdRwRwBzmAeBoQCCrfW0s6_50Ilig?e=iJt1pe
***[[DAY3 8月1日(火)③XMLの基礎>日本語テキスト処理基礎講座2023/③XMLの基礎]] [#t997ec2f]
-資料:[[日本語テキスト処理基礎講座2023/③XMLの基礎]]
-録画:https://ninjal-my.sharepoint.com/:v:/g/personal/togiso_ninjal_ac_jp/EdmCpaiS5ZhDuXJLgwfOaYsBkaXrgRs-H4jmY418lmU9TQ?e=RY6RZs
***[[DAY4 8月8日(火)④コマンドラインの基礎>日本語テキスト処理基礎講座2023/④コマンドラインの基礎]] [#u705a914]
-資料:[[日本語テキスト処理基礎講座2023/④コマンドラインの基礎]]
-録画:https://ninjal-my.sharepoint.com/:v:/g/personal/togiso_ninjal_ac_jp/ET8vkcj0lbhAolW8XXWlxWwBtB96BHxPba3-f2eWcIqTIg?e=FkKmBT
🍣🍻
**歴史を振り返る [#h883c88d]
***紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化 [#s7dfd61c]
+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子化テキスト:テキストファイル (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報(201x年代~)
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.ninjal.ac.jp/bccwj/]]など
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/chj/]]など
***コーパスのファイル形式とアプリケーション [#v16f2d86]
||ファイル形式|利用アプリケーション|年代|h
|電子テキスト|プレーンテキストファイル,CSVファイル|テキストエディタ+grepなど|199x年代~|
|構造化テキスト|XMLファイル|全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]、XMLエディタ(Oxygen, VSCode)、XPath・XSLTなど|200x年代~|
|単語情報付きデータ|単語情報を埋め込んだXML/XMLファイル+CSVファイル|中納言(オンライン)/[[Chaki.Net>https://ja.osdn.net/projects/chaki/]](PC上)など|201x年代~|
-XMLの限界とスタンドオフアノテーション
--複雑なコーパスはタグの交差や検索性の面でXMLだけでの表現に限界がある
--言語の構造と紙面情報、パラ言語情報(イントネーションなど)は奇麗に構造化できない
--XMLファイル+文字位置を使った表形式データで扱っている