#author("2023-08-08T14:29:03+09:00","default:ogiwiki","ogiwiki")
*日本語テキスト処理のためのPC基礎講座2023 [#weccda4c]

**はじめに [#x3584c26]

-時間が足りないので、講習中に完全に理解するのは難しい場合があるかもしれません(というか、たぶん無理)。
-自分で検索して調べ直すためのキーワードは分かるはずなのでぜひ復習してください。
-勤務時間内だけで全部すませたい方は参加しない方がいいと思います。

***利用する主なソフトウェア [#i06478d2]

|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''Visual Studio Code''>https://azure.microsoft.com/ja-jp/products/visual-studio-code]]|テキストデータの処理全般、正規表現、XMLなど|
|表計算ソフト''Excel''|ピボットテーブルによる分析、文字列関数、VLOOKUPなど|
|ターミナル ''WSL(Ubuntu)''|Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用|

**目次 [#qc83a889]

***[[DAY1 7月18日(火)①テキストエディタと正規表現>日本語テキスト処理基礎講座2023/①テキストエディタと正規表現]] [#o3e2962a]

***[[DAY2 7月25日(火)②Excelの利用>日本語テキスト処理基礎講座2023/②Excelの利用]] [#cb88169c]

***[[DAY3 8月1日(火)③XMLの基礎>日本語テキスト処理基礎講座2023/③XMLの基礎]] [#t997ec2f]

***[[DAY4 8月8日(火)④コマンドラインの基礎>日本語テキスト処理基礎講座2023/④コマンドラインの基礎]] [#u705a914]

🍣🍻


**歴史を振り返る [#h883c88d]

***紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化 [#s7dfd61c]

+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子化テキスト:テキストファイル (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報(201x年代~)
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.ninjal.ac.jp/bccwj/]]など
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/chj/]]など

***コーパスのファイル形式とアプリケーション [#v16f2d86]

||ファイル形式|利用アプリケーション|年代|h
|電子テキスト|プレーンテキストファイル,CSVファイル|テキストエディタ+grepなど|199x年代~|
|構造化テキスト|XMLファイル|全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]、XMLエディタ(Oxygen, VSCode)、XPath・XSLTなど|200x年代~|
|単語情報付きデータ|単語情報を埋め込んだXML/XMLファイル+CSVファイル|中納言(オンライン)/[[Chaki.Net>https://ja.osdn.net/projects/chaki/]](PC上)など|201x年代~|

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS