日本語テキスト処理基礎講座2023
の履歴(No.6)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
日本語テキスト処理基礎講座2023
へ行く。
1 (2023-07-18 (火) 04:12:34)
2 (2023-07-18 (火) 04:59:01)
3 (2023-07-18 (火) 13:28:39)
4 (2023-07-18 (火) 18:13:45)
5 (2023-07-18 (火) 18:13:45)
6 (2023-07-23 (日) 17:14:37)
7 (2023-07-31 (月) 08:20:34)
8 (2023-08-08 (火) 14:29:03)
9 (2023-08-09 (水) 19:12:06)
日本語テキスト処理のためのPC基礎講座2023
†
↑
はじめに
†
時間が足りないので、講習中に完全に理解するのは難しい場合があるかもしれません(というか、たぶん無理)。
自分で検索して調べ直すためのキーワードは分かるはずなのでぜひ復習してください。
勤務時間内だけで全部すませたい方は参加しない方がいいと思います。
↑
利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
Visual Studio Code
テキストデータの処理全般、正規表現、XMLなど
表計算ソフト
Excel
ピボットテーブルによる分析、文字列関数、VLOOKUPなど
ターミナル
WSL(Ubuntu)
Linux CUIの基本的なファイル操作、パイプ、テキスト処理ツールの利用
↑
目次
†
↑
DAY1 7月18日(火)①テキストエディタと正規表現
†
↑
DAY1 7月25日(火)②Excelの利用
†
🍣🍻
↑
歴史を振り返る
†
↑
紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化
†
(紙の)本文
(紙の)総索引(コンコーダンス)
電子化テキスト:テキストファイル (199x年代~)
授業資料/テキストデータ紹介
構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
太陽コーパス
など
単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報(201x年代~)
現代日本語書き言葉均衡コーパス(BCCWJ)
など
日本語歴史コーパス(CHJ)
など
↑
コーパスのファイル形式とアプリケーション
†
ファイル形式
利用アプリケーション
年代
電子テキスト
プレーンテキストファイル,CSVファイル
テキストエディタ+grepなど
199x年代~
構造化テキスト
XMLファイル
全文検索システム
「ひまわり」
、XMLエディタ(Oxygen, VSCode)、XPath・XSLTなど
200x年代~
単語情報付きデータ
単語情報を埋め込んだXML/XMLファイル+CSVファイル
中納言(オンライン)/
Chaki.Net
(PC上)など
201x年代~