総研大2024

2024/06/24 (小木曽担当最終回)

短単位解析(Web茶まめ)とデータベース

語数表と調整頻度

ランダムサンプリング調査

Excelの文字列関数

VLOOKUP関数の利用

コーパスの語彙表

語彙表とコロケーション強度

特徴語抽出

2024/06/17

DTDと検証(validation)

XPath, XSLT

XMLファイルと形態論情報DB

XMLファイルの形態素解析

書き言葉コーパスの例(テキスト化+XMLアノテーション+形態論情報付与)

参考:日本語テキスト処理基礎講座2023

2024/06/10

XMLアノテーションの実際

Himawariでの利用

2024/06/03

正規表現の利用例:中納言の検索結果を整える

エディタに検索結果の列を貼り付けて置換で整形

XML

BCCWJのXMLタグセット

TEI (Text Encoding Initiative)

2024/05/27

補足:VSCodeのGrep検索

  1. フォルダを開く
  2. 検索
  3. "エディターで開く"

正規表現(続き)

正規表現とは

正規表現のいろいろ


正規表現の応用

テキストデータ(青空文庫の夏目漱石作品)の配布

タグ付き正規表現

検索文字列の中での後方参照

正規表現に関する参考資料

2024/05/20

日本語電子化資料の歴史

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト:テキスト (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

コーパスのファイル形式とアプリケーション

テキストエディタ

テキストデータと文字コード

正規表現について


*1 拡張正規表現では可能

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS