総研大2023/言語資源学
をテンプレートにして作成
開始行:
[[総研大2023]]
-オフィスアワーについて
--月3:要予約
--月5:いつでも(できれば早めの時間に)
-[[言語資源学2023 SharePoint>https://ninjal.sharepoint.co...
**20230605 [#l260da5f]
***(前回補足)Himawariのindexing [#r095ae45]
-コーパスのXMLファイルをUTF-16LE(LF改行)で保存しておく...
--[[soseki_config.xml>https://www.dropbox.com/s/s9u3pyp18...
-テキストインポート機能
***国語研・形態論情報データベース [#a6da2243]
-報告書:『現代日本語書き言葉均衡コーパス』形態論情報デー...
-論文:『現代日本語書き言葉均衡コーパス』形態論情報アノテ...
***XMLファイルと形態論情報DB [#a9a85f44]
-スライド参照
***XMLファイルの形態素解析 [#y86e0dd5]
-Web茶まめ
-解析用スクリプト
--[[kokoro.xmlの短単位解析結果>https://www.dropbox.com/sh...
***SQLによる形態素解析済みコーパスの利用 [#h5983b7a]
--[[SQL(1) SELECT文の基本>https://www.ogiso.net/wiki/inde...
--[[SQL(2) グループ化、表の結合>https://www.ogiso.net/wik...
--[[SQL(3) コーパスデータの扱い>https://www.ogiso.net/wik...
-VSCode 拡張:SQL Server (mssql)
**20230529 [#rbad11cd]
***「太陽コーパス」でのXMLの活用例 [#u9fcc688]
-[[「太陽コーパス」>https://clrd.ninjal.ac.jp/cmj/taiyou/...
***Himawariでの利用 [#x9afc7c7]
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
-kokoro.xmlをHimawariで使ってみる
--設定ファイルとインデキシング※
***XPath, XSLT [#ue7eb930]
-[[VSCode XML Tools>https://marketplace.visualstudio.com/...
-[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/xpath.h...
--https://developer.mozilla.org/ja/docs/Web/XPath
-[[XSLT>https://atmarkit.itmedia.co.jp/aig/01xml/xslt.htm...
--https://developer.mozilla.org/ja/docs/Web/XSLT
**20230522 [#l2cd7e19]
***日本語学会シンポジウム [#q6c0ee28]
-[[情報技術と大規模テキスト資源がひらく日本語史研究>https...
--[[YouTube>https://www.youtube.com/watch?v=6UE-vDgdF94&a...
***BCCWJのXMLタグセット [#yff8b80d]
-https://clrd.ninjal.ac.jp/bccwj/c-xml.html
***TEI (Text Encoding Initiative) [#u02355e5]
-https://tei-c.org/
--参考資料:[[TEI入門に最適なウェブ資料>https://www.dh.ku-...
--[[chapter 8 歴史データのさまざまな応用 -Text Encoding...
***XMLアノテーションの実際 [#kca1a500]
-サンプルテキスト(青空文庫の夏目漱石「こころ」)をXMLに
--練習用サンプルデータ[[kokoto.txt>https://www.dropbox.co...
-タグ付き正規表現を使った置換の応用
--ただし、正規表現では、XMLのような入れ子のタグに完全にマ...
**20230514 [#mc5d08e5]
***書き言葉コーパスの例(テキスト化+XMLアノテーション+...
-明六雑誌コーパス:https://ccd.ninjal.ac.jp/cmj/meiroku/
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--テキストエディタでは置換・検索・grepで利用できる (エ...
--特殊な文字(メタ文字)はすべて半角
//--特殊な文字そのものを表す場合には\でエスケープする(特...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
--繰り返し ? + *
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
-カタカナ語
--カタカナ(外来語)の形容動詞語幹
-送りがなの揺れ(行う/行なう)
-会話文中("「"で始まる文中)の用例を検索する
-同一文中での共起
--全然~ない。
--もし~なら(ば)
***タグ付き正規表現 [#z9ef50e5]
-走[らりるれろ] でgrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろっ]
---置換文字列:★走[らりるれろっ]
-タグ付き正規表現:カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
***最長一致の原則(greedy matching) [#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''あ+'' → ''【\1】''
---ああああああああ → 【ああああああああ】
そのせいで…
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--括弧の組ごとに置換するためには''「([^」]+)」'' → ''【\1...
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-よりかんたんに指定するには(最短一致,ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に...
-(参考)タグ付き正規表現の応用:[[grepと置換でKWICを作る...
***検索文字列の中での後方参照 [#ra28185d]
-検索語の中で\1を使う
--(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しに...
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
--(..)\1\1
--(...)\1
***正規表現に関する参考資料 [#w86de08b]
-サクラエディタの正規表現:http://sakura-editor.sourcefor...
-正規表現に関する本 [[amazonで検索>https://www.amazon.co...
***ゲームの紹介 [#k337bfef]
-正規表現を学ぶ狩りに出ようRegex Hunting
--https://www.regex-hunting.com/
***XML入門 [#i9f93999]
-(参考) XML入門 https://www.javadrive.jp/xml/
**20230508 [#t32b08bc]
***紙の資料からコーパスまで ~テキストの電子化とアノテー...
+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子テキスト:テキスト (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代...
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形...
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.n...
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/ch...
***コーパスのファイル形式とアプリケーション [#v16f2d86]
-ファイル形式と実例
++電子テキスト:プレーンテキスト
++構造化テキスト:XMLファイル
++単語情報付きデータ:単語情報を埋め込んだXML /XMLファ...
--(発展)XMLの限界とスタンドオフアノテーション
-それぞれの利用アプリケーション
++電子テキスト:テキストエディタ+grepなど
++構造化テキスト:全文検索システム[[「ひまわり」>https://...
++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>h...
**20230501(オンデマンド) テキストデータ整備の準備[#e99d...
-【課題1】VS codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---参考:https://web.yokkaichi-u.ac.jp/yucc/archives/1542
--ファイルオープン時にエンコーディングを自動判別するよう...
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加
-テキストデータについて
--[[授業資料/文字コード関連リンク]]
--[[授業資料/テキストデータ紹介]]
-【課題2】サンプルテキスト(青空文庫の夏目漱石「こころ」...
---練習用サンプルデータ[[kokoto.txt>https://www.dropbox.c...
-正規表現について
--[[授業資料/正規表現]]
--正規表現を学ぶ狩りに出ようRegex Hunting https://www.reg...
-【課題3】VS Codeで正規表現を使ってサンプルテキストのふり...
//---|?(\P{sc=Han}+)《(.+?)》
終了行:
[[総研大2023]]
-オフィスアワーについて
--月3:要予約
--月5:いつでも(できれば早めの時間に)
-[[言語資源学2023 SharePoint>https://ninjal.sharepoint.co...
**20230605 [#l260da5f]
***(前回補足)Himawariのindexing [#r095ae45]
-コーパスのXMLファイルをUTF-16LE(LF改行)で保存しておく...
--[[soseki_config.xml>https://www.dropbox.com/s/s9u3pyp18...
-テキストインポート機能
***国語研・形態論情報データベース [#a6da2243]
-報告書:『現代日本語書き言葉均衡コーパス』形態論情報デー...
-論文:『現代日本語書き言葉均衡コーパス』形態論情報アノテ...
***XMLファイルと形態論情報DB [#a9a85f44]
-スライド参照
***XMLファイルの形態素解析 [#y86e0dd5]
-Web茶まめ
-解析用スクリプト
--[[kokoro.xmlの短単位解析結果>https://www.dropbox.com/sh...
***SQLによる形態素解析済みコーパスの利用 [#h5983b7a]
--[[SQL(1) SELECT文の基本>https://www.ogiso.net/wiki/inde...
--[[SQL(2) グループ化、表の結合>https://www.ogiso.net/wik...
--[[SQL(3) コーパスデータの扱い>https://www.ogiso.net/wik...
-VSCode 拡張:SQL Server (mssql)
**20230529 [#rbad11cd]
***「太陽コーパス」でのXMLの活用例 [#u9fcc688]
-[[「太陽コーパス」>https://clrd.ninjal.ac.jp/cmj/taiyou/...
***Himawariでの利用 [#x9afc7c7]
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
-kokoro.xmlをHimawariで使ってみる
--設定ファイルとインデキシング※
***XPath, XSLT [#ue7eb930]
-[[VSCode XML Tools>https://marketplace.visualstudio.com/...
-[[XPath>https://atmarkit.itmedia.co.jp/aig/01xml/xpath.h...
--https://developer.mozilla.org/ja/docs/Web/XPath
-[[XSLT>https://atmarkit.itmedia.co.jp/aig/01xml/xslt.htm...
--https://developer.mozilla.org/ja/docs/Web/XSLT
**20230522 [#l2cd7e19]
***日本語学会シンポジウム [#q6c0ee28]
-[[情報技術と大規模テキスト資源がひらく日本語史研究>https...
--[[YouTube>https://www.youtube.com/watch?v=6UE-vDgdF94&a...
***BCCWJのXMLタグセット [#yff8b80d]
-https://clrd.ninjal.ac.jp/bccwj/c-xml.html
***TEI (Text Encoding Initiative) [#u02355e5]
-https://tei-c.org/
--参考資料:[[TEI入門に最適なウェブ資料>https://www.dh.ku-...
--[[chapter 8 歴史データのさまざまな応用 -Text Encoding...
***XMLアノテーションの実際 [#kca1a500]
-サンプルテキスト(青空文庫の夏目漱石「こころ」)をXMLに
--練習用サンプルデータ[[kokoto.txt>https://www.dropbox.co...
-タグ付き正規表現を使った置換の応用
--ただし、正規表現では、XMLのような入れ子のタグに完全にマ...
**20230514 [#mc5d08e5]
***書き言葉コーパスの例(テキスト化+XMLアノテーション+...
-明六雑誌コーパス:https://ccd.ninjal.ac.jp/cmj/meiroku/
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--テキストエディタでは置換・検索・grepで利用できる (エ...
--特殊な文字(メタ文字)はすべて半角
//--特殊な文字そのものを表す場合には\でエスケープする(特...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
--繰り返し ? + *
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
-カタカナ語
--カタカナ(外来語)の形容動詞語幹
-送りがなの揺れ(行う/行なう)
-会話文中("「"で始まる文中)の用例を検索する
-同一文中での共起
--全然~ない。
--もし~なら(ば)
***タグ付き正規表現 [#z9ef50e5]
-走[らりるれろ] でgrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろっ]
---置換文字列:★走[らりるれろっ]
-タグ付き正規表現:カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
***最長一致の原則(greedy matching) [#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''あ+'' → ''【\1】''
---ああああああああ → 【ああああああああ】
そのせいで…
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--括弧の組ごとに置換するためには''「([^」]+)」'' → ''【\1...
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-よりかんたんに指定するには(最短一致,ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に...
-(参考)タグ付き正規表現の応用:[[grepと置換でKWICを作る...
***検索文字列の中での後方参照 [#ra28185d]
-検索語の中で\1を使う
--(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しに...
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
--(..)\1\1
--(...)\1
***正規表現に関する参考資料 [#w86de08b]
-サクラエディタの正規表現:http://sakura-editor.sourcefor...
-正規表現に関する本 [[amazonで検索>https://www.amazon.co...
***ゲームの紹介 [#k337bfef]
-正規表現を学ぶ狩りに出ようRegex Hunting
--https://www.regex-hunting.com/
***XML入門 [#i9f93999]
-(参考) XML入門 https://www.javadrive.jp/xml/
**20230508 [#t32b08bc]
***紙の資料からコーパスまで ~テキストの電子化とアノテー...
+(紙の)本文
+(紙の)総索引(コンコーダンス)
+電子テキスト:テキスト (199x年代~)
--[[授業資料/テキストデータ紹介]]
+構造化テキスト:テキスト+XMLによる構造化タグ (200x年代...
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形...
--[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.n...
--[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/ch...
***コーパスのファイル形式とアプリケーション [#v16f2d86]
-ファイル形式と実例
++電子テキスト:プレーンテキスト
++構造化テキスト:XMLファイル
++単語情報付きデータ:単語情報を埋め込んだXML /XMLファ...
--(発展)XMLの限界とスタンドオフアノテーション
-それぞれの利用アプリケーション
++電子テキスト:テキストエディタ+grepなど
++構造化テキスト:全文検索システム[[「ひまわり」>https://...
++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>h...
**20230501(オンデマンド) テキストデータ整備の準備[#e99d...
-【課題1】VS codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---参考:https://web.yokkaichi-u.ac.jp/yucc/archives/1542
--ファイルオープン時にエンコーディングを自動判別するよう...
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加
-テキストデータについて
--[[授業資料/文字コード関連リンク]]
--[[授業資料/テキストデータ紹介]]
-【課題2】サンプルテキスト(青空文庫の夏目漱石「こころ」...
---練習用サンプルデータ[[kokoto.txt>https://www.dropbox.c...
-正規表現について
--[[授業資料/正規表現]]
--正規表現を学ぶ狩りに出ようRegex Hunting https://www.reg...
-【課題3】VS Codeで正規表現を使ってサンプルテキストのふり...
//---|?(\P{sc=Han}+)《(.+?)》
ページ名: