#author("2023-05-01T03:07:31+00:00","default:ogiwiki","ogiwiki") [[総研大2023]] **20230501(オンデマンド) テキストデータ整備の準備[#e99d6137] -【課題1】VS codeのインストールと設定 --拡張機能 Japanese Language Packの追加 ---参考:https://web.yokkaichi-u.ac.jp/yucc/archives/1542 --ファイルオープン時にエンコーディングを自動判別するよう設定 ---https://www.javadrive.jp/vscode/setting/index3.html --拡張機能 XML Language Support by Red Hatの追加 -テキストデータについて --[[授業資料/文字コード関連リンク]] --[[授業資料/テキストデータ紹介]] -【課題2】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす ---練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com/s/r89ahi6goxy5a2c/kokoro.txt?dl=1]] -正規表現について --[[授業資料/正規表現]] --正規表現を学ぶ狩りに出ようRegex Hunting https://www.regex-hunting.com/ -【課題3】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除 //---|?(\P{sc=Han}+)《(.+?)》