日本語テキスト処理基礎講座2023

コマンドラインの基礎

準備

WSLとUbuntuのインストール

Macでは

起動

最低限知っておきたいコマンド

はじめに

サンプルテキストのダウンロード

ファイル操作関連のコマンド

テキスト処理関連のコマンド

ファイルの確認

ターミナル上のテキストエディタ

標準入出力とパイプ

WSL関連(Windows)

MeCabとUniDic

wget https://clrd.ninjal.ac.jp/unidic_archive/2302/unidic-cwj-202302.zip
unzip unidic-cwj-202302.zip -d unidic-cwj
wget https://clrd.ninjal.ac.jp/unidic_archive/2203/UniDic-202203_60b_qkana.zip
unzip UniDic-202203_60b_qkana.zip
mv 60b_qkana unidic-qkana
mv unidic-qkana/.dicrc unidic-qkana/dicrc
echo "ゼレンスキー大統領" | mecab -d unidic-cwj
echo "井ノ上たきな" | mecab -d unidic-cwj
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -d unidic-cwj
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -d unidic-qkana
mecab -d unidic-cwj JPConstitution.txt | less

短単位解析

mecab -d unidic-cwj -Ochamame JPConstitution.txt > JPConstitution_morph.txt
mecab -d unidic-qkana -Ochamame JPConstitution.txt > JPConstitution_morph2.txt

解析結果の処理

シェルスクリプト

参考


*1 最短一致は拡張正規表現-E指定が必要
*2 現バージョンでは問題あり
*3 現バージョンでは問題あり

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS