~言語処理やプログラミング以前の基礎知識
※括弧内はwindowsの同等コマンド。オプションや挙動は異なる
apt-get でインストールできる
sudo apt-get install libxml2
sudo apt-get install mecab
sudo apt-get install mecab-ipadic-utf8
mecab file | less
mecab file > 保存先ファイル
mecab -d unidicディレクトリ file | less
→できない
<info date="2018/05/30"> <weather>くもりのち雨</weather> <img>http://www.drk7.jp/MT/images/MTWeather/214.gif</img> <weather_detail>東の風 のち 北東の風 くもり 昼前 から 雨</weather_detail> <wave>波 1.5メートル のち 2メートル</wave> <temperature unit="摂氏"> <range centigrade="max">23</range> <range centigrade="min">19</range> </temperature> <rainfallchance unit="%"> <period hour="00-06">20</period> <period hour="06-12">50</period> <period hour="12-18">70</period> <period hour="18-24">70</period> </rainfallchance> </info>
<?xml version="1.0" encoding="Shift_JIS" ?>
<, >, &
曽 🍺
下記のデータ(青空文庫の夏目漱石作品を整形したもの)をダウンロードし、デスクトップに展開(解凍)してください。「なつめそうせき(夏目漱石)」というフォルダができます。
正規表現対応のテキストエディタがない人は下記からサクラエディタ(V2)をインストールしてください。
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のデータ(「こころ」Wordファイル)をダウンロードして下記の課題を行え。
ただし、データ中に現れる記号は下記のようになっている(青空文庫形式)。
《》:ルビ (例)私《わたくし》は |:ルビの付く文字列の始まりを特定する記号 (例)先生一人|麦藁帽《むぎわらぼう》を [#]:入力者注 主に外字の説明や、傍点の位置の指定 (数字は、JIS X 0213の面区点番号、または底本のページと行数) (例)※[#「てへん+劣」、第3水準1-84-77]
kokoro.txt | 225 | 先生も | それぎり | 何ともいわなくなった。 |
kokoro.txt | 244 | 私もその話は | それぎり | にして切り上げた。 |
太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉