日本言語研究(講義)

コーパス日本語学入門

期末レポートについて

2011/07/22の期末試験日は授業を行いません

2011/07/15 (13) レポート作成準備・質問対応(最終回)

2011/07/08 (12) Wordレポートの書き方,レポートテーマ

レポートテーマについて

Wordを使ってレポートを書く

2011/07/01 (11) 形態論情報つきコーパス検索システム「中納言」

レポートテーマについて

2011/06/24 (10) 形態素解析

morph.png

形態素解析用ソフトウェア

主なソフトウェア

茶まめ(解析用のお助けツール)

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

UniDicの品詞体系

2011/06/17 (9) 「ひまわり」の検索結果の集計2

復習

sorekiri.png

文字列関数

エディタの応用

応用・意味に関わる分析

相対頻度の計算

2011/06/10 (8) 「ひまわり」の検索結果の集計 / 正規表現小テスト

Excel

teki.png

「ひまわり」用追加データ

正規表現小テスト

2011/06/03 (7) 全文検索システム「ひまわり」

「ひまわり」とは

ひまわりとデータのセットアップ

ひまわりと正規表現

検索とExcelでの集計デモ

2011/05/27 (6) タグ付き正規表現

最長一致の原則(greedy matching)と最小一致

後方参照

テキストデータのダウンロード

2011/05/20 (5) 正規表現を使う

正規表現とは

正規表現の応用

#amazon(4873111706) #amazon(4873113598)

2011/05/13 (4) テキストエディタと正規表現

復習

ショートカットキー

grepと置換で簡易KWIC(CSVファイル)を作る

正規表現

正規表現を使ってみる

2011/05/06 (3) テキストエディタ

テキストエディタ

テキストエディタの利用

2011/04/22 (2) テキストファイルとテキストエディタ

先週の補足

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

授業で利用する主なソフトウェア

テキストエディタ検索・整形
全文検索ソフトひまわり検索・分析
表計算ソフトExcel分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成

テキストデータ

2011/04/15 (1) イントロダクション


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS