集計に必要な情報をフィールドから切り出すことで集計に使う
ショートカットキーを活用すると便利
※BCCWJでも「中納言」の出力結果は十分にランダムではない
用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー IN ((registerName="出版・新聞" AND core="true") OR (registerName="出版・雑誌" AND core="true") OR (registerName="出版・書籍" AND core="true") OR (registerName="特定目的・白書" AND core="true") OR (registerName="特定目的・知恵袋" AND core="true") OR (registerName="特定目的・ブログ" AND core="true"))
キー: 語彙素="カレー" AND 後方共起: (品詞 LIKE "助詞-格助詞%" AND NOT(語彙素 LIKE "[がをに]")) ON 1 WORDS FROM キー
※NOT演算子ではなく、条件句(○○="□□"や○○ LIKE "□□")の否定にのみ使える*2
どんなものか
以前から使われているソフトウェア
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
テキストのレベル | ツール | 必要な技術 |
---|---|---|
プレーンテキスト | テキストエディタ | grepと正規表現 |
構造化テキスト | ひまわり→ Excel | XML・マークアップの基礎,ピボットテーブル |
形態素解析済み | UniDic+MeCab→中納言・ChaKi | 形態素解析の知識,ChaKi等の使い方 |
係り受け情報付き | +CaboChaなど→ChaKi |
※以下、スライド(学部授業用)(大学院授業用・同内容)も参照
ソフトウェアの種類・名前 | 利用目的 |
コーパス検索アプリケーション「中納言」 | コーパスの検索 |
表計算ソフトExcel | ピボットテーブルによる分析・グラフ作成 |
Web茶まめ | 形態素解析 |
テキストエディタ サクラエディタ | 正規表現を使ったテキストの検索・整形 |
ワープロWord | 「スタイル」を利用したレポート作成 |
全文検索ソフトひまわり | データの検索,ミニコーパスの作成 |
R | データの統計分析 |