東京外大2013
日本語教育学研究
コーパス日本語研究入門
2013/06/28
調整頻度
テキストエディタの活用
Excelの文字列関数とIF関数・補足
- 後文脈の「。」より後を消す(「。」がない場合はそのまま)
=IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>)))
- 前文脈の「。」以前を消す(「。」がない場合はそのまま)*1
=RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1))
レポートテーマについて
「ひまわり」を使った自作ミニコーパス作成の講習会
2013/06/21
コーパス開発センター:ホームページリニューアル
ランダムサンプリング調査(Excelでの集計・補足)
- 大量に用例があり、調査内容からすべて対象にできない場合
- ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列: =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
Excelの文字列関数とIF関数
- LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
NINJAL LWP for BCCWJの紹介
- 注意点
- UniDic体系でない(=本来のBCCWJではない)
- データソースはBCCWJの一部だけ
- 係り受け解析は誤りも多い
レポートテーマについて
2013/06/14
形態素解析とUniDic
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*2
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
授業用UniDic+MeCabパッケージのダウンロード
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
- テキストのジャンルと語種,品詞の割合をグラフ化してみる
- ブログのテキストと新聞記事のテキストの解析結果を比較
2013/06/07
短単位と長単位(復習)
中納言検索課題
Excelの文字列関数とif関数
- 集計用に用意した列で文字列処理関数を利用する
- left,right,mid,len,search,substitute
2013/05/31
中納言システムアップデート(5月30日)について
- 中納言のシステムが新しくなりました
- 新機能の紹介
- 検索対象の指定が柔軟にできるようになった
- 短単位検索の条件指定において「検索キーの位置をずらす」指定ができるようになった
- 検索キーの前後位置に条件指定を行ったとき、キーに条件を指定しない検索ができるようになった
- 検索キーの前後の単位を結合してKWICキーに指定することができるようになった
- 検索結果のダウンロード時に圧縮の有無や文字コードを指定できるようになった
- 文字列検索で(解析単位ではなく)検索文字列をキーにしたKWIC表示ができるようになった
- サーバの負荷状況が表示されるようになった
Excelによる集計・つづき
- ピボットテーブル
- 複数の検索結果の結合
- 集計用の列を自分で用意する
2013/05/24
長単位と短単位
- スライド参照
- 複合辞
- 可能性に基づく品詞付与ではなく、出現例に則した品詞付与
- 可能動詞の語彙素
「中納言」検索結果の利用
- 検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
- 中納言の検索結果をExcelで利用する
Excelの利用
- Excelの基本
- ピボットテーブルとピボットグラフ
- ピボットテーブル
- Excelのバージョンによってかなり操作方法が違うので注意
- ピボットグラフ
2013/05/17
中納言によるコーパスの検索方法(つづき)
BCCWJの形態論情報
- UniDicの品詞体系
- 品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(>細分類))
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う
- サ変動詞は語幹と「する」に分かれる
2013/05/10
「中納言」の利用
中納言によるコーパスの検索方法
- 配布資料:中納言の使い方
(次回も持ってきてください)
2013/04/26
コーパスの設計とサンプリング
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス(レジスター)
- 可変長と固定長
「少納言」を使ってみる
テキストエディタ†
前回つづき
- サクラエディタのダウンロードとインストール
- サンプルテキストデータ
2013/04/19
「中納言」利用申込み
コーパスとは
- スライド参照
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
参考リンク
テキストエディタ†
4/12 第1回 イントロダクション/日本語コーパスの紹介
- 授業の進め方について
- 受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。