九大2023
の履歴(No.7)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
九大2023
へ行く。
1 (2023-04-14 (金) 13:39:25)
2 (2023-04-14 (金) 13:42:18)
3 (2023-04-17 (月) 01:48:39)
4 (2023-04-17 (月) 05:36:03)
5 (2023-04-17 (月) 19:07:52)
6 (2023-04-24 (月) 01:04:29)
7 (2023-04-24 (月) 19:17:12)
8 (2023-05-01 (月) 06:23:51)
9 (2023-05-01 (月) 19:15:02)
10 (2023-05-08 (月) 00:24:35)
11 (2023-05-08 (月) 19:19:36)
12 (2023-05-14 (日) 05:08:46)
13 (2023-05-14 (日) 21:10:50)
14 (2023-05-29 (月) 19:13:01)
15 (2023-06-04 (日) 14:30:12)
16 (2023-06-05 (月) 03:42:21)
17 (2023-06-05 (月) 19:18:14)
18 (2023-06-07 (水) 11:59:19)
19 (2023-06-07 (水) 11:59:19)
20 (2023-06-12 (月) 19:28:24)
21 (2023-06-12 (月) 22:11:26)
22 (2023-06-13 (火) 02:55:38)
23 (2023-06-19 (月) 06:27:05)
24 (2023-06-19 (月) 21:09:58)
25 (2023-06-26 (月) 01:50:43)
26 (2023-06-26 (月) 21:00:12)
27 (2023-07-03 (月) 02:49:52)
28 (2023-07-09 (日) 15:14:37)
29 (2023-07-23 (日) 22:52:44)
30 (2023-07-24 (月) 10:30:17)
九大2023
九州大学:国語学演習 III / 日本語史資料研究 III
†
↑
コーパス日本語学
†
前期月曜2限:10:30-12:00
Mail:
ogiso@ogiso.net
授業はTeamsミーティングで行います。授業のURLは下記の
Moodle
の
授業コースのページ
で確認してください。毎回同じアドレスです。
https://moodle.s.kyushu-u.ac.jp/course/view.php?id=51543
文学部・人文科学府 授業日程表
中納言
https://chunagon.ninjal.ac.jp
【予告】5月22日は休講です。
↑
4月24日(第2回)コーパスの設計
†
↑
コーパスとは
†
以下、
スライド
(Moodle)参照
狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
参考:
「ひまわり」パッケージ
Web上のデータ
検索サイトの利用
WAC(Web as Corpus)
この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」「日本語歴史コーパス(CHJ)」「昭和・平成書き言葉コーパス(SHC)」「日本語日常会話コーパス(CEJC)」
↑
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成【省略版】
†
https://clrd.ninjal.ac.jp/bccwj/
均衡コーパス(Balanced corpus)
「バランスがとれている」「代表性」とは?
コーパスの母集団の設定とサンプリング
BCCWJのサブコーパス
可変長と固定長
↑
参考リンク
†
英語のコーパス リファレンス
ブラウンコーパス マニュアル
http://khnt.aksis.uib.no/icame/manuals/brown/
BNCリファレンスガイド
http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス(BCCWJ)
現代日本語書き言葉均衡コーパス:概要
BCCWJの基本設計:
https://clrd.ninjal.ac.jp/bccwj/basic-design.html
サンプリング:
https://clrd.ninjal.ac.jp/bccwj/sampling.html
XMLによる電子化:
https://clrd.ninjal.ac.jp/bccwj/XML.html
↑
「日本語歴史コーパス」(CHJ)の構成
†
https://clrd.ninjal.ac.jp/chj/
残された資料に限りがある(そもそも偏りがある)歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難
近世以前
残されている資料が少なく、できるだけ(可能なら全部)コーパスに入れたい
近世(後期)以降
偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい(作品など資料単位で調査したい)
『日本語歴史コーパス』
の中身
中世以前は重要な資料をまるごと対象に
近世の洒落本・人情本:年代・著者(・地域)のバランスを取って作品単位でサンプリング
↑
近代語コーパスの場合
†
近代雑誌コーパス
(現在はCHJの一部)
多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
発行年での大まかなサンプリング
「太陽コーパス」
:8年おきに12冊ずつを対象
その後の雑誌コーパスも8年おきに収録
明六雑誌・東洋学芸雑誌・国民之友・太陽(・中央公論・文藝春秋)
近代小説
複数の有識者が日本語資料として選定・投票した結果(1980年代に作成した資料)をもとにサンプリング
https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf
↑
「昭和・平成書き言葉コーパス」(SHC)の構成
†
https://clrd.ninjal.ac.jp/shc/
※準備中
CHJの後を受けて現代までを通時的に研究するためのコーパス。1933年以降、8年おき11か年分(1933・1941・1949・1957・1965・1973・1981・1989・1997・2005・2013)を収録。
雑誌
1933~1957 年刊の『中央公論』と1965~2013 年刊の『文芸春秋』(8年おき11か年分)
ベストセラー書籍
1933年以降、8年おき11か年のベストセラー書籍
新聞
1933年以降、8年おき11か年の『読売新聞』奇数月2日の朝刊1冊
↑
4月17日(第1回)イントロダクション/日本語コーパスの紹介
†
↑
イントロダクション
†
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
https://www.ninjal.ac.jp/
言語資源開発センター
↑
授業内容等の確認
†
シラバス
の確認
この授業の目的
授業の進め方
評価方法
受講者アンケート
関心のある分野について
PC等のスキルについて
↑
「中納言」アカウントについて
†
「授業アカウント」について
「中納言」オンライン利用申込み
https://chunagon.ninjal.ac.jp/useraccount/register
↑
授業で利用する主なソフトウェア・Webアプリケーション(予定)
†
ソフトウェアの種類・名前
利用目的
コーパス検索アプリケーション
「中納言」
コーパスの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
Web茶まめ
形態素解析
テキストエディタ
VisualStudio Code
テキストデータの作成・整備、正規表現を使った検索など
R
データの統計分析
↑
授業内容デモ
†
コーパスの利用
「現代日本語書き言葉均衡コーパス(BCCWJ)」
「日本語日常会話(CEJC)」
「日本語歴史コーパス(CHJ)」
中納言
Excelによる集計(ピボットテーブル)
形態素解析
Web茶まめ
テキストエディタと正規表現
↑
(参考動画)
†
(参考)国語研オープンハウス2021
https://www2.ninjal.ac.jp/openhouse/2021/
動画:『日本語歴史コーパス』のかんたんな使い方─犬派?猫派?編─
https://youtu.be/672LMkV6GxU
言語学レクチャーシリーズ
https://www.ninjal.ac.jp/education/videolecture/
動画:
コーパスを使って日本語の歴史を探る