このブログを検索

2017/12/01

2017.12.1 研究メモ:BCCWJの語数問題

国立国語研究所が開発した現代日本語書き言葉均衡コーパス(BCCWJ)は,言語研究の基礎資料としてきわめて重要なものですが,全体の語数については,いくぶん曖昧さが残っています。自己メモとして記録します。

語数は,「1語」をどう見るか,つまりは文字列をどのように切り分けるかによって決まりますが,BCCWJでは,語を短めに認定する短単位(六甲/山)と,長めに認定する長単位(六甲山)の2種の単位で処理が行われています(つまり,同じデータを短単位で解析したものと,長単位で解析したものの2種が同時に提供されている)。単に語数と言った場合は,通例,短単位での語数を指します。

(A)
まず,「少納言」のトップページを見てみましょう。
http://www.kotonoha.gr.jp/shonagon/


ここでは語数は約1億500万語となっています。


(B)
次に,国語研究所コーパス開発センターウェブサイトの「BCCWJ概要」を見ましょう。
http://pj.ninjal.ac.jp/corpus_center/bccwj/


ここでは語数は1億430万語とあります。70万語減りました!?


(C)
次に,同じく国語研究所コーパス開発センターのウェブサイト内の「BCCWJ<DVD版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/dvd-index.html


短単位 104,911,464語
長単位 83,585,665語

ということで,短単位では1億491万語となります。これは上記の(A),つまり,少納言の記述とおよそ一致します。(B)の記述とは一致しません。

(D)
今度は中納言サイト内の「BCCWJ:レジスターごとの語数」のページを見ます。
https://maro.ninjal.ac.jp/wiki/index.php?BCCWJ%2F%E3%83%AC%E3%82%B8%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%94%E3%81%A8%E3%81%AE%E8%AA%9E%E6%95%B0

短単位の場合は
長単位の場合は

です。BCCWJには1サンプルとして1000字分を機械的に切りとった固定長データと,1万字以内でまとまりを優先して切り取った可変長データが混在していますが,上記は,固定長語数,可変長語数,合計語数となります。我々が見るのは最後の数字です。

短単位 104,911,460語
長単位 83,584,516語

(C)の場合より短単位で4語分(長単位で149語分)減って?います。

(E)
今度は国語研究所コーパス開発センターウェブサイト内の「「中納言」版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html

ここでは短単位版と長単位版の語数を示したエクセルがDLできます。個々のサンプルごとの語数を示したファイルです。列合計を取ると総語数が出ます。ただし,ここでは,語数と,語数(記号など除外)という2種の単位が出ています。

短単位の場合は


長単位の場合は

つまり,
短単位 124,100,968語 (記号抜き) 104,911,464語
長単位  101,877,008語 (記号抜き) 83,585,665語

ここで,これまで出ていた数字が記号抜きだったことがわかります。この数字は(D)と一致します。

(F)
続いて,山崎(編)(2014)「書き言葉コーパス:設計と構築」(朝倉書店)の第2章「サンプリング」を見てみましょう。

p.23の図2.1には,以下の情報が載っています。

出版サブコーパス・・・約3437万語
図書館サブコーパス・・・約3038万語
特定目的サブコーパス・・・約4017万語

これを合計すると1億492万語です。数字を丸めたことで若干の差は出ていますが,これは(E)で言う,短単位・記号抜きの104,911,464語に一致するものと言えるでしょう。

(G)
前出の本の同じ第2章のp.27の表2.2にはサブコーパス別の語数が出ています(明示していませんが短単位語数と思われます。)

可変長・・・100,833,045語
固定長・・・16,178,029語

これらを単純に合計すると117,011,074語となり,記号抜きだとすると,他のデータより
1200万語ほど多くなっています。

同書には,図2.1の語数とずれが生じていることについて,「図2.1に示した語数(※石川注:つまり他の多くの文献に記載されたBCCWJ総語数と一致する値)は,固定長サンプルと可変長サンプルを統合した語数であるため,表2.2に示した語数の合計とは若干異なる」と注記されています。

森秀明(2016)の論文にもあるように,固定長と可変長には一部重複があります。とすると,図2.1の「統合」というのは,単純加算して重複を除去したという意味のように思われます。そうだとすると,重複分が1200万語存在することになります。BCCWJの固定長,可変長サンプルの重複については現在調査中で,分かり次第,追加報告したいと思います。

・・・・・・・・・・・・・

ということで,わかったことをまとめると以下のようなことになるでしょうか?

・記号を含めると,短単位で1億2400万語,長単位で1億200万語程度
・記号を除くと,短単位で1億500万語,長単位で8400万語程度
・とくに言及なく総語数という場合は,記号なし・短単位が前提になっている
・ただし,各書で報告される総語数には一定の食い違いが残っている

(要確認事項)
・長単位+短単位の単純合計値と,重複除去合計値の関係性

いずれにしても,BCCWJに関して一般に語られる語数が,「記号を抜いた」もので,かつ,「短単位」計測による,ということは,改めて確認しておきたいと思います。


2017/11/17

2017.11.17 神戸大学附属中等教育学校SGH校内研究会

日 時 平成29年11月17日(金) 16:20~18:00
場 所 神戸大学附属中等教育学校KPルーム
内 容 SGHアソシエイト指定(2014年度)以降、現在までの本校の教育実践研究を生徒対象の「グローバル意識調査」結果等から分析・検証し、今後の方向性について提言する。

SGHの2本柱は,1)グローバル体験学習と,2)探究学習です。当日は,これらと教科成績の相関他について分析結果をお話ししました。


SGHは短期的な効果を狙ったものではありませんが,SGHの主要事業,とくに,SGHでの探究活動や論文作成活動への取り組みの度合いは,一般学力とも高い相関を示すことがわかります。

2017/11/16

2017.11.16 兵庫県立伊丹高校SGH指導講話

表記の学校で,1年生の研究発表を聴講し,講話を行いました。

当日は下記の3種類の発表がありました。

A:リサーチ手法について報告した班
B:地元企業(味噌汁,酒)の商品宣伝を行った班
C:海外に日本食メニューを提案した班

なかなか立派な発表でしたが,一方,狙いがやや伝わりにくい部分もあるかなと思いました。一般に,「誰を対象に,どのような条件で,どうなることを理想として,探究・調査・提案をおこなうか」という基本線が全員に共有されていることがSGHの探究活動の成功のカギと言えるでしょう。優秀な生徒の皆さんの今後の成長が期待されます。

当日の発表風景


2017/11/14

2017.11.13 尼崎市立小田北中学校アクティブラーニング校内研修会

表記で講話を行いました。

当日は,国語授業(故事成語)と体育授業(サッカー)の実践を視察し,それらについて講評をさせていただき,あわせて,教科を超えたキーコンピテンシー志向型教育の開発の必要性についてお話させていただきました。

また,終了後は研究部の先生方と,1月の公開授業に向けて,どのように取り組んでいくか,実りある議論を行うことができました。

先生がたは子どものために自分の授業を変えようと非常に意欲的でおられ,伺うたびに強く感銘を受けています。

小田北中学校HPより

2017/11/11

2017.11.11 外国語教育メディア学会(LET)関西支部基礎理論研究部会主催2017年度公開講演

外国語教育メディア学会(LET)関西支部基礎理論研究部会主催2017年度公開講演

日時:11月11日(土)13:20-16:30 (13:00 受付開始)

会場:関西学院大学大阪梅田キャンパス (K.G.ハブスクエア大阪)14階 1402教室

内容:

講演
「教材コーパス・入試コーパス・学習者コーパスに見る日本人学習者の連語使用:インプットとアウトプットの差を探る」
石川慎一郎氏(神戸大学)

研究部会発表
日本人英語学習者のフレーズ親密度調査についての経過報告および今後の展望」
LET関西基礎理論研究部会第9次プロジェクトメンバー



講演では,当研究室で開発した,英語トライグラムに関して,自然言語・インプット言語・アウトプット言語を三元比較できるデータベースを紹介しました。

・2017/11/11 English Trigram Database for Japanese Learners of Englishリリース。 Here
日本人学習者用の英語トライグラムデータベースです。自然言語・インプット言語(教科書,入試)・アウトプット言語(大学生作文)に出現するトライグラムを三元比較できます。





2017/11/07

2017.11.7 尼崎市立日新中学校教員対象研修会

表記で講話を行いました。

尼崎市立日新中学校アクティブラーニング研修
1 と き  平成29年11月7日(火) 午後3時~午後5時
2 ところ  尼崎市立日新中学校
3 対 象 教職員 30人程
4 内 容  (1) 講話内容  アクティブラーニングの教科指導について  
       (2) 時  間  講話1時間半程度

講演では,新指導要領のポイントを整理し,アクティブラーニングが手段であって目的ではないこと,学びを深くすることの意義などについてお話しました。


参考
http://www.asahi.com/articles/ASKC36GYCKC3UTIL01K.html

2017/11/03

2017.11.3 神戸大学附属小学校研究発表会

表記で,講話・指導助言を行いました。


プロジェクト報告では,小学校の先生方と一緒に作り上げてきたグローバル英語教育の新カリキュラムについての発表を受け,我が国の英語教育の変遷,今後の小学校英語教育・活動の展望,応用言語学からの示唆等について講話を行いました。


また,指導助言では,下記の授業を見学した後,出席者と一緒に,小学校英語の「納得回解」について討議を深めました。