このブログを検索

2017/04/01

科研(基盤)進捗報告

最終更新日 2017/8/13

2017~19年度 科研(基盤B)「アジア圏英語学習者自然対話コーパスICNALE-Dialogue開発と分析」

◎事業目的
ICNALEプロジェクトにおける独話型発話の収集(Monologue)をふまえ,新規に,自然対話(Dialogue)データの構築・分析を行う。

◎今後の予定
2017年度(初年度):収集プロトコル検討,国内データ収集,キックアップシンポ開催

◎2017年度の進捗(概要)
8月:国際シンポ実施,収録済みデータの書き起こし発注準備
7月:データ収集継続(N=60が完了),書き起こし第1次完了(N=14),シンポ論文集準備
6月:データ収集開始(N=21が完了)
5月:シンポジウムの一般発表公募,プログラム確定,対話データ収集謝金にかかる事務折衝作業
4月:研究文献購入,シンポジウム(LCSAW3)企画・講師交渉

◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。

◎月次進捗報告

【2017年8月】
8/4 国際シンポLCSAW3開催。70名の参加を得て盛会裏に終了。報告こちら
8/8 前期最終実験の終了
8/10 前期分のまとめの事務処理
・クオカード支払い台帳提出(建て替え払い14名分+前期実験52名分=66名分の実験及び支払い事務が終了)
・クオカード残:第2次購入分40人分―研究室保管3人分ー事務保管35人分=残38人分
8/11-12 既存のICNALEのデータ整理・プロジェクトウェブサイトの情報更新
8/12 66本のファイルのうち,日本語インタビュー部分を切り分けていなかったmp3データをaudacityで分割
(範囲指定→Ctrl Bでトラックマーク付与→複数ファイルとして書き出し)




・TSKa(インタビュー本体)とRFLa(L1の振り返り)の2種にわけ,全てのデータに発話者の習熟度属性情報を付与してrenaming
・書き起こし完了分の14本を除く52本について新規作業発注
8/13 引き続き,日本語リフレクション部分を発注。
(参考)mp3と長さの関係について(128kbpsの場合)60sec=960KB=0.96MB
※今回送付の日本語リフレクションデータ521MB → 521/0.96=約543分
8/14 ・英語書き起こし指示書の英訳と業者への送付
・ビデオデータの整理:連番付与,分割ファイル統合など(66人分)



===========================
記録1 (特記事項ありデータ)
#002 冒頭箇所でビデオカメラが作動不良。中途より録画開始。
#010 途中でマスクがきつく気分が悪くなったため,本人申し出により一時停止。マスクを外し,休憩後再開(ファイル結合処理済み)
#013 マスクが途中で落下。つけなおしてインタビュを再開(ファイル結合処理済み)
#048 ロールプレイ冒頭で被験者が実名を出したため一時中断してそこから取り直し(ファイル結合処理済み)
#059 同上理由
===========================

==========================
記録2 動画ファイル編集方法
元データ(movファイル)の品質を落とさずに加工するため,複数ソフトを試用した結果,最終的に,フリーウェアの動画音声ファイル結合ツールであるUnitemovie V2.11およびCutmovie(http://red.sakura.ne.jp/~anonymouse/)をプロジェクトで使用することに決定。
同ソフトはQuick TimeのAPIをそのまま利用してノンロス加工を行う。
なお,音声については,従前どおりAudacityで処理,
ソフトウェア著作権者表示 Copyright (C) 2002-2007 AnonyMouse Under GPL
===========================



-------------------------------------------------------------------
【2017年7月】
7/10 LCSAW3用のポジションペーパー締め切り
7/11 上記印刷にかかる見積もり依頼
7/12 データ収集状況の中間報告(第1次データ取得 2017年度前期)
 申込者延べ数 N=60
 実験終了者数 N=37
 第1次書き起こし発注済数 N=14















全体のバランスは次第に良い感じになってきています。A2が相対的に多いですが,日本人英語学習者の実態という点ではおよそ妥当なものではないかと考えます。

7/13 LCSAW3ポジションペーパー業者入稿
==================
7/12 入稿(7/13に延期)
7/21 校正提出(PDF)
7/27 校正お戻し
7/28 校正予備日
7/31 校了
8/1  印刷
8/2  製本
8/3  製本・発送
8/4  納品
==================

7/14 第1次データ納品
ワードファイル形式で14本分が納品されました。
1) ENG_20170619_01.mp3
2) ENG_20170619_02.mp3
3) ENG_20170619_03.mp3
4) ENG_20170619.mp3
5) ENG_20170621.mp3
6) ENG_20170621.mp3
7) ENG_20170623.mp3
8) ENG_20170623.mp3
9) ENG_20170623.mp3
10) ENG_20170623.mp3
11) ENG_20170623.mp3
12) ENG_20170623.mp3
13) ENG_20170623.mp3
14) ENG_20170623.mp3
■ 合計収録分数:475
■ 納期:2017年 7月14日 (金) 15:00 (JST)

7/15 大学英語教育学会東アジア英語教育研究会
納品されたばかりのデータの一部を大急ぎで加工し,表記研究会でICNALE Dialogueの紹介を行いました。納品されたワードファイルをエクセルに落として,1ターン1行形式に整形し,インデックスをつけて,タスク別,話者別(インタビュワー,受験者)など,さまざまな形でデータを取り出せるようにしています。ざっと見ただけですが,非常におもしろいターン転換などが観察され,分析が楽しみです。












7/21 LCSAW 論文集(Position Papers)校正・戻し
7/31 データ収集N=60に
※現時点での能力バンド分布(前期中の申し込み済み・収録未了分含む)








-------------------------------------------------------------------

【2017年6月】
6/2 新しいオンライン検索システムのエントリーページのデザイン作成


モジュールの命名,全体のイメージ図の作成は極めて重要な作業です。先月から全体の構造の再定義を行っており,現段階では上記のような概念図を定め,そのまま,それを検索システムのエントリに使用することを考えています。要は,コアモジュールとペリフェラルモジュールの違い,Edited Essaysの位置付けが直観的にわかるような構造概念図が必要になると思われます。

6/5 被験者募集チラシ作成・大学生協内掲示開始・オンライン調査票作成・申込者対応



ようやく,データ収集の準備が整い,募集に入りました。早速申し込みがあり,今後,データ収集を体系的に開始していきます。

6/5 撮影用機材購入
複数方向からの音声を高い精度で記録し,かつ,記録用の画像を同時に残せるものということで,各種機種を検討した結果,Zoom Q4を選定し,発注手続きを行いました。
 

6/6 OPIプロトコル検討メモ(文献3本の読解)
◎SST Manual(アルク 2000)
※日本にOPIを広めた重要なテスト。10年前に研修を受講。最近は電話テストに移行。

(概要)
・全体10-15分
・ウォームアップと初期評価→一枚絵を使ったレベルチェック(プローブ)→ロールプレイ→連続画を使ったレベルチェック(プローブ)→ワインドダウン
・レベルチェック=下限推定(この程度までは正確に話せる・維持できるというレベル)
・プローブ=上限推定(補助具を使って限界レベルまで高次の産出を引き出す(pushing))
※上下限推定で注目すべき特徴・・・答えられない,日本語使用,ためらい・言葉探し・連続的あやまり,混乱の身振り,連続性・一貫性の棄損
・評価=言語機能+内容の広がり
・高次の発話がどの程度維持できるか:瞬間(peak),ある程度(mountain),かなり継続(mesa)

(試験官側発話の留意点)
 Yes/No, Either A or Bは初級限定で。
 クローズエンド(what, where...)
 オープンエンド(why, how)
    比較と対比(中級以上)
  仮定法(上級に限った例外的用法)
・個々の質問は論理的につながりを持つこと
・affirm, reconfirm, tag, interest, surprise, supportを示す
・過剰にゆっくり話さない,返答を訂正しない,返答を遮らない,せかさない,自分の意見を言わない

(ウォームアップ)
・家族・学校での暮らし・学校への好き嫌い・好きな場所・趣味
・なぜその趣味が好きになったのか,なぜその学校を選んだのか,前の学校との違い,先週末やったこと

(ロールプレイ)
・Now we are going to do role play. Please read this card, and when you are ready, I'll begin....
・ユーモアや楽しさがあっていいがほとんどの発話は被験者にさせること
 ・絵描写とは違う内容にすべき
・レッド(初級下・中 ※特段に低い人のみ),ブルー(初級上~中級下)~イエロー(中級中~)
・日本語カードを被験者に渡し,試験官側の発話でスタート(May I help you?など)
・イエローで4分,レッドは1分,その他2~3分ずつ
・ブルーでは被験者に主導権を握らせる
・イエローでは複雑な利害対立を前提。試験官は最初から手伝わない,交渉に応じない
・全体11-13分(初中級は絵描写で考え込んで長くなりがち)

(絵描写)
・絵描写にはfollow-up questions,
・中級=Tell me about/ Do you like..?/ What's the dif between A and B? What happens when you...?
・上級=こんな経験はあるか? 自分の町の変化,~を買うのに苦労したことは? ~と~を比較する,どうやって~を避ける? What do you think about X? 

◎山内博之(2005)『OPIの考え方に基づいた日本語教授法:話す能力を高めるために』ひつじ書房
※日本語教育のみならず,英語教育や,OPI的なデータ収集法の研究にとってきわめて有用な参考書
・ACTFL 最長30分
・遂行能力はタスクと場面でダブルで見る
・中級=意味ある内容を模倣でなく創造+日常場面
・上級=詳細説明・叙述+ほぼインフォーマル
・超級=裏付けある意見表明・仮説構築+フォーマル,インフォーマル
・言語の質は,文法・語彙・発音の3観点で
・言語能力は社会言語学的能力(敬語,くだけた表現)・語用論的能力(相槌,ターン,ハイライト)・流暢性(ブレイクダウン発生頻度の少なさ)の3観点で
・場面+話題+言語機能=総合的タスク(p.16)
・レベルチェック(できることの確認)→probe/突き上げ(できないことの確認) 
・出来ないことを示さなければ能力上限が決まらない
・言語的挫折データ
・被験者の得意分野での発話に影響されないよう
・スパイラル突き上げ(話題は同じでレベルが上がる)eg 家族何人→親とどこが似ているか→核家族化への意見
・トリプルパンチ(ストレートに聞く→こちらの反論に再反論させる→仮定的状況を論じさせる)eg ~についてあなたの意見は?→もしそうすると・・・となってしまって問題では?→もし~すると・・・にどんな影響があると思いますか?
・意見とは裏付けのあるもの。トリプルパンチで裏付けを引き出す
・ロールプレイは場面持ち込み型と現実そのまま型,サバイバル型(忘れ物をしたので店に電話する)とエンジョイ型(友達の買った電気製品について
・上級ロールプレイ=話し方のスタイルを変え,裏付けを言わせる

Adlphs & Carter (2013) Spoken corpus linguistics: From monomodal to multimodal (Routledge)
※ジェスチャー分析を組み込む。音声+動画を記録する本プロジェクトの狙いにも関連。

Introduction
・発話コーパス研究はrelatively few
・発話には書き言葉と異なる言語使用パタンあり
・テキストだけ=monomodal
・テキスト+ノンバーバル言語=multimodal(textual, prosodic, & gestural)"new direction"
・monomodal分析では談話構成+会話のやりとり(discourse marker+MWU=発話に特徴的)
・multimodal分析ではテキストとジェスチャーのalignment
・頭と手をどう動かすか+プロソディを変化させて効果を生む

(Monomodal)
1 Making a start: Building and analyzing a spoken corpus
・London Lund(Svartvik, 1990
・CANCODE(McCarthy, 1998,英+アイルランドで500万語)
・Limerick Corpus of Irish English (Farr et al. 2004)
・Hong Kong Corpus of Spoken English (Chen & Warren, 1999, 2000, 2002)
・MICASE(Simpson et al., 2000)
・BNC Spoken
・COBUILD Spoken
・ICE
・English Profile Cambridge Learner Corpus
・研究の対象:語彙,文法,談話辞(discourse particle)
・研究ジャンル:法廷発話,メディア談話,言語習得,ヘルスケア会話
・研究焦点:語彙頻度から談話へ行くか,談話の質的分析で始めるか
・コーパス構築に関するSinclairの9理念:言語(の質)ではなく伝達機能で資料を選定,代表性,均一性,構築基準はシンプルに,タグは別に,途中で切らない,関連情報は別途で詳しく,均衡性,主題は外的基準で分類
・発話コーパス研究の3過程:記録,書き起こし(コーディング,マークアップ),管理と分析
・被験者,場所,状況についての情報を記録
・自然発話では記録し忘れと後で復元できない
・Video recordings of spoken interactions are becoming an increasingly important alternative to pure sound recordings (p.8)
・自然発話では1時間で1万語
・メタデータ(ヘッダ情報
・同意と匿名化
・録音への同意と公開への同意は別
・一度公開されてしまうと公開撤回の要求には答えられない
・音声変換は有効だが音韻分析には不適かもしれない
・動画内の顔にはshadow/ blur/ pixellate処理できるが表情研究などはやりにくくなる
・書き起こし記法も乱立
・Network of European Reference Corpora (NERC):Cobuildで使用
・TEI: BNCで使用
・London-Lundはプロソディも書き起こし
・Linear 直線的記載(発話順)vs Column 表型記載(発話者別)vs Line-aligned 一列式連鎖記載(楽譜風)
・分析実例(LIKE)
・書き言葉頻度の5倍
・discourse markerとしての用法
・1)直接話法を導く(she was like "I don't want..." 発話動詞の代わり),2)比較と説明(新情報を導き議論を展開する)

Corpus & spoken interaction: MWU in spoken English
・慣用連語
・BNC spokenの高頻度MWU 
・of the / in the / I don't know/ a lot of / the end of the/ at the end of the (day)
・you know, I thinkなども高頻度=discourse marker
・対面(face)の保護,意図的な韜晦などの用法も

From concordance to discourse: Responses to speakers
・response token(相手の話に対する軽い相槌)
・CANCODEではyeah yes right/ oh year oh right/ I don't know oh I seeなど
・20代女性の場合,機能は,convergence> engaged> continuer > info receipt

Case studies
・研究Ⅰ:香港の学生コーパスとCANCODE比較
・学生はDMとしてのand so yeah right you know well now 等を過小使用するがbut I think because yes は過剰使用
・研究Ⅱ:英語講義
・actually again lightなどが多用される

(Multimodal)
Sound evidence: prosody and spoken corpora
・De Cock(1998)音声がなくて書き起こしだけならyou knowが文字通りの意味かDMか判断不能
・どこまでコーディングするか?
・London-Lund :tonality(音調的境界を確定)+tonicity(音調上の核を確定+pitch rangeの3つ
★参考 tonicity: [All] cats don't like [dogs]・・・どちらにアクセントあるかで意味が転換(深沢2000)
Halliday (1967) がtonicity/tonalityを提唱 (安田2005の解説より
・Santa Barbara:tonalityと時間情報のみ
・phrseologyの視点
チャンクの証拠としての音韻的連続性
・研究Ⅰ I don't know whyを例に,イントネーションのかたまりとphraseのかたまりの重なり・ずれを4区分で分類
・研究Ⅱ I thinkの左右のポーズ分析

Moving beyond the text
・ジェスチャーの重要性
・Kress 2011 Multimodality, first and foremost, refuses the idea of the 'priority' of the linguistic modes; it regards them ad partial means of making meaning.
・Nottingham Multimodal Corpus 25万語 大学講義(50%)とゼミの院生・教員間討論(50%)
・講義は1時間,ゼミは30分~90分
・2台のカメラで話者2人を撮る マイクは1つ (撮影で緊張して「自然さ」が損なわれる可能性も)
・倫理の問題はより複雑に(細かいうなずきや身振りをマスクしてしまっては研究に使えない)
・動画にコーディングするソフトもある(Transtool Tractorなど)
・動画とテキストをタグで関連付ける
・Digital Replay System (参考1)(参考2)で連動分析可能

Developing a framework for analyzing 'headtalk' and 'handtalk'
・back channelにはcontinuer(談話継続), convergence(同意・不同意) engaged (情意)information receipt(情報伝達を確認)の機能
・頭を下げるうなずき(nod)なども同様のback channelとして解釈可能,言語・非言語連動解釈
・短く小さいnod,やや長く小さいnod,短いが大きいnod,長く大きいnod,以上の組み合わせ型nodの5タイプに分けて分析
・nodの大きさ(intensity)は物理的な頭の移動量(amplitude 振幅角度)で計測
・眼球・頭部トラッキングソフトを使用
・手の動きの大きさは画面上に等間隔に垂直線を引いてゾーンを仮定してコーディング(腹の中央に中心座標)
★所感 膨大な手間と作業だが,得られた結果はわりと少ない(ような気もするが・・・)

Future directions

6/7 実験準備
・実験用プロトコル作成
・イラスト依頼,謝金交渉

6/8
・イラスト制作者への謝金支払いにかかる税法上の対応について事務と相談
・イラスト(1枚目)のラフを受領,修正指示

6/9
・イラスト(1枚目)のラフの修正を承認。仕上げ作業に移行。
発注者の期待を上回る出来栄えで,依頼先(本学漫画研究会)の高いパフォーマンスに感銘を受けました。

6/12 プロンプトイラスト(1枚目)納品。

6/12 LCSAW3発表者宛reminder発送。広報依頼(ML,大修館,ひつじ,くろしお,研究社)

6/13 実験参加者申し込み20名超過。実験参加者用承諾書作成・公開。 

6/17 実験準備継続
1) 被験者は本日までに33名が確保され,それぞれ7月までにインタビューをアサインしています。

2) 実験用具セットの作成・仕上げ
・マスク
ノーマスク撮影+デジタル的なマスキングも検討しましたが,音声学者の助言も受け,口の映像が見えたほうがよいこと,デジタルマスキングでは匿名化効果が限定的であることをふまえ,物理的なマスク撮影法を採用することにしました。演劇用の白マスク5ケを購入。手作業で切り取りを行い,加工しました。これに伴い,眼鏡使用被験者には,可能な場合はコンタクトレンズで来室するよう伝えました。
・シナリオ

テスター側発話のシナリオを作成し,英文校閲を受けて確定しました。OPIは当意即妙の対応が特徴ですが,本データは,ICNALE全体の開発理念と整合を取る形で,統制性の高い(自由度の相対的に低い)実験過程管理を目指しています。
・ピクチャーカード,ロールプレイカード
それぞれ作成し,ラミネート加工し,本番実験に備えました。
・デモインタビュー
イントロ(2分) ピクチャー1(3分) ロールプレイ1(3.5分) ピクチャー2(3分) ロールプレイ2(3.5分) クールダウン(2分)だと17分。15~30分とされている標準実施時間内におさまりました。
・時間管理
発話量研究の観点から,モジュールごとの時間をある程度統制すべく,ストップウォッチの使用を予定しています。 



・6/17 JACET関西支部大会
名古屋市立大学の佐々木みゆき先生のご講演をうかがい,産出者(佐々木先生実験の場合は作文執筆者)による事後プロトコルをきちんと取る必要を改めて痛感し,インタビュープロトコルを修正。インタビューの最後にL1によるリフレクションセッション(個々のタスクについて「こういえばよかった」「なぜうまくいえなかったか」を振り返ってもらう)を追加しました。週明けからの実地データ取得で改訂版のプロトコルを実施予定です。

・6/19 初回データ収集
ようやくデータ収集にこぎつけました。初日は4名。久しぶりのOPIの聞き手役でしたが,かつてテスター講習で習ったことが鮮明に思い出され,楽しく行うことができました。実際に行ってみると,1人のセッションは予想よりかなり長く,40分前後になりました。OPIとしては異例の長さですが,1人の学習者の産出能力の下限と上限を余すことなく取り出せたのではないかと考えています。終了後,「こんなに長い間英語を話したのは生まれて初めてで面白かった」と言ってくれた学生が多く,うれしい驚きでした(※実験としてだけでなく,こういうトレーニングが教育的な意味でも重要だな,と再確認する機会となりました)。



なお,被験者席の後ろのスクリーンはビデオに背景が映りこまないために設置したものです。夏休みまでに50名の取得を目標にインタビューを重ねていきます。
なお,実際に回してみると,やはり被験者により,発話量に大きな差があるため,当初の方針を変更し,タスクごとの決め打ちでの時間管理(時間が来れば途中で打ち切るなど)は行わないことにしました。

・6/23 第1週として14名分のデータ収集が終了。
軽微なトラブルが3件。
(A) ビデオ機器不良による一部画像データの撮影失敗(同時に音声録音もしていたので音声データは確保) 
(B)  マスクが顔を圧迫してつらいのでいったん止めたいというリクエスト(20秒後に再開)
(C) マスクのゴムひもが途中で切れて付け直す(同じく20病後に再開)
また,紙製マスクに被験者の化粧品がついて想像以上に汚くなってしまう問題を確認。
以上のほかは問題なく進捗。

・6/24 音声データの加工
・中断が起こった上記(B)および(C)の音声データをAudacity上でつないで復元。
・書き起こしのために日本語部分をカットした音声データを作成

・英語部分の実験時間はほぼ安定していることが確認されました。
ほぼ30分程度です。この後日本語でのリフレクションが5分ほど続きます。

・6/26 書き起こし見積もり・2週目収集開始
日本語部分を切り分けないデータを「日英混在書き起こし」で見積もり取得したところ,544分で,短期納品が28万,長期納品が22万となりました。長期納品の場合も1本あたり1.6万となり(1分単価385円),こちらの予想を超えていたので,英語のみの書き起こしを優先する方向で見積もりを取り直すことに。
また,本日より第2週目のデータ収集がスタートしました。プラスチック製のマスクを新たに購入し,こちらで加工(下部きり取り)して新規に使用しました。また,実験場に,除菌用のアルコールとティッシュを用意し,気持ちよく受けていただけるよう改善しました。

・6/27 書き起こし作業書の作成と見積もり取り直し
英語のみデータ480分程度で再度見積もりを依頼し,発注しました。


-------------------------------------------------------------------

【2017年5月】
◎2017年5月の作業報告
・5/1 LCSAW3にかかる一般研究発表公募の告知
・5/20 上記締め切り,選考
・5/20 プログラム仮案作成,講師への謝金支払い関係事務作業の依頼



・5/22 プログラム(第1案)確定・広報開始
・5/23 プログラム修正
・5/23 被験者謝金支払いに関する大学宛の要望書作成・提出(実験準備)

・5/25 LCSAW3のポジションペーパー用テンプレートの公開。あわせて,ポスター発表関係の情報と交通案内をサイト上で公表。
・5/30 被験者謝金支払いの許可が当局より下りる(今後早急に被験者募集に入る予定)。
・5/31 校閲データの整理・公開にあわせ,ICNALEデータセットの全体構成を更新。新しい概念図は下記。




従来はSpoken/ Writtenの2モジュール構造でしたが,新たに下位構造を設け,収集済みのモノローグデータと,今後作成する対話データをそれぞれ適切に分類できるようにしました。また,現在収集中の作文校閲データはこれまでProofreadというモジュール名で呼ばれていましたが,本来,"proofreading"は作文のみならず,口頭産出にも適用可能な概念です。そこで,旧The ICNALE Proofreadを,新規にThe ICNALE Edited Essays(略称The ICNALE-EE)と改称し,名称上の齟齬を改称しました。今後,萌芽プロジェクトでEEの,基盤プロジェクトでDialogueの開発をそれぞれ進めていきます。なお,EEについては,V0.3を6月1日リリースしました。こちらからダウンロードいただけます(要登録)。


-------------------------------------
【2017年4月】
◎2017年4月の作業報告
4/1 採択決定
4/25 関連基本図書の発注(中高教科書+研究書約30冊)
4/25 キックアップシンポ用の会場予約(8月4日 神戸大学百年記念館)
4/26 LCSAW講師依頼(4名)
4/28 検定教科書の内容確認