このブログを検索

2018/02/19

2015-2018 科研(萌芽)ICNALE 校閲モジュール開発プロジェクト 進捗報告

最終更新日 2018/07/10 

2017年度末を持って,本プロジェクトは終了しました。プロジェクト成果として,ICNALE Edited Essaysという新モジュールのリリースを行いました。


2015~17年度 科研(挑戦的萌芽)「アジア圏英語学習者の作文・発話の体系的修訂に基づく大規模校閲コーパスの開発と分析」(15K12909)

◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。

◎事業目的
収集済みの作文データに対して専門家による評価データ・校閲データを収集し,整理・公開を行う。

◎過去の進捗
2017年度(最終年度):インドネシアモジュールの評価・校閲データの収集および収集データの公開。検索システム開発と公開。本分析と研究報告論文の作成。
2016年度:日本・中国・韓国・タイ・台湾モジュールの評価・校閲データの収集および,日中データを使った予備分析
2015年度:関連研究の整理と評価ルーブリックの作成

◎2017年度の進捗記録(概要)
3月:ESL圏の追加データの公開準備(※年度をまたぎ,2018/4/13にICNALE Edited EssaysのVersion 2.0を公開完了)
2月:ESL圏の追加データの整形
1月:CNALE EE紹介論文の執筆・投稿(英語コーパス学会論集)。ESLデータの追加。
10-12月:ICNALE EEに基づく論文の執筆
9月:ICNALE OnlineにおいてEdited Essaysの公開開始
8月:ICNALE Edited Essays V1.0公開,検索サイト開発(継続)
7月:ESL圏校閲データの整理と検索サイト開発
6月:ESL圏データのサンプリングと校閲業務開始
5月:検索システム開発にかかる交渉・発注,韓国・インドネシアデータを追加したV0.3の公開
4月:V0.2の公開,新検索システム開発のための準備

◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。



-----------------------------------------------
月次作業報告
-----------------------------------------------

【2018年7月】
ICNALE Online に追加されたデータを公開。
あわせて,ダウンロード用データのミス(文字化け等)を修正し,Version 2.1にアップデート。

・・・・・ここより上部は,プロジェクト終了後のメンテナンス記録です・・・・

【2018年4月
2018/4/16 本プロジェクトを紹介した論文(『英語コーパス研究』収録予定)の初校返却(本プロジェクトはこの時点をもって,原則,終了とする)
2018/4/13 追加分のデータを含めたICNALE Edited Essays Version 2.0を公開

【2018年3月
2018/3/31 追加分データの整形と公開準備(※公開は年度をまたぐ予定)

【2018年2月
2018/2/15 追加分データが納品,今後整理して次期アップデートで公開対応

【2018年1月】
2018/1/31 英語コーパス学会論集に投稿(基調講演に基づく特別論文)
あわせてESL学習者データの追加を決定(当初方針を変更し,9月完成版をさらに増量し,アップデートすることに)

【2017年10-11月】
11/15 Benjaminsプロジェクトのためのアブストラクト執筆他

【2017年9月】
9/1 ICNALE Online Edited Essaysが公開開始
★これをもって3年間の萌芽研究の基幹部分が予定通り完了。以後は収集したデータを用いた論文執筆に入る。

【2017年8月】
8/4 LCSAW3において,ICNALE Edited Essaysについてポスター発表
8/10 納品済みのESL圏データ(SIN, PHL, PAK, HKG)について
1)編集済みdocファイルより編集前・編集後テキストファイルを切り出し(各140本)
2)それぞれをレベル別にマージし,タグ付け
3)1および2のデータを検索システム開発業者に送信
あわせて,システム開発の進捗状況について協議



※現在の開発版の検索画面

8/11-12 ICNALE Edited Essays(ダウンロード版)公開に備え,既存のデータの呼称の変更を一括実施。あわせてウェブサイトの記載を修訂。
8/12 ICNALE Edited Essays V1.0(ダウンロード版)の公開開始。あわせて,公開済みデータもrenameの上でで新規に公開。並行して,ユーザー登録フォームに使用目的を聞く欄を追加する。 → 修訂後のウェブサイト
8/17 業者に送信済みのタグ付けデータがトピック切り分けされていなかったので連絡あり。Sketch Engine上で,初めて圧縮ファイルのオンライン解凍・タグ付け処理を実施。



FTPでないとできないと思っていた個別ファイルタグ付けも簡単にできることが判明。


-----------------------------------------------

【2017年7月】
7/09 SIN(40本)校閲・評価あがり
7/18 HKG(40本)校閲・評価あがり
7/18 検索システム実装用に以下の作業を実施
・国・レべル別のマージ
・Sketch Engineでタグ付けし,開発サイトにタグ検索用のvertデータを送信
~EFL圏(EDIT作業終了,ORIG+EDITとも送信済み)~
★JPN(4レベル,ORIG+EDIT)
★KOR(4レベル,ORIG+EDIT)
★CHN(4レベル,ORIG+EDIT)
★TWN(4レベル,ORIG+EDIT)
★IDN(B2+以外3レベル,ORIG+EDIT)
★THA(B2+以外3レベル,ORIG+EDIT)
~ESL圏(EDIT作業続行中,ORIGのみ送信済み)~
★PAK(B12のみ1レベル,ORIGのみ)
★SIN(B12, B2のみ2レベル,ORIGのみ)
★PHL(B12, B2のみ2レベル,ORIGのみ)
★HKG(B12, B2のみ2レベル,ORIGのみ)
7/29 LCSAWポスター発表ポスター原稿の作成


7/31 同上納品
7/31 新検索システムのモックが完成(original/edited比較検索結果画面)



-----------------------------------------------
【2017年6月】
6/1 ICNALE Edited Essays V0.3の正式公開
6/2 韓国・インドネシアデータのデータ収集にかかる海外送金の事務手続き
6/12 フィリピン・香港・シンガポール・パキスタンのデータ処理発注
6/16 開発中の 検索システムのエントリー画面のチェック

当方の発注指示に近いイメージです。これにより,Spokenとして2つのモジュールがあること,それとは別に書き言葉モジュールがあること,その一部として校閲モジュールがあること,校閲は非常に小さいことがわかります。コーパス開発で重要なことは,集めたデータの性質(分量の大小など,弱点も含めて)をわかりやすく定義し,伝えることだと感じています。



-----------------------------------------------

【2017年5月】
(システム開発関係)
・5/12 見積もりの受け取り
・5/13~ 発注内容の精選と再度の見積もり依頼
・5/16 再見積もりの受け取り
・5/20 最終版仕様書の作成と事務への発注依頼
・5/22 正式発注完了

(データ関係)
・5/4 韓国人学習者差し替えデータの作業済みデータ受理
・5/4 引き続きインドネシア人データの校閲・評価作業を指示
・5/31 The ICNALE Edited Essays Version 0.3 公開準備(6/1より公開)

----------------------------
【2017年4月】
1. 過年度収集済みデータの検証開始
・韓国データで,複数が"uneditable"として校閲されていないことが判明
・すべてのデータを再検証し,アルバイト・禁煙のいずれか一方または両方において"uneidtable"となっているデータを被験者単位で削除
・これにより,韓国データで以下の欠損が発生
A2レベル・・・5名(10作文)
B1_1レベル・・・2名(4作文)
B1_2レベル・・・2名(4作文)
・韓国データは公開を延期

2. チェック済みデータの公開準備
・タイ(3レベル,30名,60本),台湾(4レベル,40名,80本)のデータを検証
・校閲済み後のテキストをテキストファイルとして分離
・jisをUTF8に変換
・文字化けを修正(アポストロフィがエンコードで化ける)

※person'sが文字化けした例




・Wordsmithでトークン情報収集

3. 公開用のreadme,infosheetほか関連文書の作成
・元作文データ,修正済み作文データ,修正データ(加除数=編集距離),執筆者データを統合したinfosheetの作成




・プロジェクトの概要を説明したreadmeの作成
The ICNALE-Proofread is a new addition to the ICNALE dataset, which contains learners’ original essays chosen from the ICNALE-Written and the edited essays by professional proofreaders. By comparing the original and edited texts, corpus users can easily analyze learners’ errors and/or their deviant L2 uses.
The ICNALE-Proofread currently focuses on EFL learners in China (CHN), Japan (JPN), Indonesia (IDN), Korea (KOR), Thailand (THA), and Chinese Taipei (TWN). The data of ESL learners is NOT included.
As a rule, each country module includes eighty essays written by forty learners at four different proficiency levels. However, IDN and THA modules includes only sixty essays by learners at A2, B1_1, and B1_2 levels. This is due to the lack in the number of B2+ level learners in these two countries.
The ICNALE-Proofread, which is still under construction, plans to collect 440 EFL learner essays and the same number of edited essays.

4. ICNALE-Proofread V0.2 公開
・4/13付けで公開
・V0.2の概要
中国・日本・タイ・台湾の4か国・地域の大学生150人による300本の元作文と,同数のネイティブ校閲者高低済み作文データを含む。



5. ウェブサイトの修正・情報追加
・プロジェクトウェブサイト上で,Spoken/ Writtenモジュールの各々につき,習熟度別被験者人数情報を追加。また,Spokenのデータを最新版に更新。
http://language.sakura.ne.jp/icnale/index.html

6. 次期校閲作業のための仕様書の作成と依頼処理
・前回作業をふまえ,詳細な校閲プロトコルをまとめた仕様書を作成(uneditableデータがあった場合の告知義務を追加。見え消し機能の使用不可ルールを追加。)
・見積もりの上,作業を依頼(4/14付け)
・5月中旬に韓国の欠損データが,6月中旬にインドネシアデータが新規に収集される予定

7. 検索システム開発打ち合わせ(4月28日に研究室で担当者と会議を行いました)
(新システムの概要)
【アクセス】
・ブラウザにより利用者登録ページから先に進めない問題を調査・対処する
・Enterページに2種を作成 既存のものを ICNALE-Spoken/ Written,新規のものをICNALE-Proofedと呼称

【提供する検索機能】
・KWIC ,Wordlist ,Keywordsに対応(Collocation とFreq Graphはなし)

【KWIC検索システム概要】
・既存の検索画面をベースにしつつ,以下のように変更
Word(s):【 】In □Original □Proofed (原文・修訂文の指定)
Participants: [EFL] CHN IDN JPN KOR THA TWN のみ

・Production Mode: ■Spoken(選択不可)□Written
・結果表示
1)現行どおり上部に検索語を含むコンコーダンスラインを表示
2)コンコーダンスライン中の当該語を押すと,下部に2つの画面が展開
3)左はOriginal,右はProofed。それぞれについて該当エッセイが表示される
4)検索された語は色でマーク
5)センテンス番号情報から簡易アラインメントを行い,該当箇所を中央に表示
・結果表示のイメージ(原文中のisを検索してコンコーダンスラインを表示させ,その中の1行をクリックした際の挙動)
Original Proofed

... These is a pen.... ... These are pens....

【Keyword検索システム概要】
・対象データ・参照データ指定を以下のように設定
Target (Original) Reference (Proofed)
[EFL] CHN IDN JPN KOR THA TWN [EFL] CHN IDN JPN KOR THA TWN
・Target側にチェックを入れると自動で対応するreferenceデータにもチェックが入る

【Wordlist検索システム概要】
・KWICの設定画面に準じる