Mizumoto & Eguchi (2023)

「ChatGPTを使った英語エッセイの自動採点の精度はどの程度なのか?」ということを調査した論文が Research Methods in Applied Linguistics にアクセプトされました。応用言語学の研究分野で(Chat)GPTを使用している論文としては初になるのではないかと思います。

Mizumoto, A., & Eguchi, M. (2023). Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 100050. https://doi.org/10.1016/j.rmal.2023.100050

*論文はジャーナルのウェブサイトでOpen Accessで公開されています。

今回は、論文の内容、および着想から出版までの記録などを書いておこうと思います。

着想

きっかけは、初詣の前に昼食を食べたレストランに入るまで、お客さんの長い列ができていたので、並びながらChatGPTでいろいろ遊んでたときのこと。「これってできるのかな?」と思いながらChatGPTにやらせてみた結果を見て驚いたのがこちらの呟き。

「ChatGPTでエッセイの採点ができるのなら、どの程度正確にできるのだろうか?」と思ったことが、今回の研究の始まりでした。

検証方法

使用したコーパス

(Chat)GPTによる自動採点が、「本当の」スコア(やレベル)とどの程度一致するのかを調べる必要があったため、2006年と2007年にTOEFLを受験した12,100名のエッセイと、そのエッセイに対するレベル(low, medium, high)が付与されている学習者コーパスの ETS Corpus of Non-Native Written English (TOEFL11) を使用しました。

TOEFL11は、その名前が示すとおり、11の異なる母語の英語学習者から無作為抽出されたエッセイデータが含まれいて、今回の研究の目的にはピッタリの学習者コーパスでした。

しかし、1月中旬に購入した時点で、TOEFL11は1,000ドル(135,591円)でした。私の2022年度の研究費が10万円しか残っておらず、35,591円は自分で支払うことになりました。(好きな研究とはいえジバーラはつらい。)

使用したGPTの種類

エッセイの自動採点には、GPT-3.5 シリーズとして2022年11月30日にChatGPTと同じタイミングでリリースされた OpenAI の text-davinci-003 モデルを使用しました。これは、text-davinci-003 がChatGPTと基礎となるモデルが同じであることから、ChatGPT(3.5)を使用した場合でも同様の結果が得られると考えたからです。

text-davinci-003 モデルは、PythonでOpenAIのAPIを使ってアクセスしました。これも、APIが10分の1の値段になる前だったので、1,000トークンで0.02ドルかかり、6つぐらいアカウントを作って数日かけて12,100ファイルを自動採点しました。結局これで10万円弱ジバーラという追加の罰ゲーム…(しかもGPT-4が2023年3月16日に発表されたため、2ヶ月前の話なのに「以前のモデルでの分析でありGPT-4を使ったほうが精度が高いだろう」という limitation を書かないといけないことに… 涙)

プロンプト

こちらのOSFに使用したPython、Rのコード、そしてその他のデータを公開していますが、プロンプトは以下のようなシンプルなものです。

I would like you to mark an essay written by English as a foreign language (EFL) learners. Each essay is assigned a rating of 0 to 9, with 9 being the highest and 0 the lowest. You don’t have to give me the reason why you assign that specific score. Just report a score only. The essay is scored based on the following rubric.

使用したルーブリックは IELTS TASK 2 Writing band descriptors (public version) でした。

「TOEFLのエッセイ採点なのにIELTSのルーブリック?」と思われた方は鋭いです。TOEFL iBT® Independent Writing Rubrics は5段階で、実際は0.5点の刻みが入りますが、ルーブリックほど細かい観点別になっておらず、ChatGPTで確認した限りエッセイの採点にあまり差が出ないことが多かったため、IELTSのルーブリックを使うことにしました。(ここは査読者完全スルー)

あと、ChatGPT で誰でも同じように自動採点ができるように、いくつかのサンプルエッセイやその採点をプロンプトに加えるということはせずに、Zero-shot のプロンプトを用いました。

自動採点のブレの確認

ChatGPTでも何度か同じエッセイを採点してみると、毎回、点数が同じというわけではなく、1~2点のブレがあるようだったので、どの程度同じ点数が一貫して得られるかということを確認するために、12,100本のエッセイのうち、全体のサンプルの構成(11の母語、エッセイのレベル)を反映した形で無作為抽出し、1,210本をもう一度自動採点しました。

なぜ12,100本すべてをもう一度自動採点しなかったかというと、これ以上ジバーラが増えると光熱費が高くなっている昨今、オール電化の水本家が冬を越して春が迎えられない可能性があったからです。その切実な状況とともに、TOEFL11がもともと無作為抽出のデータで構成されていたため、1,210本と言わずに100本だけでも全部のデータを使ったときと同じ結果が得られるということを何度か確認してわかっていたからです。無作為抽出は偉大。

2回採点した結果が以下のようなものでした。対角線上の四角で囲っている数値は1回目と2回目の採点が一致していたものです。だいたい、1~2点のブレに収まっており、2次の重み付きカッパ係数(Quadratic Weighted Kappa)を算出すると、0.682で「かなり一致している」(substantial agreement)という解釈になります。この結果から、GPTの自動採点はかなり安定しているため、分析に使用しても問題ないという判断をしました。

最強助っ人江口さん登場

ここまでの分析を自分でやってみて、先行研究では、結束性(cohesion)や統語的・語彙的複雑さ(syntactic/lexical complexity)のような言語的特徴量 (linguistic feature) を BERT のような transformer に追加することによって、自動採点の精度が高くなる、という報告を行っている研究がいくつかあったことを思い出しました。

「言語特徴も調べてみるか… 前もやったけど Python で自分でやるのは大変だな。誰か分析をお願いできないかな?」って思ったときに、すぐに思い浮かんだのが江口政貴さん(オレゴン大学博士後期課程)でした。江口さんといえば、Multi-Word Units Profiler を作ったり、国際トップジャーナルに論文をバンバン出している新進気鋭の研究者で、昨年夏に日本に帰国された際にもジバーラで東京まで会いに行って話をさせていただいた、私が尊敬する若手研究者なのです。

「いつか一緒に研究しましょう」って以前から言っていたので、お声掛けしたところ即ご快諾いただきました。ただし、博士論文執筆の大事な局面でのタイミングだったので結構ご負担になってしまったことを反省しています。

私からしたら、現役バリバリのメジャーリーガーが WBC で日本チームに合流したような感じだったので結構心強かったです。(ヌートバーか大谷翔平かどちらだろう江口さん?ダルビッシュではないな…)実際、査読者やエディターのコメントからも、江口さんに共著者で入ってもらったことはプラスに働いたことがわかりました。

結果

TOEFL11 の Low, Medium, High という3つのグループでGPTによる自動採点の点数の分布がどのようになっていたかを示しているのが以下の図です。

レベル間で点数の重複が多いですが、ある程度、違いがあるということが確認できます。つまり、GPTによる自動採点でTOEFL11のレベル分けが(完璧ではありませんが)再現できるということが言えそうです。統計的検定の結果や効果量などの詳細は論文をご確認ください。

次に、言語的特徴量を入れることによって、予測の精度がどの程度変わるかを示したのが以下の図です。数値が低い方がモデルとして優れていると判断します。GPTだけよりも言語的特徴量を入れるほうが良いという結果になりました。

分散説明率(モデルでどの程度予測が正確にできるか)を見てみると、GPTだけよりも言語的特徴量を入れるほうが明らかに説明率が高くなっています。

結果のまとめ

  • GPTだけで自動採点するとまあまあの精度。
  • ハイステークスなテストに使えるレベルではない。
  • 言語的特徴量を入れると精度が大幅に上がる
  • 学習や指導、評価のサポート・ツールとしては使えるだろうというレベル。
  • (これまでの自動採点で言われていることと同じで)GPTだけでは精度が高くないので、人間の採点も組み合わせたほうがよい。

なぜRMALに投稿したのか?

本題からは逸れますが、大事なことなので書いておきたいと思います。

応用言語学分野では、言語テスト系のジャーナルもたくさんあります。今回、テスティング関連のジャーナルに投稿せずに、なぜ Research Methods in Applied Linguistics (RMAL) に投稿したのかというと、査読結果が1ヶ月以内に返ってくるジャーナルだったからです。私もこのジャーナルの査読を何回かしたことがありますが、査読者も1ヶ月以内に結果を報告します。

2022年に第2著者として出版したこちらの論文でも、審査のスピードが異様なまでに早かったことを覚えています。

In’nami, Y., Mizumoto, A., Plonsky, L., & Koizumi, R. (2022). Promoting computationally reproducible research in applied linguistics: Recommended practices and considerations. Research Methods in Applied Linguistics, 1(3), 100030. https://doi.org/10.1016/j.rmal.2022.100030

今回のトピックであるGPTは上述のように、数ヶ月前のモデルでも刷新されて、すぐに古くなってしまいますので、新鮮さが命です。そのため、テスティング関連のジャーナルではなく、RMALに投稿しました。そして、今回はその作戦が成功しました。

RMALは2022年に始まったジャーナルなので、査読のバックログもないことが審査が早い要因かもしれませんが、それよりも、エディターの Dr. Shaofeng Li の以下のツイートからもわかるように、意識的にそうしているようです。

実際、3/28に2人目の査読者が結果を返してきた、その数時間後に Li 先生からアクセプトの連絡が届きました。ほぼ as is は初めての経験。

<記録>
2023年1月24日 論文執筆開始
2023年2月23日 投稿
2023年3月28日 アクセプト

日本の学会誌もこれぐらいのスピード感だったら魅力が増すのに、と思いつつ、自分が編集委員や査読者だったらツライのであまり大きな声では言えない…😂

このように、RMALはとても良いジャーナルですので、みなさんもなにかメソッド関連の論文があったら、投稿させると良いと思います。もし、リジェクトされたような場合は、LET関西支部メソドロジー研究部会の研究論集も、ぜひ投稿先としてご検討ください。

役に立ったツール

ChatGPT もそうですが、ここ数ヶ月で先行研究を探したり、読んだり、まとめたりというツールに AI 的なものが組み込まれてきていて、今回の論文執筆でも大活躍しました。

こちらは、そのような論文執筆サポートツールをまとめたものです。
英語論文執筆プロセスで活用できるサポートツール


こういうツールの使い方を知ることも、これからの研究者にとっては非常に重要ですので、3/9に以下の学内限定セミナーを行いました。以下の画像をクリックすると使用したスライドをご確認いただけます。

ChatGPTを中心に、このようなツールを活用したため、今回の論文では英文校正会社のチェックを受けずに、論文を出版することができました。

今回は、Elsevier のジャーナルだったので、The Use of AI and AI-assisted Technologies in Scientific Writing に明記されているように、論文の Acknowledgementには、ChatGPTをどのように使用したかを明記しています。

In the preparation of this manuscript, we employed ChatGPT (GPT-3.5 & 4) to enhance the clarity and coherence of the language, ensuring it adheres to the standards expected in scholarly journals. While ChatGPT played a role in refining the language, it did not contribute to the generation of any original ideas. The authors alone are responsible for any inaccuracies present in the manuscript. This research was supported by JSPS KAKENHI Grant No. 21H00553.

さいごに

今日から4月(新年度)になりましたので、この論文をオープン・アクセスにするための以下の費用がジバーラになることはなさそうです。なんという幸せなことなのでしょう。2023年度も関係者のみなさま、どうぞよろしくお願いいたします。


Grammar Checker の比較

いくつかある Grammar Checker は、どれを学習者にすすめるか悩ましいところです。

Grammarly は2009年にリリースされユーザーも多いため、研究論文でもたくさん報告されているのですが、無償のニューラル機械翻訳サービスとして人気の高い DeepL も、DeepL Write を2023年1月にリリースしました。今回はこれに加えて、Quillbot AI の Free Grammar Checker を比較して、どれが個人的におすすめかをまとめます。

使用したのは、以下の学習者が書いた文法ミス(というか不自然な表現)が含まれている英文です。

If they do not do part-time jobs, they are hard to live on their own. Also, some students will take driver’s licenses. To take the licenses, generally, it costs about three hundred thousand yen. This is not a cheap amount of money, and for that reason, it is not a good idea to rely on their parents, it would be better to earn it themselves.

まずは、Grammarly無料版。

Grammarly 無料版はエラーの箇所を下線で教えてくれますが、どのように直すかは、Premium(有料版)を利用しなければわかりません。

というわけで、Grammarly Premium(有料版)。

しっかりと言い換えとその理由を提示してくれます。さすがなかなかお高い有料版。Grammarlyの有料版と無料版の違いについての詳しい説明はこちらがわかりやすいです。

ただ、take driver’s licenses のような不自然な語の選択ミスはスルーされていたりします。

次に、DeepL Write。

DeepL Writeは無料なのですが、言い換えまで提案してくれます。なかなか良い仕事をしてくれているのですが、最後の方の代名詞は間違えた訂正がされています。

最後に Quillbot AI の Free Grammar Checker。

こちらも無料のツールなのですが、言い換えが他のツールと比べて大変精度が高いです。あと、他のツールではスルーされていた、take driver’s licenses の take に下線が入っていて、「get のほうがいいですよ」と提案してくれます。

Quillbot は Paraphrasing Tool のほうがよく知られていて、私も普段から論文を書くときに使っていますし、学生にも授業で紹介することが多いのですが、Free Grammar Checker の性能の高さに気づいてからは、アカウントを作ったり有料じゃないと十分な修正が得られないGrammarlyよりも、こちらをおすすめするようになりました。

DeepL Write と比べても優れている印象ですが、DeepL Write もアップデートされていくといい勝負になるのではないでしょうか。

今回紹介した3つのツール以外にも、たくさん無料・有料の Grammar Checker は存在しており、これまでいろいろと試してきたのですが、どれもこの3つ以上のレベルではないと思います。もし、さらに良いツールをご存知でしたら教えてください。

ちなみに、今回比較に使用した同じ英文を ChatGPT で「文法を直してよりアカデミックに書き換えて」と指示したものがこちらです。

もう別物ですね… あと、もともとの英文が何が不自然だったのか、気づきにくいと思います。ChatGPT は修正が明示的ではない分、学習者側の気づきが起きにくいのかもしれません。

ChatGPT は言い換えや、表現のバラエティーを増やすのに向いていて、文法のエラーに気づかせるためには Grammarly のようなツールのほうが向いているという感じでしょうか。自分で指導するときには、目的に応じて紹介・使用するツールも変えるようにしようと思います。

AWSuM v1.10 released

Im excited to announce the release of the updated version of AWSuM.

With this update, it is now possible to (1) search the left of the target words (1L to 3L). And if you use an asterisk in the search, (2) AWSuM shows you the words used in the place of the asterisk. You can also generate (3) concordance lines to examine how words are used in context. Isnt it awesome or what?

newawsum

For those of you who dont know what AWSuM is, heres the introductory video.

The complete manual will be available in a few weeks.

「職業としての研究者」

 

長い引用ですが,村上春樹の『職業としての小説家』(2015) から。

pp. 26–27
「というわけで僕は,長い年月飽きもせずに(というか)小説を書き続けている作家たちに対して—つまり僕の同僚たちに対して,ということになりますが—一様に敬意を抱いています。当然のことながら,彼らの書く作品のひとつひとつについては個人的な好き嫌いはあります。でもそれはそれとして,二十年,三十年にもわたって職業的小説家として活躍し続け,あるいは生き延び,それぞれに一定数の読者を獲得している人たちには,小説家としての,何かしら優れた強い核(コア)のようなものが備わっているはずだと考えるからです。小説を書かずにはいられない内的なドライブ。長期間にわたる孤独な作業を支える強靭な忍耐力。それは小説家という職業人としての資質,資格,と言ってしまってもいいかもしれません。

小説をひとつ書くのはそれほどむずかしくない。優れた小説をひとつ書くのも,人によってはそれほどむずかしくない。簡単だとまでは言いませんが,できないことではありません。しかし小説をずっと書き続けるというのはずいぶんむずかしい。誰にでもできることではない。そうするには,さっきも申し上げましたように,特別な資格のようなものが必要になってくるからです。それはおそらく「才能」とはちょっと別のところにあるものでしょう。

じゃあ,その資格があるかどうか,それを見分けるにはどうすればいいか?答えはただひとつ,実際に水に放り込んでみて,浮かぶか沈むかで見定めるしかありません。乱暴な言い方ですが,まあ人生というのは本来そういう風にできているみたいです。それにだいたい小説なんか書かなくても(あるいはむしろ書かないでいる方が),人生は聡明に有効に生きられます。それでも書きたい,書かずにはいられない,という人が小説を書きます。そしてまた,小説を書き続けます。」


 

ちょっと違うところもあるけど,小説を「論文」,小説家を「研究者」に置き換えると,「職業としての研究者」(特に文系研究者)がやっていることに近くなる。

 

複数の Mac での Mendeley ライブラリと Dropbox(pdf)の同期

 

ずっとやりたかったこと

Mendeley を使い始めて6年ぐらいになりますが,ずっとやりたかったけどできなかった,Mac 1 <—> Dropbox(論文 pdf ファイル) <—> Mac 2, 3… という同期。

同期イメージ

とにかく,どの Mac で開いても,同じ Mendeley ライブラリの情報(←これは当たり前にできる),そして Dropbox に保存している該当論文 pdf を開くことができるようにしたい(←これができなかった)。

英語でも日本語でも検索してみるとそういうニーズはあることがわかります。

「難しい設定は何もしなくても,Mendeley の File Organizer を同じDropboxのパスにして,設定も同じにしておけば勝手にできますよ」的な都市伝説もあったりするけど,なかなかそんな簡単にはいかないです。

本当に一番簡単な方法は,Mendeley の有料プラン web space を使うことです。毎月$4.99払えば5G まで,$9.99払えば10GB までは Web 版の Mendeley とすべての Mendeley Desktop で pdf の同期もできます(月$14.99だと無制限)。でも,私は Dropbox を有料プランにしているため,なんだかもったいない気がして,「どうにか Mendeley は無料のままでできないかな」と思いつつ,はや数年…

そして重たい腰をあげ試行錯誤の末,今日やっと同期できるようになったのでメモ。

基本的には,ここに書いてある方法で問題ありませんでした。

環境は,OS X El Capitan バージョン10.11.3,Mendeley Desktop バージョン1.16.1です。

#1 Dropbox の設定

Dropbox の中に,Mendeley というフォルダを作り,その中に db と pdf というフォルダを作ります。論文の pdf ファイルは pdf フォルダの中に入れておきます。

dropbox

 

#2 すべての Mac の Mendeley Desktop の設定

どの Mac の Mendeley でも,Mendeley Desktop > Preferences > File Organizer で,以下のように Dropbox の Mendeley というフォルダの中に論文 pdf ファイルを入れるフォルダを作ります。

mendeley

そして,どの Mac でも,/Users/<<Your User Name>>/Dropbox/Mendeley/pdf というパスになるように(<<Your User Name>>は自分のユーザー名が入る),”File Organizer” の設定をすべての Mac で同じにします。”Watched Folders” は(いらんことをするので特にうまく使えてない場合は)設定しないほうがよいと思います。

 

#3 母艦 Mac の設定

ターミナルを起動(アプリケーション > ユーティリティ > ターミナル.app)し,以下を1行ずつ入力(コピペで OK)。”Application\ Support” の \ はメタ文字のエスケープで,半角スペースを示します。


cd ~/Library/Application\ Support
cp -r Mendeley\ Desktop/ ~/Dropbox/Mendeley/db/
mv Mendeley\ Desktop/ _backup_Mendeley_Desktop/
ln -s ~/Dropbox/Mendeley/db/Mendeley\ Desktop .
(←ピリオド含む)
[2016.12.23追記] この最後の行でシンボリックリンクを貼った後に,mkdirで空のフォルダを~/Dropbox/Mendeley/dbに置かないと,エラーになります。(初回の場合はそのフォルダがないため。)

それぞれの行でやっていることは以下です。

  1. Library の中の Application Support フォルダに移動。
  2. Library の中の Application Support フォルダにある,Mendeley Desktop の内容を,Dropbox の Mendeley フォルダの中に作成しておいた,db にコピー。
  3. backup_Mendeley_Desktop というフォルダを Library の Application Support の中に作り,Mendeley Desktop のバックアップファイルを作成(これで Mendeley Desktop はなくなる)。※ もし,Mendeley が開かなくなったりした場合は,Mendeley Desktop というフォルダを Library の中の Application Support に再度作成し,_backup_Mendeley_Desktop フォルダの中身をコピー(移動)すれば大丈夫。
  4. Library の Application Support の中に,Dropbox > Mendeley > db にある,Mendeley Desktop のエイリアス(alias)を作成する。

 

#4 その他の Mac の設定(2台以上でも可能)

ターミナルを起動(アプリケーション > ユーティリティ > ターミナル.app)し,以下を1行ずつ入力(コピペで OK)。


cd ~/Library/Application\ Support
mv Mendeley\ Desktop/ _backup_Mendeley_Desktop/
ln -s ~/Dropbox/Mendeley/db/Mendeley\ Desktop .
(←ピリオド含む)

それぞれの行でやっていることは以下です。

  1. Library の中の Application Support フォルダに移動。
  2. backup_Mendeley_Desktop というフォルダを Library の Application Support の中に作り,Mendeley Desktop のバックアップファイルを作成(これで Mendeley Desktop はなくなる)。
  3. Library の Application Support の中に,Dropbox > Mendeley > db にある,Mendeley Desktop のエイリアス(alias)を作成する。

 

実は考え方はいたってシンプル

  • 母艦 Mac の Mendeley Desktop の内容を,Dropbox の db フォルダに移す。
  • 母艦 Mac のもともと Mendeley Desktop フォルダがあった場所には,Dropbox の db フォルダに移した Mendeley Desktop のエイリアスを置いておくことにより,母艦 Mac の Mendeley は常に Dropbox 内のデータベースを利用することになる。
  • その他の Mac でも,Mendeley のデータベースは,常に Dropbox を参照する設定にすることによって,すべての Mac でデータベースの同期を可能にしている。
  • 結局は,Dropbox にデータベースも pdf も両方置いている。

これによって,Mendeley > pdf フォルダに追加される論文ファイルは,必ずどの Mac でも見ることができるし,pdf に入れたハイライトや下線ももちろん共有されます。環境によって,pdf が添付されてたり,されていなかったりということがこれまでありましたが,これで,いちいちファイルを Dropbox の Mendeley フォルダで探す手間が省けるので,だいぶ快適になりました。

ただし,iOS では pdf は同期されないので,以下のように特定のフォルダを Mendeley のライブラリで作って,そのフォルダ内の pdf は同期するように設定するというような工夫が必要です。

customize

 

Mac 以外の場合

Windows でのやり方(はたぶんですが)はこちら

Android で Mendeleyと連携したい というものもありました。

異なる PC での同期はだいぶやっかいそうですね。

とりあえず,Mac なら問題なくできます。
春ですので Mac を買いましょう。

 

AWSuM – Academic Word Suggestion Machine

英語論文執筆サポートツールを開発、公開しました。無料です。現在は応用言語学のみですが、他の分野も今後対応予定です。

We have developed a web-based writing support tool, which suggests most frequent 4-grams based on the sections and moves (rhetorical functions) of a research article. It is called AWSuM – Academic Word Suggestion Machine. At the moment, our database covers only the field of applied linguistics. But we will include other disciplinary fields in the future. Take a look at the introductory video. You will agree AWSuM is pretty awesome!

Useful resources (websites) for writing research papers in English

Here’s a list of websites I find useful in writing research papers in English.
Any feedback and suggestions are always welcome!


[Writing support tool]
WriteAway
As you type some words, WriteAway shows patterns (and examples) frequently used in written discourse.

[Word usage]
Lexipedia – Where words have meaning
Just The Word

[Dictionary/Thesaurus]
Memidex – free online dictionary and thesaurus
OneLook Dictionary Search

[Corpus]
Corpus of Research Articles
Springer Exemplar
StringNet Navigator 4.0
Sketch Engine: Open corpora
The Corpus of Contemporary American English (COCA)
BYU-BNC: British National Corpus

[Online proofreader]
Online Proofreader: Pre-Grade Your Essay | Paper Rater
Academic English Marking Mate