Mizumoto et al. (2024) in Applied Corpus Linguistics

Mizumoto, A., Yasuda, S., & Tamura, Y. (2024). Identifying ChatGPT-generated texts in EFL students’ writing: Through comparative analysis of linguistic fingerprints. Applied Corpus Linguistics, 4, 100106. https://doi.org/10.1016/j.acorp.2024.100106

Open Access にするのに 18 万円かかりましたが、この程度であれば研究費で何とか賄うことができました。同じ Elsevier でも System はインパクト・ファクターが高いため、Open Access にする費用も 50 万円以上かかります。Open Science が重視される時代に、いつまで Article Processing Charge (APC) を支払い続けるのだろうと思いつつも、商業的な仕組みに依存せざるを得ない現状…

Applied Corpus Linguistics は相変わらず turnaround time(査読プロセス全体にかかる時間)が速く、2 か月で出版できました。

以下はChatGPTによる論文の要点のまとめです。

論文の要点まとめ

研究の背景と目的

生成AI(Generative AI, GenAI)、特にChatGPTの登場により、英語を外国語(EFL)として学ぶ学生のライティング教育に新たな課題が生じている。本研究は、日本のEFL学習者が執筆したエッセイとChatGPTが生成したエッセイを比較し、両者の言語的特徴を分析することで、AI生成テキストの識別可能性を検証することを目的とする。

研究方法

  • 参加者: 日本の大学1年生140名
  • データ:
    • 125名が独自にエッセイを執筆
    • 13名がChatGPTを校正に使用
    • 2名がChatGPTに全文執筆を依頼
    • 追加でChatGPTによる123のエッセイを生成し、比較用データセットを作成
  • 分析: 自然言語処理(NLP)技術を用いて言語的特徴を抽出し、機械学習(ランダムフォレスト分類)による識別を実施
  • 評価項目: 語彙の多様性、統語的複雑性、名詞化、助動詞、認識的マーカー、談話マーカー、正確性、流暢さ

結果

  1. 人間のエッセイとChatGPTのエッセイには明確な違いがある
    • ChatGPTのエッセイは語彙の多様性が高く、統語的に複雑で、名詞化が多い
    • 人間のエッセイは助動詞や認識的マーカー、談話マーカーをより多く使用
    • ChatGPTのエッセイは文法的エラーが極めて少なく、単語数が多い
  2. NLP技術を用いた機械学習モデルは、ChatGPT生成テキストを高精度で識別可能
    • ランダムフォレスト分類モデルによる識別精度は100%(一部指標を除いても97.8%)
  3. ChatGPTを部分的に使用したエッセイの特徴
    • ChatGPTを校正に使用した場合、統語的には人間のエッセイと類似するが、誤りがほぼゼロに近い
    • 特に、エラー数の少なさがAI使用の重要な指標となる

結論と教育的示唆

  • AIの適切な使用ガイドラインの整備が必要
    • AIの倫理的使用に関する明確なルールを学生と共有することが重要
  • ライティング教育への統合方法の検討
    • AIを活用した適切な学習方法(例: 推敲の補助、フィードバックの活用)を促進
    • 学生がAIに過度に依存せず、主体的に執筆スキルを向上させる仕組みが必要
  • ライティング評価基準の再考
    • AIを活用したライティングの評価方法を見直し、学習者の思考プロセスを重視する評価へシフトすることが求められる

本研究は、EFLライティング教育におけるChatGPTの影響を明らかにし、今後の教育方針やAI活用の指針を示す重要な知見を提供している。

Summary in English

Background and Objective

The emergence of Generative AI (GenAI), particularly ChatGPT, has introduced new challenges in teaching writing to English as a Foreign Language (EFL) learners. This study investigates the distinguishability of essays written by Japanese EFL learners compared to those generated by ChatGPT. By analyzing linguistic features, the research aims to determine whether AI-generated texts can be identified and how ChatGPT influences student writing.

Methodology

  • Participants: 140 first-year university students in Japan
  • Data Collection:
    • 125 students wrote essays independently
    • 13 students used ChatGPT for proofreading
    • 2 students had ChatGPT write the entire essay
    • An additional 123 essays were generated by ChatGPT for comparison
  • Analysis: Natural Language Processing (NLP) techniques were used to extract linguistic features, and machine learning (random forest classification) was applied to differentiate human-written and AI-generated essays.
  • Evaluation Metrics: Lexical diversity, syntactic complexity, nominalization, modals, epistemic markers, discourse markers, accuracy, and fluency.

Findings

  1. Clear distinctions between human-written and AI-generated essays
    • ChatGPT-generated essays exhibited higher lexical diversity, greater syntactic complexity, and more nominalization.
    • Human-written essays contained more modals, epistemic markers, and discourse markers.
    • ChatGPT-generated texts had significantly fewer grammatical errors and a higher word count.
  2. NLP-based machine learning models can effectively identify ChatGPT-generated texts
    • The random forest classification model achieved 100% accuracy in distinguishing AI-generated essays (97.8% accuracy even when some linguistic features were excluded).
  3. Characteristics of essays with partial ChatGPT use
    • Essays edited with ChatGPT retained human-like syntactic patterns but had significantly fewer errors.
    • Error-free writing was a key indicator of ChatGPT-assisted revisions.

Conclusions and Educational Implications

  • Need for clear guidelines on AI usage
    • Institutions should establish ethical policies for AI use and communicate them to students.
  • Integration of AI into writing education
    • AI can be beneficial for brainstorming and revision but should not replace the cognitive writing process.
    • Strategies should be implemented to ensure students use AI as a learning tool rather than a substitute for writing skills.
  • Reevaluation of writing assessment criteria
    • Educators should reconsider assessment methods to focus on students’ thought processes and engagement rather than just the final product.

This study highlights the impact of ChatGPT on EFL writing education, providing valuable insights into AI detection and responsible AI integration in academic settings.

Reflection 2024

普段は毎日を生きることで精一杯なので、年末に振り返りをしたことはないのですが、2024年は2023年に引き続き、たくさん論文を出版できたのでそちらの紹介です。

私は関西大学外国語教育学研究科で修士課程、博士課程を指導していますので、特に、コーパスや生成AIの英語教育への応用などのテーマに関心があって、修士号、博士号取得を目指している方は、こちらから情報をご確認ください。完全リモート受講が可能な研究科なので、どなたでもウェルカムです。(修士課程は日本国内在住者のみが対象になります。)

以下に書いていない日本語の記事や in press のものを含むと2年間で30本以上になりました。Good job, 自分。2025年はもう少し健康になることを心がけます…

As I look back on 2024, it has been a year filled with daily busyness and challenges, yet one marked by significant academic accomplishments. Continuing from 2023, I successfully published a substantial number of papers, exceeding 30 over the past two years, including Japanese articles and those currently in press. Reflecting on these achievements, I want to take a moment to say, “Good job, me!”

This year has also been fulfilling in my role as a supervisor for both master’s and doctoral programs at the Graduate School of Foreign Language Education and Research at Kansai University. I have had the privilege of working with many dedicated students. My research has particularly focused on areas such as corpus linguistics and the application of generative AI in English education. To those interested in pursuing a master’s or doctoral degree, I encourage you to explore our programs. The graduate school offers fully remote courses, making it accessible to all (though the master’s program is limited to residents of Japan).
https://www.kansai-u.ac.jp/fl/en/e-graduate/

Looking ahead to 2025, my goal is to prioritize my health. Amid the demands of research and writing, I plan to focus more on maintaining a balanced and healthier lifestyle. Here’s to another year of growth and success!

  1. Mizumoto, A., Yasuda, S., & Tamura, Y. (2024). Identifying ChatGPT-generated texts in EFL students’ writing: Through comparative analysis of linguistic fingerprints. Applied Corpus Linguistics, 4, 100106. https://doi.org/10.1016/j.acorp.2024.100106
  2. Mizumoto, A., Shintani, N., Sasaki, M., & Teng, M. F. (2024). Testing the viability of ChatGPT as a companion in L2 writing accuracy assessment. Research Methods in Applied Linguistics, 3(2), 100116. https://doi.org/10.1016/j.rmal.2024.100116
  3. Allen, T. J., & Mizumoto, A. (2024). ChatGPT over my friends: Japanese English-as-a-foreign-language learners’ preferences for editing and proofreading strategies. RELC Journal. https://doi.org/10.1177/00336882241262533
  4. Yabukoshi, T., & Mizumoto, A. (2024). Incorporating online writing resources into self‐regulated learning strategy-based instruction: An intervention study. Journal of Computer Assisted Learning, 40(6), 3486–3504. https://doi.org/10.1111/jcal.13081
  5. Yabukoshi, T., & Mizumoto, A. (2024). University EFL learners’ use of technology and their perceived difficulties in academic writing. LET Kansai Chapter Collected Papers, 22, 117–129. https://doi.org/10.50924/letkansai.22.0_117
  6. Huang, J., & Mizumoto, A. (2024). Examining the relationship between the L2 motivational self system and technology acceptance model post ChatGPT introduction and utilization. Computers and Education: Artificial Intelligence, 100302. https://doi.org/10.1016/j.caeai.2024.100302
  7. Huang, J., Mizumoto, A., & Bailey, B. (2024). Examining the effects of the L2 learning experience on the ideal L2 self and ought-to L2 self in a Japanese university context. International Journal of Applied Linguistics. https://doi.org/10.1111/ijal.12659
  8. Mizumoto, A. (2024). Developing and disseminating data analysis tools for open science. In L. Plonsky (Ed.), Open science in applied linguistics (pp. 121–131). Applied Linguistics Press. https://www.appliedlinguisticspress.org/home/catalog/plonsky_2024
  9. Alamer, A., Teng, M. F., & Mizumoto, A. (2024). Revisiting the construct validity of Self-Regulating Capacity in Vocabulary Learning Scale: The confirmatory composite analysis (CCA) approach. Applied Linguistics, amae023. https://doi.org/10.1093/applin/amae023
  10. Teng, M. F., Mizumoto, A., & Takeuchi, O. (2024). Understanding growth mindset, self-regulated vocabulary learning, and vocabulary knowledge. System, 122, 103255. https://doi.org/10.1016/j.system.2024.103255
  11. Teng, M. F., & Mizumoto, A. (2024). Validation of metacognitive knowledge in vocabulary learning and its predictive effects on incidental vocabulary learning from reading. International Review of Applied Linguistics in Language Teaching. https://doi.org/10.1515/iral-2023-0294
  12. Teng, F., & Mizumoto, A. (2024). Developing and validating a growth mindset scale in vocabulary learning. In A. Leis, Å. Haukås, N. Lou, & S. Nakamura (Eds.), Mindsets in language education. Multilingual Matters.
  13. Mizumoto, A., & Eguchi, M. (2023). Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 100050. https://doi.org/10.1016/j.rmal.2023.100050
  14. Mizumoto, A. (2023). Data-driven learning meets generative AI: Introducing the framework of metacognitive resource use. Applied Corpus Linguistics, 3(3), 100074. https://doi.org/10.1016/j.acorp.2023.100074
  15. Mizumoto, A. (2023). Calculating the relative importance of multiple regression predictor variables using dominance analysis and random forests. Language Learning, 73(1), 161–196. https://doi.org/10.1111/lang.12518
  16. Hiratsuka, T., & Mizumoto, A. (2023). Exploratory-talk instruction on EFL group discussion. Explorations in Teacher Development, 29(2), 13–20. https://td.jalt.org/index.php/volume-29/
  17. Mizumoto, A., & Watari, Y. (2023). Identifying key grammatical errors of Japanese English as a foreign language learners in a learner corpus: Toward focused grammar instruction with data-driven learning. Asia Pacific Journal of Corpus Research, 4(1), 25–42. https://doi.org/10.22925/apjcr.2023.4.1.25
  18. Murata-Kobayashi, N., Suzuki, K., Morita, Y., Minobe, H., Mizumoto, A., & Seto, S. (2023). Exploring the benefits of full-time hospital facility dogs working with nurse handlers in a children’s hospital. PLOS ONE, 18(5), e0285768. https://doi.org/10.1371/journal.pone.0285768
  19. Teng, F., Huang, Y., & Mizumoto, A. (2023). Incidental vocabulary learning through word-focused exercises: The association with vocabulary learning strategies. Asian Journal of English Language Teaching, 32(1), 29–62. https://cup.cuhk.edu.hk/image/catalog/journal/jpreview/AJELT32(1)_29-62_full.pdf
  20. Teng, M. F., & Mizumoto, A. (2023). The role of spoken vocabulary knowledge in language minority students’ incidental vocabulary learning from captioned television. Australian Review of Applied Linguistics, 46(2), 253–278. https://doi.org/10.1075/aral.22033.ten

LexiTracker: 単語学習を支援するお手軽Webアプリ

※ 当初、Vocab Trackerという名前にしていましたが、同じ名前のアプリが
存在するようなので、名前を変更しました。(2024年12月27日)

https://mizumot.com/vocabtracker.html

背景

自分でこういう簡単なのを作りたいなってずっと思っていて、ふと、Claudeに聞いてみたら一瞬で動くコードを教えてくれました。

2024年12月18日に質問
ロゴはわざわざCSSで「とあるバンド」を彷彿とさせるものを作った。
CSSの名前は “.oasis-container”

主な機能

1. テキスト分析

  • テキスト入力: 任意の英語テキストを入力エリアに貼り付け可能。
  • 語彙の分析: ボタンをクリックすることでテキスト中の単語が自動的に解析され、既知語と未知語に分類。
  • 未知語のハイライト: 未知語は黄色でハイライトされ、クリックすることで単語を既知または未知として簡単に切り替え可能。
※語彙復習機能があるので、それを使用するために、単語だけ入力して、それを復習することも可能です。

2. 語彙カバー率の計算と可視化

  • 進捗バー: 全体の単語数に対する既知語の割合をプログレスバーで表示。
  • 統計情報:
    • 既知語/全単語数
    • 語彙カバレッジ率 (%) をリアルタイム表示。

3. 読んだテキストと未知語リストの管理

  • 単語詳細情報: 未知語にカーソルを当てるとレベル(New SVL12000 基準)や意味がポップアップで表示。クリックするとWeblioでの意味確認が可能。
  • 保存: 分析済みのテキストを保存して、後で再確認可能。
  • 保存済み一覧: 保存したテキストは履歴として閲覧でき、既知語、未知語、語彙カバー率などの情報も表示。
  • 削除: 不要な保存済みテキストは削除可能。
単語のレベル分けはNew SVL12000を使用。
12,000語以外の単語も17,000語がレベルがない単語として含まれていて、
計29,000語のリストがこのツールでは使用されている。

4. 生成AIによるテキストのサマリー

  • 2言語でのサマリー:GPT-4oを使ってテキストのサマリーが英語と日本語で可能。1文で短くサマリーするプロンプトが使用されている。
でも、OpenAI の API だから、あんまり使ってほしくない気も..

5. データのエクスポート

  • CSVエクスポート: 保存された語彙データをCSV形式でエクスポート可能。
  • データ内容: 日付、単語数、カバー率、未知語リスト、テキスト内容を含む。
進捗状況の確認や、語彙カバー率が関係している研究では便利かもしれません。

6. 語彙復習機能(Vocabulary Review)

  • 復習モード: 保存された未知語をシャッフルして出題。
  • 語彙の選択:未知語のうち、復習する必要の無いものは削除できる。
  • 重要語彙のみを対象:約29,000語のリスト以外は対象とならない。
  • 文脈表示: 各単語の元の文脈や意味を確認しながら復習可能。
  • 形式の選択:Yes/No、多肢選択、新しい文を使った多肢選択(New Sentence)を選ぶことができる。
  • 結果表示: 正解数、復習が必要な単語リストを表示。

New Sentence モードは、例文をllama-3.3-70b-versatileを使って自動生成できるので、新しい文脈での学習が可能です。

New Sentence モードでは、”Click Here to Create Distractors from the Same Vocabulary Level” というボタンをクリックすると、(可能な限り)新SVL12000の同じレベル、品詞から、選択肢が抽出されます。

7. データベース機能

  • Listed(ソート可能):登録日時
  • Word(ソート可能):Lingueeへのリンク、音声の確認、Power Thesaurus(同義語・対義語)へのリンク
  • Level(ソート可能)新SVL12000のレベル
  • Meaning:意味
  • Context:ターゲット語を含んだ元の英文(センテンス)
  • Phrases:フレーズレベルでの語の使用方法を確認するために Just the WordSKELL (Sketch Engine for language learning)、CorpusMate へのリンク
  • Generated: Llama 3.3 (70B) versatile model を使用したターゲット語を含んだ新しい英文(New Sentence のボタンをクリックすると生成される)
  • Review で正答した日時:Yes/No、多肢選択、新しい文を使った多肢選択(New Sentence)を正答した日時
  • データベースのダウンロード:Phrasesの列以外の情報すべてがcsvファイルでダウンロード可能

技術詳細

  • 技術スタック:
    • JavaScript(IndexedDB, DOM操作)
    • PapaParse(CSV解析)
    • CSS(デザインとUIスタイル)
  • 語彙データ:

追加説明

  • GPTを使ったサマリーの生成以外は、バニラJavaScript(JavaScriptのみ)なのでサクサク動きます。
  • 私はJavaScriptを自分で一から書くのはできません。今回はほぼすべてClaude 3.5 Sonnet にやりたいことを伝えて、コードを自分で検証しながら作りました(GPT-4oでは、ここまでのことはできなかったので、Claudeはコーディングが得意ということがわかります。)
  • IndexedDBを使用しているので、ブラウザのキャッシュをクリアしなければ、データは残っています。
  • サーバー側ではデータを収集していないので、安心して使ってください。
  • ちなみにですが、中国語版は形態素解析をしなければならないのですが、Python(spaCy)を使って、氷野 善寛 先生(目黒大学)に助けてもらいながら、中国語読解語彙チェッカーを作ってみました。

ChatGPT(GPT-4)を英語ライティングの正確性測定に使用する

こちらの論文がアクセプトされました。

この論文は、昨年、Research Methods in Applied Linguistics で掲載された、ChatGPT を英語エッセイの自動評価に用いる可能性を検証した Mizumoto and Eguchi (2023) (詳しくはこちらを参照)の続編というような位置付けで、別のテーマ(ライティングにおける正確性)を取り上げているものです。同ジャーナルの Special Issue “Research Methods in L2 Writing” に掲載されます。

目的

応用言語学や第二言語習得の研究で、学習者のパフォーマンスを測定するとき、複雑さ(complexity)、正確さ(accuracy)、流暢さ(fluency)という、CAF指標を用いることが多くあります。そのCAFのうち、ツールを使った算出(自動での測定)が唯一できない、正確さ/正確性(accuracy)が、どの程度ChatGPTで自動測定できるのかを本研究では調査しました。また、文法のエラーを自動検出するツールとして、近年、その使用を報告している論文が増えている Grammarly との比較も行なっています。

方法

申請すれば誰でも入手できる学習者コーパスである、Cambridge Learner Corpus First Certificate in English (CLC FCE) Dataset (Yannakoudakis et al., 2011) を使用しました。

このコーパスには、人手でエッセイの中のエラーにタグ(error tag)が付けられているため、このタグを基にして、errors per 100 words (100語中のエラー数)を計算し、正確性 の gold standard(正しい基準)として使用しました。

また、このコーパスには、学習者の母語、年齢層、テスト全体のスコア、対象ライティング問題に対するスコアがタグ付けされているため、分析の際にライティング能力の指標として利用しました。

今回は、アジアの英語学習者、Japanese(80名)、Korean(86名)、Chinese(66名)の232名のデータを使用しました。対象とする学習者をこの3つのグループにしたのは、同じ学習者コーパスを分析した先行研究 (Mizumoto & Watari, 2023) で、エラーのタイプが似ている学習者集団であるということがわかっていたためでした。

ChatGPT (GPT-4) による正確性測定は、Pfau et al. (2023) に倣い、1行1文に整形した元データに対して、OpenAI の API を使って分析を行いました。ブラウザ版のChatGPT (GPT-4) と同じ分析結果を得るため、パラメーターはデフォルトのまま以下のプロンプトを実行して分析し、errors per 100 words を算出しました。

Reply with a corrected version of the input sentence with all grammatical, spelling, and punctuation errors fixed. Be strict about the possible errors. If there are no errors, reply with a copy of the original sentence. Then, provide the number of errors.

Input sentence: {それぞれの文}
Corrected sentence:
Number of errors:

Grammarly による正確性測定は、Grammarly の API が2024年1月に使用できなくなってしまったので、手作業で1文ごとのエラー数を記録して、errors per 100 words を算出しました。

結果

以下は人間、ChatGPT、Grammarly、それぞれの正確性測定(errors per 100 words)の結果を図示したものです。人間のエラー判定は散らばりが大きく、ChatGPTとGrammarlyは似ている結果になっています。

以下の図はライティングスコアと人間、ChatGPT、Grammarly、それぞれの正確性測定の相関を示しています。

論文では相関係数の差の比較を行っていますが、まとめると以下のようなことがわかりました。

  • GPT-4 は人間のエラー評価と同等のレベル。
  • GPT-4 はGrammarlyよりもエラー評価の精度が高い。

無料で利用できるChatGPT(GPT-3.5)と比べると、文法のエラー評価ではGrammarly の方が精度が高い (Wu et al., 2023) という報告もあるため、今回の結果も踏まえると、正確性の測定ではこのような関係になっていそうです。

GPT-4 > Grammarly > GPT-3.5

GPT-4 は ChatGPT の有料版を使うことになりますし、Grammarly はアカウントへのログインが必要です。しかし、ChatGPT の無料版(GPT-3.5)はログインすることなく使用できるようになったため、教室内で学習者が自分のライティングの文法エラーに対する自動フィードバックを受けるような使用方法の場合には、GPT-3.5でも良いかもしれません。

アクセプトまでの記録

2023年8月頃に RMAL の Special Issue (SI) の Call for Papers が発表されました。アブストラクトを送ったところ、投稿してもよいという許可を得ました。2024年2月に投稿サイトがオープンになる予定だったため、1月に分析と執筆を開始しました。

その後、投稿後約2ヶ月で無事アクセプトされました。
投稿:2024年2月17日
1回目査読結果通知:2024年3月13日
1回目再投稿:2024年3月24日
2回目査読結果通知:2024年4月24日
2回目再投稿:2024年4月24日
アクセプト:2024年4月25日

今回は、昨年の Mizumoto & Eguchi (2024) のように、ほぼ as is でアクセプトということはなかったのですが、やっぱり素晴らしいと思ったのは、RMALの査読の速さです。査読結果が1ヶ月で返ってくるのは、他のジャーナルではなかなかありません。

1回目の査読結果が major revision で、以下のように難しいことを言う Reviewer が含まれていて、書き直しがなかなか大変でした。

しかし、今回の共著者(新谷奈津子先生、佐々木みゆき先生、Mark Feng Teng 先生)は、L2ライティングの研究で世界的な先生方だったので、心強かったです。結局、最強チームのおかげですべてのコメントに対応できました。特に新谷先生には再投稿にあたり、全面的に書き直しをお手伝いいただきました。そのため、2回目の査読コメントはほとんどありませんでした。(さすが世界のシンタニ!)

ちなみにですが、Mizumoto & Eguchi (2024) は、まだ出版して1年なのですが、ありがたいことに引用本数が100を超えました。こんなに引用のスピードが早いと、「今まで書いた論文は何だったんだろう」と少し不安になります…(笑)

Open Science

今回も論文中の分析で使用したデータやコードは OSF に公開しています。 https://osf.io/teu5w/

また、論文はオープンアクセスで数週間以内でジャーナルのウェブサイトでご覧いただくことができるようになる予定です。

それまでの期間も論文をご確認いただけるように、アクセプト版の原稿(Postprint)を IRIS Database で公開しています。
https://www.iris-database.org/details/q3zGE-HSpAC

IRIS Database は Postprint をアップロードできるようになっており、doi (digital object identifier) も付きますので、オンラインジャーナルのアクセス料が高騰して(しかも円安… 涙)、論文が読めないという人が増えている昨今の状況を打破するための一つの良い試みだと思います。

私は昔から論文のアクセプト版はPDFにして、自分のウェブサイトで公開してきたのですが、それを “Postprint”と呼ぶということを昨年ぐらいまで知りませんでした。

応用言語学分野における Postprint の推進運動については、こちらの “The Postprint Pledge” に詳しい説明があります。(趣旨にご賛同される方は、ぜひサイトで署名して支援をお願いします。)

最後に

2023年はChatGPT関連の講演を毎月何本もやらせてもらいました(2024年3月にはイタリアのローマでも講演させていただきました。)「もう話すことないんじゃない?」って思われている方も多いかもしれませんが、ChatGPTを使った新しい論文も書いていてなかなか飽きません(笑)8月の全国英語教育学会でも、参加者の方にできるだけ参考になるお話をさせていただけるよう準備しますので、どうぞよろしくお願いします。

ChatGPTが2022年10月に公開されて、英語教育や外国語教育でも急速にその活用が広まると思っていたのですが、実際はなかなか教室内での使用は進んでいない印象を受けています。

言語教育でうまく生成AIを活用するためには、まだまだ多くの課題が残っているため、今後はその点を深く掘り下げて、できるだけ多くの先生方、学習者と意見交換をさせていただき、この最新技術を言語教育で活用していく方法を探っていければと思っています。
Let there be AI!

Mizumoto & Eguchi (2023)

「ChatGPTを使った英語エッセイの自動採点の精度はどの程度なのか?」ということを調査した論文が Research Methods in Applied Linguistics にアクセプトされました。応用言語学の研究分野で(Chat)GPTを使用している論文としては初になるのではないかと思います。

Mizumoto, A., & Eguchi, M. (2023). Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 100050. https://doi.org/10.1016/j.rmal.2023.100050

*論文はジャーナルのウェブサイトでOpen Accessで公開されています。

今回は、論文の内容、および着想から出版までの記録などを書いておこうと思います。

着想

きっかけは、初詣の前に昼食を食べたレストランに入るまで、お客さんの長い列ができていたので、並びながらChatGPTでいろいろ遊んでたときのこと。「これってできるのかな?」と思いながらChatGPTにやらせてみた結果を見て驚いたのがこちらの呟き。

「ChatGPTでエッセイの採点ができるのなら、どの程度正確にできるのだろうか?」と思ったことが、今回の研究の始まりでした。

検証方法

使用したコーパス

(Chat)GPTによる自動採点が、「本当の」スコア(やレベル)とどの程度一致するのかを調べる必要があったため、2006年と2007年にTOEFLを受験した12,100名のエッセイと、そのエッセイに対するレベル(low, medium, high)が付与されている学習者コーパスの ETS Corpus of Non-Native Written English (TOEFL11) を使用しました。

TOEFL11は、その名前が示すとおり、11の異なる母語の英語学習者から無作為抽出されたエッセイデータが含まれいて、今回の研究の目的にはピッタリの学習者コーパスでした。

しかし、1月中旬に購入した時点で、TOEFL11は1,000ドル(135,591円)でした。私の2022年度の研究費が10万円しか残っておらず、35,591円は自分で支払うことになりました。(好きな研究とはいえジバーラはつらい。)

使用したGPTの種類

エッセイの自動採点には、GPT-3.5 シリーズとして2022年11月30日にChatGPTと同じタイミングでリリースされた OpenAI の text-davinci-003 モデルを使用しました。これは、text-davinci-003 がChatGPTと基礎となるモデルが同じであることから、ChatGPT(3.5)を使用した場合でも同様の結果が得られると考えたからです。

text-davinci-003 モデルは、PythonでOpenAIのAPIを使ってアクセスしました。これも、APIが10分の1の値段になる前だったので、1,000トークンで0.02ドルかかり、6つぐらいアカウントを作って数日かけて12,100ファイルを自動採点しました。結局これで10万円弱ジバーラという追加の罰ゲーム…(しかもGPT-4が2023年3月16日に発表されたため、2ヶ月前の話なのに「以前のモデルでの分析でありGPT-4を使ったほうが精度が高いだろう」という limitation を書かないといけないことに… 涙)

プロンプト

こちらのOSFに使用したPython、Rのコード、そしてその他のデータを公開していますが、プロンプトは以下のようなシンプルなものです。

I would like you to mark an essay written by English as a foreign language (EFL) learners. Each essay is assigned a rating of 0 to 9, with 9 being the highest and 0 the lowest. You don’t have to give me the reason why you assign that specific score. Just report a score only. The essay is scored based on the following rubric.

使用したルーブリックは IELTS TASK 2 Writing band descriptors (public version) でした。

「TOEFLのエッセイ採点なのにIELTSのルーブリック?」と思われた方は鋭いです。TOEFL iBT® Independent Writing Rubrics は5段階で、実際は0.5点の刻みが入りますが、ルーブリックほど細かい観点別になっておらず、ChatGPTで確認した限りエッセイの採点にあまり差が出ないことが多かったため、IELTSのルーブリックを使うことにしました。(ここは査読者完全スルー)

あと、ChatGPT で誰でも同じように自動採点ができるように、いくつかのサンプルエッセイやその採点をプロンプトに加えるということはせずに、Zero-shot のプロンプトを用いました。

自動採点のブレの確認

ChatGPTでも何度か同じエッセイを採点してみると、毎回、点数が同じというわけではなく、1~2点のブレがあるようだったので、どの程度同じ点数が一貫して得られるかということを確認するために、12,100本のエッセイのうち、全体のサンプルの構成(11の母語、エッセイのレベル)を反映した形で無作為抽出し、1,210本をもう一度自動採点しました。

なぜ12,100本すべてをもう一度自動採点しなかったかというと、これ以上ジバーラが増えると光熱費が高くなっている昨今、オール電化の水本家が冬を越して春が迎えられない可能性があったからです。その切実な状況とともに、TOEFL11がもともと無作為抽出のデータで構成されていたため、1,210本と言わずに100本だけでも全部のデータを使ったときと同じ結果が得られるということを何度か確認してわかっていたからです。無作為抽出は偉大。

2回採点した結果が以下のようなものでした。対角線上の四角で囲っている数値は1回目と2回目の採点が一致していたものです。だいたい、1~2点のブレに収まっており、2次の重み付きカッパ係数(Quadratic Weighted Kappa)を算出すると、0.682で「かなり一致している」(substantial agreement)という解釈になります。この結果から、GPTの自動採点はかなり安定しているため、分析に使用しても問題ないという判断をしました。

最強助っ人江口さん登場

ここまでの分析を自分でやってみて、先行研究では、結束性(cohesion)や統語的・語彙的複雑さ(syntactic/lexical complexity)のような言語的特徴量 (linguistic feature) を BERT のような transformer に追加することによって、自動採点の精度が高くなる、という報告を行っている研究がいくつかあったことを思い出しました。

「言語特徴も調べてみるか… 前もやったけど Python で自分でやるのは大変だな。誰か分析をお願いできないかな?」って思ったときに、すぐに思い浮かんだのが江口政貴さん(オレゴン大学博士後期課程)でした。江口さんといえば、Multi-Word Units Profiler を作ったり、国際トップジャーナルに論文をバンバン出している新進気鋭の研究者で、昨年夏に日本に帰国された際にもジバーラで東京まで会いに行って話をさせていただいた、私が尊敬する若手研究者なのです。

「いつか一緒に研究しましょう」って以前から言っていたので、お声掛けしたところ即ご快諾いただきました。ただし、博士論文執筆の大事な局面でのタイミングだったので結構ご負担になってしまったことを反省しています。

私からしたら、現役バリバリのメジャーリーガーが WBC で日本チームに合流したような感じだったので結構心強かったです。(ヌートバーか大谷翔平かどちらだろう江口さん?ダルビッシュではないな…)実際、査読者やエディターのコメントからも、江口さんに共著者で入ってもらったことはプラスに働いたことがわかりました。

結果

TOEFL11 の Low, Medium, High という3つのグループでGPTによる自動採点の点数の分布がどのようになっていたかを示しているのが以下の図です。

レベル間で点数の重複が多いですが、ある程度、違いがあるということが確認できます。つまり、GPTによる自動採点でTOEFL11のレベル分けが(完璧ではありませんが)再現できるということが言えそうです。統計的検定の結果や効果量などの詳細は論文をご確認ください。

次に、言語的特徴量を入れることによって、予測の精度がどの程度変わるかを示したのが以下の図です。数値が低い方がモデルとして優れていると判断します。GPTだけよりも言語的特徴量を入れるほうが良いという結果になりました。

分散説明率(モデルでどの程度予測が正確にできるか)を見てみると、GPTだけよりも言語的特徴量を入れるほうが明らかに説明率が高くなっています。

結果のまとめ

  • GPTだけで自動採点するとまあまあの精度。
  • ハイステークスなテストに使えるレベルではない。
  • 言語的特徴量を入れると精度が大幅に上がる
  • 学習や指導、評価のサポート・ツールとしては使えるだろうというレベル。
  • (これまでの自動採点で言われていることと同じで)GPTだけでは精度が高くないので、人間の採点も組み合わせたほうがよい。

なぜRMALに投稿したのか?

本題からは逸れますが、大事なことなので書いておきたいと思います。

応用言語学分野では、言語テスト系のジャーナルもたくさんあります。今回、テスティング関連のジャーナルに投稿せずに、なぜ Research Methods in Applied Linguistics (RMAL) に投稿したのかというと、査読結果が1ヶ月以内に返ってくるジャーナルだったからです。私もこのジャーナルの査読を何回かしたことがありますが、査読者も1ヶ月以内に結果を報告します。

2022年に第2著者として出版したこちらの論文でも、審査のスピードが異様なまでに早かったことを覚えています。

In’nami, Y., Mizumoto, A., Plonsky, L., & Koizumi, R. (2022). Promoting computationally reproducible research in applied linguistics: Recommended practices and considerations. Research Methods in Applied Linguistics, 1(3), 100030. https://doi.org/10.1016/j.rmal.2022.100030

今回のトピックであるGPTは上述のように、数ヶ月前のモデルでも刷新されて、すぐに古くなってしまいますので、新鮮さが命です。そのため、テスティング関連のジャーナルではなく、RMALに投稿しました。そして、今回はその作戦が成功しました。

RMALは2022年に始まったジャーナルなので、査読のバックログもないことが審査が早い要因かもしれませんが、それよりも、エディターの Dr. Shaofeng Li の以下のツイートからもわかるように、意識的にそうしているようです。

実際、3/28に2人目の査読者が結果を返してきた、その数時間後に Li 先生からアクセプトの連絡が届きました。ほぼ as is は初めての経験。

<記録>
2023年1月24日 論文執筆開始
2023年2月23日 投稿
2023年3月28日 アクセプト

日本の学会誌もこれぐらいのスピード感だったら魅力が増すのに、と思いつつ、自分が編集委員や査読者だったらツライのであまり大きな声では言えない…😂

このように、RMALはとても良いジャーナルですので、みなさんもなにかメソッド関連の論文があったら、投稿させると良いと思います。もし、リジェクトされたような場合は、LET関西支部メソドロジー研究部会の研究論集も、ぜひ投稿先としてご検討ください。

役に立ったツール

ChatGPT もそうですが、ここ数ヶ月で先行研究を探したり、読んだり、まとめたりというツールに AI 的なものが組み込まれてきていて、今回の論文執筆でも大活躍しました。

こちらは、そのような論文執筆サポートツールをまとめたものです。
英語論文執筆プロセスで活用できるサポートツール


こういうツールの使い方を知ることも、これからの研究者にとっては非常に重要ですので、3/9に以下の学内限定セミナーを行いました。以下の画像をクリックすると使用したスライドをご確認いただけます。

ChatGPTを中心に、このようなツールを活用したため、今回の論文では英文校正会社のチェックを受けずに、論文を出版することができました。

今回は、Elsevier のジャーナルだったので、The Use of AI and AI-assisted Technologies in Scientific Writing に明記されているように、論文の Acknowledgementには、ChatGPTをどのように使用したかを明記しています。

In the preparation of this manuscript, we employed ChatGPT (GPT-3.5 & 4) to enhance the clarity and coherence of the language, ensuring it adheres to the standards expected in scholarly journals. While ChatGPT played a role in refining the language, it did not contribute to the generation of any original ideas. The authors alone are responsible for any inaccuracies present in the manuscript. This research was supported by JSPS KAKENHI Grant No. 21H00553.

さいごに

今日から4月(新年度)になりましたので、この論文をオープン・アクセスにするための以下の費用がジバーラになることはなさそうです。なんという幸せなことなのでしょう。2023年度も関係者のみなさま、どうぞよろしくお願いいたします。


Grammar Checker の比較

いくつかある Grammar Checker は、どれを学習者にすすめるか悩ましいところです。

Grammarly は2009年にリリースされユーザーも多いため、研究論文でもたくさん報告されているのですが、無償のニューラル機械翻訳サービスとして人気の高い DeepL も、DeepL Write を2023年1月にリリースしました。今回はこれに加えて、Quillbot AI の Free Grammar Checker を比較して、どれが個人的におすすめかをまとめます。

使用したのは、以下の学習者が書いた文法ミス(というか不自然な表現)が含まれている英文です。

If they do not do part-time jobs, they are hard to live on their own. Also, some students will take driver’s licenses. To take the licenses, generally, it costs about three hundred thousand yen. This is not a cheap amount of money, and for that reason, it is not a good idea to rely on their parents, it would be better to earn it themselves.

まずは、Grammarly無料版。

Grammarly 無料版はエラーの箇所を下線で教えてくれますが、どのように直すかは、Premium(有料版)を利用しなければわかりません。

というわけで、Grammarly Premium(有料版)。

しっかりと言い換えとその理由を提示してくれます。さすがなかなかお高い有料版。Grammarlyの有料版と無料版の違いについての詳しい説明はこちらがわかりやすいです。

ただ、take driver’s licenses のような不自然な語の選択ミスはスルーされていたりします。

次に、DeepL Write。

DeepL Writeは無料なのですが、言い換えまで提案してくれます。なかなか良い仕事をしてくれているのですが、最後の方の代名詞は間違えた訂正がされています。

最後に Quillbot AI の Free Grammar Checker。

こちらも無料のツールなのですが、言い換えが他のツールと比べて大変精度が高いです。あと、他のツールではスルーされていた、take driver’s licenses の take に下線が入っていて、「get のほうがいいですよ」と提案してくれます。

Quillbot は Paraphrasing Tool のほうがよく知られていて、私も普段から論文を書くときに使っていますし、学生にも授業で紹介することが多いのですが、Free Grammar Checker の性能の高さに気づいてからは、アカウントを作ったり有料じゃないと十分な修正が得られないGrammarlyよりも、こちらをおすすめするようになりました。

DeepL Write と比べても優れている印象ですが、DeepL Write もアップデートされていくといい勝負になるのではないでしょうか。

今回紹介した3つのツール以外にも、たくさん無料・有料の Grammar Checker は存在しており、これまでいろいろと試してきたのですが、どれもこの3つ以上のレベルではないと思います。もし、さらに良いツールをご存知でしたら教えてください。

ちなみに、今回比較に使用した同じ英文を ChatGPT で「文法を直してよりアカデミックに書き換えて」と指示したものがこちらです。

もう別物ですね… あと、もともとの英文が何が不自然だったのか、気づきにくいと思います。ChatGPT は修正が明示的ではない分、学習者側の気づきが起きにくいのかもしれません。

ChatGPT は言い換えや、表現のバラエティーを増やすのに向いていて、文法のエラーに気づかせるためには Grammarly のようなツールのほうが向いているという感じでしょうか。自分で指導するときには、目的に応じて紹介・使用するツールも変えるようにしようと思います。

AWSuM v1.10 released

Im excited to announce the release of the updated version of AWSuM.

With this update, it is now possible to (1) search the left of the target words (1L to 3L). And if you use an asterisk in the search, (2) AWSuM shows you the words used in the place of the asterisk. You can also generate (3) concordance lines to examine how words are used in context. Isnt it awesome or what?

newawsum

For those of you who dont know what AWSuM is, heres the introductory video.

The complete manual will be available in a few weeks.