Mizumoto Lablog

テストの点数だけでは見えないもの

テストの結果を見るとき、私たちはつい合計点に目を向けます。もちろん点数は大事です。しかし、研究や教育の場面では、点数だけでは足りないことがあります。

たとえば、同じ 70 点の学習者が 2 人いたとしても、その結果の中身は同じとは限りません。一人は細かい聞き取りはできるけれど要点整理が苦手かもしれませんし、もう一人は逆に全体の話はつかめるけれど、数字や条件の聞き取りで落としているかもしれません。

認知診断モデルは、そうした「どこでつまずいているのか」を、できるだけ細かく見ようとする考え方です。英語では Cognitive Diagnostic Models (CDM) と呼ばれ、Diagnostic Classification Models とほぼ同じ意味で使われます。問題に正答するために必要な小さな力をいくつか想定し、受験者がその力をどこまで身につけているかを見ようとするモデルです。

認知診断モデルは、ひと言でいうと何か

ひと言でいえば、「テストの結果を、小さな力ごとに読み直す方法」です。

ふつうのテストでは、最後に合計点や偏差値が算出できます。それに対して認知診断モデルは、「この問題を解くには、どんな力が必要だったのか」を先に考え、その力ごとに学習者の状態を見ようとします。Williamson (2023) の報告書 “Cognitive Diagnostic Models and how they can be useful” でも、認知診断の基本的な考え方は、正答がいくつかの技能や知識の習得に支えられていると考え、その反応から、どの技能を身につけているかを細かく推定することだと説明されています。

ここで大切なのは、認知診断モデルは「とにかく細かく点数を出す技術」ではない、ということです。先に「何を小さな力として見るのか」を決める必要があります。つまり、理論が先、統計は後になります。上述の報告書も、こうした細かな推定には、測りたい知識や技能の理論と、それが各項目とどう結びつくかについての明確な設計が必要であると述べています。

まず覚えたい言葉 2 つ

最初に覚えたい言葉は、アトリビュートとQ行列です。

アトリビュート（attribute）とは、テストで見たい「小さな力」のことです。数学なら「公式を使える」「概念を理解している」、リスニングなら「細部を聞き取れる」「条件を比べられる」「話し手の意図を読める」といったものが候補になります。認知診断モデルは、問題の正答に必要な認知要素を想定し、受験者がどの要素を習得しているかを推定するモデルです。

次に、Q行列とは、「どの問題に、どの力が必要か」をまとめた表です。難しく見える名前ですが、要するに問題と力の対応表です。認知診断モデルの入門資料で知られる Rupp (2023) の資料では、Q行列は項目とアトリビュートの関係を示す表で、ある力がその項目に必要なら 1、不要なら 0 を置くものだと説明されています。つまり、Q行列は「各項目がどの属性を測っているか」を表す中心的な仕組みとなります。

たとえば英語のリスニングテストなら

英語のリスニングテストを例に説明してみます。たとえば、ある問題では「数字や時刻を正確に聞き取る力」が大事かもしれません。別の問題では「聞いた情報を一時的に覚えながら、条件を比べる力」が大事かもしれません。さらに別の問題では「話全体の要点をつかむ力」や「話し手の意図を読む力」が必要かもしれません。

合計点だけ見ていると、こうした違いは見えません。

認知診断モデルでは、「この問題は何の力を使う問題だったのか」ということを先に整理しておくことで、「この学習者は細部の聞き取りはできるが、情報をまとめるところで苦戦している」といった見立てを目指します。こうした発想は、受験者の認知プロセスと社会的文脈の両方を重視する言語テストの枠組みである socio-cognitive framework とも相性がよく、University of Bedfordshire の Centre for Research in English Language Learning and Assessment (CRELLA) が発行しているこちらの資料では、この枠組みを「テスト開発・研究・妥当性検証を支えるもの」として説明しています。

何がそんなに有益なのか

認知診断モデルのいちばんの魅力は、結果がそのまま指導に結びつきやすいことです。

CDM に基づくテスト結果報告の強みは、教師が項目ごとの正誤から苦労して弱点を推測しなくても、どの学習目標や技能がまだ十分に身についていないかを、より直接に把握しやすい点にあります。実際に、日本の教育現場での実践研究（佐宗・岡・植阪, 2023）でも認知診断モデルを使うことで、理解の深さやつまずき方を、より細かく見ようとする試みが報告されています。

ただし、ここでひとつ注意が必要です。「細かく出せる」ことと、「本当に役立つ」ことは同じではありません。CDM の良さは、どの単位で力を切り分けるかに強く左右されるからです。切り分け方が粗すぎると、結局、ふつうの下位尺度得点（セクションごとの点数）と大差がなくなります。逆に、授業や学習の改善にそのままつながるくらいの細かさで設計できれば、CDM の強みが生きてきます。

でも、そんなに簡単ではないのが残念

ここまで読むと、とても便利そうに見えるかもしれませんが、実際に使うのは簡単ではありません。

最大の難所は、さきほど出てきた Q行列 です。「この問題には、どの力が必要か」を決める表ですが、ここがあいまいだと、結果の解釈もあいまいになります。先述の Williamson (2023) の報告書でも、「Q行列づくりはかなり難しく、しかも誤った設定は、ただ不正確になるだけでなく、誤解を招く結果につながるおそれがある」と述べられています。

こうした Q行列づくりの重要性は、さまざまな研究で指摘されています。Sawaki et al. (2009) は、TOEFL iBT の読解・聴解を対象に、専門家による項目分析で Q行列の案を作り、受験者データの分析を繰り返しながら修正していきました。Q行列は最初に思いつきで決めるものではなく、理論と専門家判断、実データの三つを往復しながら整えていくものだと分かります。

上述の佐宗・岡・植阪（2023）の研究では、まず理論や評価目的に基づいて Q行列の案を作り、次に複数の専門家が独立に確認し、その後、実際の解答データとも照らし合わせ、さらに教師との議論を通して見直しています。つまり、Q行列は一度決めたら終わりではなく、理論、専門家判断、実データの三つで検討し、改善していくものであると言えます。

もうひとつの難しさは、サンプルサイズや設計の問題です。先述の Rupp (2023) の資料では、「認知診断モデルに必要な項目数や受験者数にはひとつの正解がない」としたうえで、各アトリビュートに対して十分に良い項目があることが大切だと説明しています。つまり、CDM の運用には実務上のハードルが多く、設計やデータ量の問題は避けて通れません。

出てくる用語が多くて不安な人へ

CDM を使った研究を読み始めると、DINA、DINO、G-DINA など、名前がたくさん出てきます。これらは最初は細かく覚えなくて大丈夫です。ざっくり言えば、これらは「複数の力が、どう組み合わさって正答につながるか」を少しずつ違う考え方で表したものです。

必要なアトリビュートがすべて身についていないと正答は難しいと考えるモデルもあれば、いくつかは補い合えると考えるモデルもあります。より広く柔軟に見ようとするモデルもあります。はじめの段階では、「モデル名を覚える」ことよりも、自分が想定した力の切り分けが納得できるかを先に考えるほうが大切です。計量心理学者の山口一大先生（筑波大学）によるこちらの資料は、その点がかなりわかりやすく整理されています。（それでも全て理解するのは難しいですが…）

📌 コラム：統計的に見れば、CDM は「分類」の分析である

このコラムは、本記事の草稿に対して光永悠彦先生（名古屋大学）からいただいたコメントをもとに、加筆・構成したものです。

CDM のもう一つの名前 Diagnostic Classification Models（診断分類モデル）は、実は分析の本質を示しています。

K 個のアトリビュートがある場合、各アトリビュートを「習得（1）か未習得（0）か」と考えると、取りうる習得パタンは 2^K 通りになります。たとえばアトリビュートが 3 つなら、000・001・010・011・100・101・110・111 の 8 通りです。CDM は、これら 2^K 通りの「習得パタン」を潜在クラスとして仮定し、受験者一人ひとりが各クラスに属する確率（多項分布）を推定します。つまり統計的には、CDM は潜在クラス分析の一形態とみなすことができます。

この視点から見れば、CDM の分析によって受験者は「いずれかの習得パタンに分類される」存在です。受験者（学習者）は「状態を分類される」立場にすぎないため、そこから導けることがらもおのずと限定されます。「細かく見える」ことと「豊かに解釈できる」ことは同じではない、ということを、特に研究での利用を考えるときには意識しておく価値があります。

なお、この視点は心理統計学的な関心を持つ方にとっては本質的な論点ですが、CDM を教育実践のツールとして使う立場からは、「Q行列の設計が結果の質を左右する」という実践的な示唆として受け取るのが現実的かもしれません。

つまり、CDM の結果は「この学習者はこのアトリビュート習得パタンに属する確率が高い」という分類であって、「この学習者がどう学べばよいか」まで直接答えてくれるわけではありません。本記事でも「結果が指導や学習改善につながりやすい」と紹介しましたが、あくまで「分類の結果」であることを忘れると、過大解釈につながりかねません。CDM は便利なツールである一方で、そこから読み取れることには本質的な限界がある——このことは、研究でも実践でも念頭に置いておく価値があります。

言語テスト研究で使うなら、どこから始めればよいか

研究で CDM を使いたいなら、次の順番で考えるのがおすすめです。

最初に、「このテストで本当に見たい小さな力は何か」を言葉で書き出す。
次に、「各設問は、そのどの力を必要としているか」を整理する。
そのあとで、複数の先生や研究者に見てもらい、分類がぶれないかを確かめる。
さらに、必要なら少人数の学習者に解答過程を振り返ってもらい、こちらが想定した処理が本当に起きているかを確かめる。
最後に、そこで作った対応表をもとに、CDM で分析する。

この順番は遠回りに見えますが、実はこれが一番の近道です。CDM は詳細な理論モデルと項目設計が必要とされるからです。こちらの科研プロジェクト（研究代表者：島田めぐみ先生, 20H01275）では、日本語の聴解診断テスト開発で、アトリビュートの設定、項目分析、学習者データの収集、受験後のフィードバック設計までが一連の流れとして進められています。特に、受験後すぐに、どの力がどの程度身についているかの診断結果とアドバイスを返すオンラインシステムの開発は、学習者にとっても、教師にとっても、大変有益な情報を提供するシステムです。

まとめ

認知診断モデルは、テスト結果を「点数」だけで終わらせず、「どの力が身についていて、どこでつまずいているか」を見ようとする方法です。ふつうのテスト研究は、「このテストはよく測れているか」「この項目は難しいか」といった問いになりやすいです。それに対して認知診断モデルは、「この項目で必要なのはどんな力か」「この学習者はどこでつまずいているのか」という問いが先に出てきます。

その中心にあるのは、アトリビュートという小さな力の考え方と、問題と力の対応表である Q行列です。便利なのは、結果が指導や学習改善につながりやすいことです。難しいのは、力の切り分け方と Q行列づくりです。

CDM を使う研究は、単に分析法を変えるだけでは成立しません。研究の問いそのものを、より学習に近いところへ動かすところに面白さがあります。さらに、CDM はその「測りたいものが測れているか」ということを本質的に考える特徴から、診断的テストの設計や学習の個別化だけでなく、妥当性や構成概念の検証研究にも使えるものであると言えます。

実際にやってみたい人へ

ここまで読んで、「考え方は分かったけれど、実際に Q行列を作るのはなかなか大変そうだな」と感じた方もいるかもしれません。たぶん、その感覚はかなり自然です。Q行列は、ただ 0 と 1 を機械的に並べればよいものではなくて、各項目を読みながら、「この問題ではどんな力が必要なのか」を一つずつ考えていく必要があるからです。

そこで、そうした最初のハードルを少し下げられないかと思って、MellowQ という Q行列作成支援ツールを作りました（本当は「メロリンQ」という名前にしたかったのですが…）。これは、認知診断モデルで使う Q行列を、できるだけ作りやすくするための Web アプリです（日英のバイリンガルにしています）。PDF や Word ファイルから問題を取り込み、AI にアトリビュート候補を提案させたり、各項目について Q行列の候補を出させたりしながら、最後は自分で確認して修正できるようにしています。使い方ガイドはこちらをご覧ください。

このツールで大事にしているのは、「AI が全部決める」ことではありません。むしろ逆で、最初のたたき台を作るところを少し楽にして、そのあとを分析者がしっかり考えられるようにすることを目指しています。そのため、AI の提案を見たあとに、自分で Q行列を編集したり、見直したりできるようにしてあります。使い方ガイドにも書いたのですが、基本の考え方は「AIが提案し、専門家が判断し、データで検証する」ということになります。

これは、この記事の中で見てきた Q行列づくりの考え方に合わせています。Q行列は最初から完璧に決まるものではなくて、理論をふまえ、専門家が見て、必要ならデータも見ながら少しずつ整えていくものです。

さらに、MellowQ では、作った Q行列を CSV で出力するだけでなく、回答データのひな形や、R で GDINA 分析を行うためのスクリプトも出力できるようにしています。なので、「とりあえず表を作って終わり」ではなく、その先の分析までつなげやすくしてあります。

もちろん、ツールがあるからといって、Q行列づくりの難しさそのものが消えるわけではありません。ただ、最初の案を作るところや、修正のたたき台を用意するところは、かなりやりやすくなるはずです。これから認知診断モデルを少し試してみたい方にとって、入り口になればいいなと思っています。

研究ブログ

認知診断モデル（初めての人向けめっちゃ簡単解説）