Critique of Games メモと寸評

http://www.critiqueofgames.net の人のブログです。あんまり更新しません。

ルーブリック関連論文メモ

 

 
下記、メモなので、随時編集しますので、ご了承下さい。
(言葉づかいなども含めて雑駁なメモとなっています)
 
注意 :訳文が貼り付けてあるところはほぼDeepL(+ときどき若干の修正)です。あまり、信用しないでください。
 
 

レビュー論文:Panadero, E., & Jonsson, A. (2013) 

Panadero, E., & Jonsson, A. (2013). The use of scoring rubrics for formative assessment purposes revisited: A review. Educational research review, 9, 129-144.
レビュー論文。かなり、よくまとまっており、最初にきちんと読み込むなら、この論文では?という感じ。
このレビューは、下記にも書かれているとおり、formative assessmentにおけるルーブリックの使用を特に取り上げているとのこと。
 
スコアリング・ルーブリックに関する研究の主流は、評価の総括的(Summative)な側面を強調してきたが、近年では、形成的(formative)な目的でのルーブリックの使用に注目がなされています。しかし、この研究は決定的なものではない。そこで本研究の目的は、ルーブリックが学生の学習にどのような影響を与えるのか、またどのように影響を与えるのかを調べるために、ルーブリックの形成的利用に関する研究をレビューすることである。ルーブリックに関する研究は全部で21件あり、内容分析を行った。サンプル、主題・課題、デザイン、手順、結果を、学生のパフォーマンスと自己調節への影響に関連して、異なる研究間で比較した。その結果、ルーブリックは学生の学習にポジティブな影響を与える可能性があるだけでなく、成績向上と自己調節を仲介するためのルーブリックの使用には、いくつかの異なる方法があることが示されました。ルーブリックを形式的に使用することの効果を緩和する要因と、さらなる調査が必要な要因がいくつか確認された。
 4.Resultの部分を簡単に要約しておく

ルーブリックが生徒の成績向上をどう媒介するか?

 
その上で、次のようにまとめている
1.透明性の向上:生徒からしたら、何をもとめられているのかがわかるようになる(成績照会時の証拠ということではない)
2.不安の軽減:課題についての不安が軽減される。自己調整学習の尺度をもちいても、ポジティブに評価されている。
3.フィードバックプロセスの補助:学生からも、教員からもフィードバックプロセスを支援するものとして講評
4.自己効力感の上昇が認められる(ただ、ここはちょっと要注意なので、後述)
5.自己調整型学習をサポートする:「自己調整型学習」は、学習の設計についての重要概念なので、別途調べていただきたいが、概ねポジティブな効果だとのこと
 
4.1.4の自己効力感の話は少し複雑。下記のように論じられている。
先行研究(Pajares, 2008)で示唆されているように、自己効力感のレベルが高い学生は、自己効力感のレベルが低い学生に比べてパフォーマンスが高い傾向にある。Andrade, Wang, Du, and Akawi (2009)の研究では、模範となる小論文から基準リストを作成し、ルーブリックを用いて下書きを自己評価することで、学生の自己効力感を向上させることが示されている。しかし、本研究では、パフォーマンスとの関係は調査されていない。
Panadero, 2011, Panadero et al. この研究では、自己効力感がルーブリックの使用に影響を与えていたが、3つの研究のうち1つだけであった。しかし、考えられる説明としては、van Dinther, Dochy, and Segers (2010)が示唆しているものがある。それは、学生が自分の進歩(または進歩の欠如)について現実的な意見を持つためには、自分のパフォーマンスに関する教師のフィードバックに直面する必要があるということである。
 
 

影響する変数、ファクターについて

(井上コメント:ルーブリックの効果についての厳密なRCT的なものはそこまできちんとしてないっぽい?)
 
・ルーブリックを使うところは、だいたい様々な学習メソッドをセットで取り入れていることが多いため、効果測定については、やや議論がある様子。自己評価や他のメタ認知活動と組み合わせれば、ルーブリックが成績向上を促進することを示唆するより実質的な証拠があるとのこと。
・ルーブリックを使う期間が短い(1期のみ)だと、その効果が認められる度合いが少ないとのこと。長期の使用(最低でも5期)においては、ルーブリックを用いた場合と用いない場合の差は明確に観察されるとのこと。
ジェンダーによる影響の差異が認められるとの論文もあるが、統計的に有意なレベルではないとの論文も多いとのこと
・ルーブリックの使用例は、だいたいが作文(writing)の授業。どのような作文のトピックでもルーブリックによる改善効果はあるとのこと。トピックによって効果がない、といったことはあまりみとめてれない様子。
 
 

Reddy, Y. M., & Andrade, H. (2010)

Reddy, Y. M., & Andrade, H. (2010). A review of rubric use in higher education. Assessment & evaluation in higher education, 35(4), 435-448.
 
レビュー論文。
以下、アブストラク
 
本稿では、高等教育レベルでのルーブリックの使用に関する実証研究を批判的にレビューし、文献のギャップを明らかにし、研究の必要性を提案する。高等教育におけるルーブリックの研究は、学生の学力向上、指導の改善、プログラムの評価など、様々な目的のために、幅広い分野で行われてきた。ルーブリックに対する学生の認識は一般的に肯定的であり、教員のルーブリック使用に対する肯定的な反応を報告している著者もいるが、教員がルーブリックを使用することに抵抗感を持つ傾向があることを指摘している著者もいる。2 つの研究では、ルーブリックの使用が学業成績の向上と関連していることが示唆されているが、1 つの研究ではそうではなかった。ルーブリックがコースやプログラムの改善の必要性を特定する可能性があることは実証されている。ルーブリックの妥当性に関する研究では、言語の明快さと適切さが中心的な関心事であることが示されている。評価者の信頼性に関する研究では、ルーブリックが学生のパフォーマンスの比較的一般的な解釈につながることが示されている。今後の研究への示唆としては、より厳密な研究方法の使用、妥当性と信頼性への関心、学習へのより緊密な焦点、多様な教育の文脈におけるルーブリックの使用に関する研究などが挙げられる。

 

このレビュー論文だけでかなり面白い。

 

  • ルーブリックの使用に関する研究が公表されている分野:リベラルアーツ情報リテラシー、医学、看護学経営学、歯学、食品技術、教師教育、映画技術などがある。
  • 対象とされている学生の成果物:コンセプトマップ、文献レビュー、反省文、参考文献、口頭発表、批判的思考、引用分析、ポートフォリオ、プロジェクト、口頭および書面によるコミュニケーション能力など

 

とのこと。

 

Green and Bowser (2006)によれば、

  • シェナンドウ大学(SU)で修士論文の文献レビュー用に開発されたルーブリックを、ベスト・プラクティス大学(BPU)の同様のプログラムでそのまま使用したところ、両機関の評価者の間で点数がけっこう異なったとのこと。(井上コメント:つまり同じルーブリックであっても使う場所がことなれば、ルーブリックの信頼性はブレるということ。)
  • このルーブリックが文献レビューや論文を締めくくる学生のために作られたものであるにもかかわらず、文献レビューを始めたばかりの学生の作品に適用されていたため妥当性の問題があったのだろうと。その後、ルーブリックはBPUで使用できるように修正されて使われたとのこと。
 
 

妥当性と信頼性:Moskal, B. M., & Leydens, J. A. (2000).

かなりよく引用されているっぽい、 Moskal & Leyden 2000。ルーブリックの妥当性と信頼性についての議論をしている。前に、私自身も書いた(ルーブリック表の導入に関する個人的所感メモ - Critique of Games メモと寸評)けど、やはり、ルーブリックを導入しはじめると、信頼性と妥当性について気になるところが多い。
 
 
Moskal, B. M., & Leydens, J. A. (2000). Scoring rubric development: Validity and reliability. Practical assessment, research, and evaluation, 7(1), 10.

https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1093&context=pare

表 1. 各タイプの妥当性の証拠を調べるための質問

内容
1. 評価基準は、余計な内容に対応しているか。
2. 採点基準の評価基準は、意図した内容のすべての側面に対応していますか?
3. タスクの中に、ルーブリックで評価すべき内容があるが、評価されていない内容がありますか?

構成
1. 意図した構成要素のすべての重要な側面が採点基準で評価されているか?
2. 評価基準のどれかが目的の構成要素と無関係であるか?

評価基準
1. スコアリング基準は、将来のパフォーマンスや関連するパフォーマンスでの成功を示唆するコンピテンシーをどのように反映していますか?
2. 評価尺度の使用によって評価される可能性のある、将来のパフォーマンスまたは関連するパフォーマンスの重要な構成要素は何ですか?
3. 採点基準は、将来または関連するパフォーマンスの重要な構成要素をどのように測定していますか?

 

結論部の前半

 

信頼性を確立することは、妥当性を確立するための前提条件である(Gay, 1987)。有効な評価は必然的に信頼性があるが、逆は真ではない。信頼性のある評価が必ずしも有効であるとは限りません。たとえば、採点基準が評価の目的に関係のない回答の要素に焦点を当てている場合など、採点ルーブリックは無効な解釈を引き起こす可能性があります。採点基準は、評価者が誰であるか、または応答がいつ採点されたかに関係なく、与えられた応答が同じスコアを受け取るように非常によく記述されているかもしれません。採点基準は、個々のパフォーマンス全体で見られる一般的な総合的な基準を記述したものであり、したがって、すべてのパフォーマンスの固有の特性を説明することはできません(Delandshere & Petrosky, 1998; Haswell & Wyche-Smith, 1994)。評価プロセスにおいて採点基準のみに依存している教師は、観察されたパフォーマンスと結果として得られるスコアの間に生じる矛盾に気づく可能性が低いかもしれません。

 

 

 

効果実証:Andrade, H., & Du, Y. (2005)

 

Andrade, H., & Du, Y. (2005). Student perspectives on rubric-referenced assessment. Practical Assessment, Research, and Evaluation, 10(1), 3.

 

次、比較的少人数のフォーカスグループでの調査

 

この研究では、学生がルーブリックを使って自分自身の学習とアカデミック・パフォーマンスをサポートしていることを示唆している。フォーカスグループでは、14人の学部生が、課題へのアプローチを計画し、自分の作品をチェックし、他の人からのフィードバックを指導したり反映させたりするためにルーブリックを使用した方法について議論しました。学生たちは、ルーブリックを使用することで、努力を集中させ、より質の高い作品を制作し、より良い成績を獲得し、課題に対する不安感を軽減することができたと述べています。

 

ここまではいいとして、

 

彼らのコメントはまた、ほとんどの学生がルーブリックの全体を読まない傾向があり、ルーブリックを特定の教師の要求を満たすためのツールとして認識している学生もいることを明らかにしました。

 

これは、そうだろう。

 

レビュー論文:Panadero, E., & Romero, M. (2014).

Panadero, E., & Romero, M. (2014). To rubric or not to rubric? The effects of self-assessment on self-regulation, performance and self-efficacy. Assessment in Education: Principles, Policy & Practice, 21(2), 133-148.
ルーブリックと、ルーブリック以外の学習手法との比較評価をしているもの。ルーブリック万能論的な論調には、ほどよく釘を刺すことのできるレビュー論文になっているという印象。Panaderoらのチームは、後述する実験でも、ルーブリックと自己調整型学習に関係する手法間の評価を行っており、学習手法全体をうまく目端をきかせて考えようという気概があって素晴らしい。
 
アブストから抜粋

The results showed that the rubric group reported higher learning strategies use, performance and accuracy.

ルーブリック群の方が学習戦略の使用、パフォーマンス、精度が高いことがわかりました。

However, the rubric group also reported more problems coping with stress and higher performance/avoidance self-regulation that was detrimental to learning.

しかし、ルーブリック群の方がストレスへの対処の問題が多く、学習に有害なパフォーマンス/回避の自己調節が高いことも報告されました。

 

まず、モニタリングと自己評価が、自律的な学習にとって重要であることを確認。

 

 

自己評価(Self Assessment)

自己評価が効果的であるための要件として、Andrade & Valtcheva, 2009, p. 13がひかれている。

効果的な自己評価を行うためには、学生は(Goodrich, 1996によると)自己評価の価値の認識、評価の基礎となる明確な基準へのアクセス、評価すべき特定の課題またはパフォーマンス、自己評価のモデル、自己評価の直接的な指示と援助、練習、自己評価することが適切なときに関する合図、課題またはパフォーマンスを修正し改善する機会を必要とする。

 

 トータルには、ルーブリックの効果自体はルーブリック以外のツールと比べてもポジティブにでているとのこと。

 

先行研究から抽出された提言としては、教室での自己評価を訓練するために、組織の特性や実施の特性そのものを考慮することが挙げられる(Schildkamp, Vanhoof, van Petegem, & Visscher, 2011)。先行研究からの提言としては、ルーブリックの使用による弊害を回避するために、自己評価のための十分な条件を備えたルーブリック(Andrade & Valtcheva, 2009)を添付することであろう。結論としては、基本的な条件が守られていれば、特に高等教育の学生にはルーブリックの使用が強く推奨されると考えられる。

 

 

 

レビュー論文:Brookhart, S. M., & Chen, F. (2015).

Brookhart, S. M., & Chen, F. (2015). The quality and effectiveness of descriptive rubrics. Educational Review, 67(3), 343-368.

2005-2013年の研究についてまとめたレビュー論文。ルーブリックには、formative(生成的)とsummative(総括的)があるが、この論文は両方の方向のものをとりあげているとのこと。ちなみに、formativeなものと、summativeなものの分類については、ベネッセのBEATなどを解説*1によれば、formativeなものが 「作り上げていく・進めていく過程で必要な評価」で、summative「一通りの流れが終わった後に、全体を通してどこが良かったか(悪かったか)を見るための評価」ということらしい。

 また、このレビュー論文は、概念運用についての批判などもある。自己調整型学習をめぐる概念の混同などについて批判がされている。

とくに、ルーブリックは、特定の条件が満たされていれば十分な質の情報を得ることができ、特に明確で焦点を絞った基準を持つことが重要であると指摘されている。

 

また、定義や歴史について、最初に確認があるのもよい。

 

定義

(ルーブリックは)基準とパフォーマンスレベルの記述の両方が存在している場合にのみ意味をなす(Andrade 2000; Jonsson and Svingby 2007)

 

歴史

ルーブリックは、生徒が事実や概念を応用することよりも、事実や概念を繰り返すことに長けていることを示唆する 1980 年代の研究への反応の一部として生まれたものである。その結果、成績評価(Lane and Tierney 2008)と標準ベースの改革(Brookhart 2013a)への関心が高まった。

要するに、知識の反復を前提とするテストのようなものとは別だよね、という確認だろう。

 

信頼性(reliability)の評価

ルーブリックが「信頼性」のしきい値を越えているといえるかどうかは、どの分野、目的の信頼性のしきい値を問題にするかによっても違うので、なんとも言えないところもあるが、もってくるしきい値によっては、信頼性の水準はしきい値を越えているとのこと。また、次の記述も重要。

基準とパフォーマンスレベルの記述が明確で焦点を当てられていて、評価者が訓練されている場合には、ルーブリックは信頼性の高い結果をもたらすか、あるいは少なくとも結果が得られることを示唆しています。

 


妥当性 validityの評価

ルーブリックの内容の出典(文献レビュー、学生の作品、コースの学習成果や基準など)の文書化や、ルーブリックの専門家によるレビューが挙げられているが、専門家はルーブリックを開発した教員と同じメンバーであることもあり……評価が難しい。

 

  • ルーブリックのスコアと、外部からの判断との相関関係でチェックするらしい
  • 自己または同僚がルーブリックを使用した際に、教師や指導者のスコアと一致していることが有効性として報告されている(Cho, Schunnn, and Wilson 2006; Sadler and Good 2006)。Schreiber, Paul, and Shibley (2012)
  • Kocakülah (2010) は、ニュートンの運動法則を用いた学生の問題解決力を評価するためのルーブリックについて、講師、同僚、および独立したコーダーのスコアに差がないことを発見。

 

内的妥当性 Internal Validity

 

ルーブリック内の基準間の関係の実証分析として、因子分析(Reznitskaya et al. 2009; Schreiber, Paul, and Shibley 2012)や尺度間の相関関係(Ciorba and Smith 2009)がもちいられている。

Reznitskayaら(2009)は、議論的推論をスコアリングするための分析基準を因子分析。彼らは、学生の論証能力を開発するための2つの異なる指導方法を比較したデータを再分析。因子スコアを使用した場合と、全体的(holistic)ルーブリックを使用した場合の結果を比較。2つの因子を用いた場合、処置の効果は論証力に統計的に有意な差をもたらした。しかし、全体的(holistic)スコアを用いた場合、処置の効果は有意ではなかった。研究者たちはこのことを、分析的ルーブリックが構成要素のより詳細な測定を提供したと解釈している。

 

holistic Rublicについては下記を参照

Types of Rubrics: Holistic and Analytic

比較評価:Panadero, E., Alonso-Tapia, J., & Reche, E. (2013).

Panadero, E., Alonso-Tapia, J., & Reche, E. (2013). Rubrics vs. self-assessment scripts effect on self-regulation, performance and self-efficacy in pre-service teachers. Studies in Educational Evaluation, 39(3), 125-132.

ルーブリックと、自己評価スクリプトの効果を比較・測定した論文.スクリプトというのは、何かというと

キューやプロンプトを含むスクリプトは、タスクを最初から最後まで実行するエキスパートモデルに応じて構造化された具体的なステップのセットである。ルーブリックと同様に、スクリプトもまた、自己調節と学習を促進するプラスの効果がある(例: Bannert, 2009, Peters and Kitsantas, 2010)。

スクリプトは主に実験的な環境で使用されてきましたが、実際の環境で実施された研究はごく少数です(例:Kramarski & Michalsky, 2010)。

 

とのこと。

  • スクリプト方式は、自己調整型学習に効いた
  • ルーブリック方式は、自己調整型学習にとってのネガティブなアクションを減少させた。
  • 自己効力感については、有意な差はみられなかった。

 

スクリプト方式との比較は、Panadero, E., Tapia, J. A., & Huertas, J. A. (2012). Rubrics and self-assessment scripts effects on self-regulation, learning and self-efficacy in secondary education. Learning and individual differences, 22(6), 806-813.でもやられている。

https://www.sciencedirect.com/science/article/pii/S1041608012000672

実践ガイド:Bonnie and Mullinix(2003)

ルーブリックのためのルーブリック。これは、ルーブリックについて学びたい人が参照するのには、非常によいのでは。

Bonnie and Mullinix(2003), Rubric for Assessing Rubrics, Monmouth University

https://www.asu.edu/courses/asu101/asuonline/temp/rubric_%20for_rubrics.pdf

 

メタ認知を促すなどといったことと、一緒にやるとよいといったことも、同時にガイドされており、個人的には、このルーブリック評価のルーブリックはけっこう納得感は高い。

 

実践ガイド:Rubric for Rubrics

 

https://www.mbaea.org/media/cms/RubricforRubrics_77EAE6205D215.pdf

 

 

批判的検討:Wilson, M. (2006)

Wilson, M. (2006). Rethinking rubrics in writing assessment. Portsmouth, NH: Heinemann.

 

下記で日本語の紹介がある。

[読書] 作文教育のルーブリック批判論、再訪。Maja Wilson, Rethinking Rubrics in Writing Assessment | あすこまっ!

 

Formativeな側面というよりも、特にSummativeな面についての批判だという感じか?

あと、総合性と個別性についてのトレードオフを考えたとき、ルーブリックのもっているパートごとの分解みたいなところが気に入らないという話は、わかる。

 

 あと、ルーブリックで採点しましょうとなったとき、多くの真面目な学生はルーブリックの評価項目を平均的に満たそうという行動に走りがちで、なんだか器用に評価基準には対応しているけれども面白みのない文章がしあがりがちだという側面もある。

 

安藤輝次, & アンドウテルツグ. (2008)

安藤輝次, & アンドウテルツグ. (2008). 一般的ルーブリックの必要性

日本語論文。

我が国にも、単元別ルーブリックだけではなく、一般的ルーブリックが必要なのではないか、という議論。

 

ルーブリックの文化差

ありそうなもんだが、さっと見つからない。 

 

個人的所感メモ

 


ルーブリックの導入をどう考えるかについてトレードオフがある。(下記は、必ずし先行研究にもとづいた記述ではなく、個人的な所感を多く含んでいる)


1.総合性と具体性についてのトレードオフ

  • 具体性を増やすべきだ派:複数人で採点をしたときのゆらぎを減らそうと思うと(=信頼性増加)、記述は具体的にならざるを得ない。しかし、具体性を増すことにやっきになりすぎると、「総合パフォーマンス評価」としてのルーブリックの意義が弱くなる。テストに近いものであるのならば、ルーブリックであることの意義は少なくなる。(おそらく、こちらのほうがマジョリティ)
  • 総合性を増やすべきだ派:ルーブリックはそもそも、テストによる単純化された評価へのアンチテーゼとして、総合的なパフォーマンス評価という文脈から、要請されている。簡単には測り難いものをあえて測るための基準であるのだから評価の信頼性(評価のブレの減少)のために、安易に言語化しがたいタイプの「総合性」をへらすべきではない。この総合性こそが評価の妥当性にとって重要なのではない。(Wilson, M. (2006)はこちらからの批判か?)
  • <井上の所感:案1 具体性と総合性野切り分け>具体性と、総合性を切りわけるべきではないだろうか?現在のルーブリックは、具体性と総合性のメゾ的なものになっているので、パフォーマンス改善によく機能するのだろう。しかし、総括的Summativeな評価としてのルーブリックは欺瞞に満ちている(これは「批評」について、少しでもかじっている人間であれば、概ね同意を得られるだろう)。ルーブリックは形成的 Formativeな評価システムとしてのみ洗練させ、Summativeな評価(真に妥当な評価)は、ルーブリックだけでは完結しないことを学習者に理解してもらう必要があるのではないだろうか?
  • <井上の所感:案2 具体性のモジュール化>あとは、いくつかの評価基準を提示して、学生に選んでもらうとかしかないのではないだろうかと思う。ここらへんは、engagementの議論とかぶる。

2.標準的カリキュラムと教員の個別的指導内容の魅力のトレードオフ

  • アドホックなルーブリックを作るべきだ派:学生自身がルーブリック作成に関わることで、学生に自己調整型学習を促進させることができるし、その場所ごとの適切な難易度設計もできる。
  • 標準ルーブリック共有派:どの教師が教えたとしても、同じ学習成果を約束するのが組織としての一つの理想である。標準的なカリキュラム整え、同一のルーブリックも学科内で共有し、採点者と、授業担当者は分離しているぐらいのほうが、教科内容の標準化を測ることができる。
  • <井上所感>科目内容や、学科の教育カリキュラムの全体像によるだろうなという印象。前者のほうが、個々人の学習のあり方としては理想だとは思うし、私の少ない知識の範囲では、アクティブラーニングとかやっている人が支持しそうなのは、おそらく前者なのではないだろうか。他方で、後者のほうが、いろいろなお役所的な「説明」はしやすいという感覚はあるし、組織論としては十分にアリだとは思う。組織文化によっては放っておいたら、後者のような感覚が強くでてくる組織はあるだろう。また、全体的なオペレーションは後者のようなケースのほうが、結果的に効率化されて、プラスマイナスで、学生へのトータルサービスとしては上昇するという可能性は棄却できない。オーダーメイド vs 標準化(+モジュール化)みたいな話なので、この話はけっこうエンドレスではあるが、技術経営論的な議論を参照するなら、標準化すべきレイヤーとオーダーメイドできるレイヤーの切り分けができればいいということになるだろう。どのようなレイヤーの切り分けが理想なのか、とういう議論は、だいぶ難しいパズルになるような気もするし、一般的なパレート最適解みたいなものがあるわけではなくて、個別の組織内での制度設計の状況によって、効率的な制度設計も違ってくるのだろう。


3.形成的評価と、総括的評価についてのトレードオフ

  • これは、総合性と具体性についてのトレードオフの話と基本的には似たような問題。総括的Summativeな評価として、ルーブリックのようなものが「正しい」ものなのだと、学習者が考えるというような事態は、知識のありようとして単純に間違っているといっていいだろう。
    あくまで、ルーブリックはパフォーマンスを改善するための、ツールとして位置づけられるべきだろう。これは、大学評価や、研究評価において「被引用件数」という代理指標がひとり歩きしてしまう状況に似たような問題を構成しうるだろう。

 

 

2023-02-21追記

国内文献についてのレビュー論文

 

福井,2023

大学におけるルーブリック開発に関する文献レビュー -実践的な評価手法を中心に-

トップページ - 横浜国立大学学術情報リポジトリ

 

*1:わかりにくいが、この解説は、山内祐平と北村智によるものということだろうか? https://fukutake.iii.u-tokyo.ac.jp/archives/beat/beating/035.html