2020-11-02

Player Type Model

リチャートバートル的なものの、研究の積み重ね。

メモは随時更新。

Marc Busch, Elke Mattheiss, Rita Orji, Peter Fröhlich, Michael Lankes, and Manfred Tscheligi. 2016.

Marc Busch, Elke Mattheiss, Rita Orji, Peter Fröhlich, Michael Lankes, and Manfred Tscheligi. 2016. Player Type Models: Towards Empirical Validation. In Proceedings of the 2016 CHI Conference Extended Abstracts on Human Factors in Computing Systems (CHI EA '16). Association for Computing Machinery, New York, NY, USA, 1835–1841. DOI:https://doi.org/10.1145/2851581.2892399

下記、Richard Birtle的なゲームプレイヤーのモデルを質問紙と因子分析によって、４分類ではなく、６分類にしたもの。

(PDF) Player Type Models – Towards Empirical Validation | Rita Orji, Marc Busch, and Elke Mattheiss - Academia.edu

下記アブストの訳（DeepL）

BrainHexモデルのようなプレイヤータイプモデルは、デジタルゲームをプレイヤーの好みに合わせてパーソナライズするための人気のあるアプローチです。いくつかのプレイヤータイプモデルが開発され、現在ゲームデザインプロジェクトで使用されていますが、その妥当性に関するデータはまだ不足しています。この研究のギャップを埋めるために、現在進行中のプロジェクトでプレイヤータイプモデルBrainHexのサイコメトリック特性（因子構造、信頼性、安定性）と予測妥当性（プレイヤータイプスコアがプレイヤー体験を予測できるかどうか）を調査しています。2つのオンライン研究(n1=592, n2=243)の結果から、BrainHexモデルの心理測定特性が改善される可能性があることがわかりました. 今後の研究では、質問票の改良を提案し、予測の妥当性を調査することを提案します。

Nacke, L. E., Bateman, C., & Mandryk, R. L. (2014)

上記の論文で言われている「BrainHexモデル」の論文というのは、多分これのことか？

Nacke, L. E., Bateman, C., & Mandryk, R. L. (2014). BrainHex: A neurobiological gamer typology survey. Entertainment computing, 5(1), 55-62.

BrainHex: A neurobiological gamer typology survey - ScienceDirect

プレイヤーの7つの異なるタイプとして、下記の７つがあるとされている。

シーカー、サバイバー、デアデビル、マスターマインド、征服者、社交家、達成者

Seeker, Survivor, Daredevil, Mastermind, Conqueror, Socialiser, and Achiever

著者の一人のBatemanは、私も翻訳で解説（？）を少し書いている21st Century Game Designこと『「ヒットする」のゲームデザイン』のクリス・ベイトマンさんである。なんだか、懐かしい名前に出会ったという気分。

2020-10-23

ルーブリック関連論文メモ

レビュー論文：Panadero, E., & Jonsson, A. (2013)　
- ルーブリックが生徒の成績向上をどう媒介するか？
- 影響する変数、ファクターについて
Reddy, Y. M., & Andrade, H. (2010)
妥当性と信頼性：Moskal, B. M., & Leydens, J. A. (2000).
効果実証：Andrade, H., & Du, Y. (2005)
レビュー論文：Panadero, E., & Romero, M. (2014).
- 自己評価（Self Assessment）
レビュー論文：Brookhart, S. M., & Chen, F. (2015).
比較評価：Panadero, E., Alonso-Tapia, J., & Reche, E. (2013).
実践ガイド：Bonnie and Mullinix(2003)
実践ガイド：Rubric for Rubrics
批判的検討：Wilson, M. (2006)
安藤輝次, & アンドウテルツグ. (2008)
ルーブリックの文化差
個人的所感メモ

下記、メモなので、随時編集しますので、ご了承下さい。

（言葉づかいなども含めて雑駁なメモとなっています）

注意：訳文が貼り付けてあるところはほぼDeepL（＋ときどき若干の修正）です。あまり、信用しないでください。

レビュー論文：Panadero, E., & Jonsson, A. (2013)　

Panadero, E., & Jonsson, A. (2013). The use of scoring rubrics for formative assessment purposes revisited: A review. Educational research review, 9, 129-144.

https://www.researchgate.net/publication/234169756_The_Use_of_Scoring_Rubrics_for_Formative_Assessment_Purposes_Revisited_A_Review

レビュー論文。かなり、よくまとまっており、最初にきちんと読み込むなら、この論文では？という感じ。

このレビューは、下記にも書かれているとおり、formative assessmentにおけるルーブリックの使用を特に取り上げているとのこと。

アブスト：

スコアリング・ルーブリックに関する研究の主流は、評価の総括的（Summative）な側面を強調してきたが、近年では、形成的（formative）な目的でのルーブリックの使用に注目がなされています。しかし、この研究は決定的なものではない。そこで本研究の目的は、ルーブリックが学生の学習にどのような影響を与えるのか、またどのように影響を与えるのかを調べるために、ルーブリックの形成的利用に関する研究をレビューすることである。ルーブリックに関する研究は全部で21件あり、内容分析を行った。サンプル、主題・課題、デザイン、手順、結果を、学生のパフォーマンスと自己調節への影響に関連して、異なる研究間で比較した。その結果、ルーブリックは学生の学習にポジティブな影響を与える可能性があるだけでなく、成績向上と自己調節を仲介するためのルーブリックの使用には、いくつかの異なる方法があることが示されました。ルーブリックを形式的に使用することの効果を緩和する要因と、さらなる調査が必要な要因がいくつか確認された。

４.Resultの部分を簡単に要約しておく

ルーブリックが生徒の成績向上をどう媒介するか？

モデル図的なものが提示されている

その上で、次のようにまとめている

１．透明性の向上：生徒からしたら、何をもとめられているのかがわかるようになる（成績照会時の証拠ということではない）

２．不安の軽減：課題についての不安が軽減される。自己調整学習の尺度をもちいても、ポジティブに評価されている。

３．フィードバックプロセスの補助：学生からも、教員からもフィードバックプロセスを支援するものとして講評

４．自己効力感の上昇が認められる（ただ、ここはちょっと要注意なので、後述）

５．自己調整型学習をサポートする：「自己調整型学習」は、学習の設計についての重要概念なので、別途調べていただきたいが、概ねポジティブな効果だとのこと

４．１．４の自己効力感の話は少し複雑。下記のように論じられている。

先行研究(Pajares, 2008)で示唆されているように、自己効力感のレベルが高い学生は、自己効力感のレベルが低い学生に比べてパフォーマンスが高い傾向にある。Andrade, Wang, Du, and Akawi (2009)の研究では、模範となる小論文から基準リストを作成し、ルーブリックを用いて下書きを自己評価することで、学生の自己効力感を向上させることが示されている。しかし、本研究では、パフォーマンスとの関係は調査されていない。

Panadero, 2011, Panadero et al. この研究では、自己効力感がルーブリックの使用に影響を与えていたが、3つの研究のうち1つだけであった。しかし、考えられる説明としては、van Dinther, Dochy, and Segers (2010)が示唆しているものがある。それは、学生が自分の進歩（または進歩の欠如）について現実的な意見を持つためには、自分のパフォーマンスに関する教師のフィードバックに直面する必要があるということである。

影響する変数、ファクターについて

（井上コメント：ルーブリックの効果についての厳密なRCT的なものはそこまできちんとしてないっぽい？）

・ルーブリックを使うところは、だいたい様々な学習メソッドをセットで取り入れていることが多いため、効果測定については、やや議論がある様子。自己評価や他のメタ認知活動と組み合わせれば、ルーブリックが成績向上を促進することを示唆するより実質的な証拠があるとのこと。

・ルーブリックを使う期間が短い（１期のみ）だと、その効果が認められる度合いが少ないとのこと。長期の使用（最低でも５期）においては、ルーブリックを用いた場合と用いない場合の差は明確に観察されるとのこと。

・ジェンダーによる影響の差異が認められるとの論文もあるが、統計的に有意なレベルではないとの論文も多いとのこと

・ルーブリックの使用例は、だいたいが作文（writing）の授業。どのような作文のトピックでもルーブリックによる改善効果はあるとのこと。トピックによって効果がない、といったことはあまりみとめてれない様子。

Reddy, Y. M., & Andrade, H. (2010)

Reddy, Y. M., & Andrade, H. (2010). A review of rubric use in higher education. Assessment & evaluation in higher education, 35(4), 435-448.

https://www.tandfonline.com/doi/full/10.1080/02602930902862859

レビュー論文。

以下、アブストラクト

本稿では、高等教育レベルでのルーブリックの使用に関する実証研究を批判的にレビューし、文献のギャップを明らかにし、研究の必要性を提案する。高等教育におけるルーブリックの研究は、学生の学力向上、指導の改善、プログラムの評価など、様々な目的のために、幅広い分野で行われてきた。ルーブリックに対する学生の認識は一般的に肯定的であり、教員のルーブリック使用に対する肯定的な反応を報告している著者もいるが、教員がルーブリックを使用することに抵抗感を持つ傾向があることを指摘している著者もいる。2 つの研究では、ルーブリックの使用が学業成績の向上と関連していることが示唆されているが、1 つの研究ではそうではなかった。ルーブリックがコースやプログラムの改善の必要性を特定する可能性があることは実証されている。ルーブリックの妥当性に関する研究では、言語の明快さと適切さが中心的な関心事であることが示されている。評価者の信頼性に関する研究では、ルーブリックが学生のパフォーマンスの比較的一般的な解釈につながることが示されている。今後の研究への示唆としては、より厳密な研究方法の使用、妥当性と信頼性への関心、学習へのより緊密な焦点、多様な教育の文脈におけるルーブリックの使用に関する研究などが挙げられる。

このレビュー論文だけでかなり面白い。

ルーブリックの使用に関する研究が公表されている分野：リベラルアーツ、情報リテラシー、医学、看護学、経営学、歯学、食品技術、教師教育、映画技術などがある。
対象とされている学生の成果物：コンセプトマップ、文献レビュー、反省文、参考文献、口頭発表、批判的思考、引用分析、ポートフォリオ、プロジェクト、口頭および書面によるコミュニケーション能力など

とのこと。

Green and Bowser (2006)によれば、

シェナンドウ大学（SU）で修士論文の文献レビュー用に開発されたルーブリックを、ベスト・プラクティス大学（BPU）の同様のプログラムでそのまま使用したところ、両機関の評価者の間で点数がけっこう異なったとのこと。（井上コメント：つまり同じルーブリックであっても使う場所がことなれば、ルーブリックの信頼性はブレるということ。）
このルーブリックが文献レビューや論文を締めくくる学生のために作られたものであるにもかかわらず、文献レビューを始めたばかりの学生の作品に適用されていたため妥当性の問題があったのだろうと。その後、ルーブリックはBPUで使用できるように修正されて使われたとのこと。

妥当性と信頼性：Moskal, B. M., & Leydens, J. A. (2000).

かなりよく引用されているっぽい、 Moskal & Leyden 2000。ルーブリックの妥当性と信頼性についての議論をしている。前に、私自身も書いた（ルーブリック表の導入に関する個人的所感メモ - Critique of Games メモと寸評）けど、やはり、ルーブリックを導入しはじめると、信頼性と妥当性について気になるところが多い。

Moskal, B. M., & Leydens, J. A. (2000). Scoring rubric development: Validity and reliability. Practical assessment, research, and evaluation, 7(1), 10.

https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1093&context=pare

表 1. 各タイプの妥当性の証拠を調べるための質問

内容
1. 評価基準は、余計な内容に対応しているか。
2. 採点基準の評価基準は、意図した内容のすべての側面に対応していますか？
3. タスクの中に、ルーブリックで評価すべき内容があるが、評価されていない内容がありますか?

構成
1. 意図した構成要素のすべての重要な側面が採点基準で評価されているか？
2. 評価基準のどれかが目的の構成要素と無関係であるか？

評価基準
1. スコアリング基準は、将来のパフォーマンスや関連するパフォーマンスでの成功を示唆するコンピテンシーをどのように反映していますか？
2. 評価尺度の使用によって評価される可能性のある、将来のパフォーマンスまたは関連するパフォーマンスの重要な構成要素は何ですか?
3. 採点基準は、将来または関連するパフォーマンスの重要な構成要素をどのように測定していますか？

結論部の前半

信頼性を確立することは、妥当性を確立するための前提条件である(Gay, 1987)。有効な評価は必然的に信頼性があるが、逆は真ではない。信頼性のある評価が必ずしも有効であるとは限りません。たとえば、採点基準が評価の目的に関係のない回答の要素に焦点を当てている場合など、採点ルーブリックは無効な解釈を引き起こす可能性があります。採点基準は、評価者が誰であるか、または応答がいつ採点されたかに関係なく、与えられた応答が同じスコアを受け取るように非常によく記述されているかもしれません。採点基準は、個々のパフォーマンス全体で見られる一般的な総合的な基準を記述したものであり、したがって、すべてのパフォーマンスの固有の特性を説明することはできません(Delandshere & Petrosky, 1998; Haswell & Wyche-Smith, 1994)。評価プロセスにおいて採点基準のみに依存している教師は、観察されたパフォーマンスと結果として得られるスコアの間に生じる矛盾に気づく可能性が低いかもしれません。

効果実証：Andrade, H., & Du, Y. (2005)

Andrade, H., & Du, Y. (2005). Student perspectives on rubric-referenced assessment. Practical Assessment, Research, and Evaluation, 10(1), 3.

https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1152&context=pare

次、比較的少人数のフォーカスグループでの調査

この研究では、学生がルーブリックを使って自分自身の学習とアカデミック・パフォーマンスをサポートしていることを示唆している。フォーカスグループでは、14人の学部生が、課題へのアプローチを計画し、自分の作品をチェックし、他の人からのフィードバックを指導したり反映させたりするためにルーブリックを使用した方法について議論しました。学生たちは、ルーブリックを使用することで、努力を集中させ、より質の高い作品を制作し、より良い成績を獲得し、課題に対する不安感を軽減することができたと述べています。

ここまではいいとして、

彼らのコメントはまた、ほとんどの学生がルーブリックの全体を読まない傾向があり、ルーブリックを特定の教師の要求を満たすためのツールとして認識している学生もいることを明らかにしました。

これは、そうだろう。

レビュー論文：Panadero, E., & Romero, M. (2014).

Panadero, E., & Romero, M. (2014). To rubric or not to rubric? The effects of self-assessment on self-regulation, performance and self-efficacy. Assessment in Education: Principles, Policy & Practice, 21(2), 133-148.

ルーブリックと、ルーブリック以外の学習手法との比較評価をしているもの。ルーブリック万能論的な論調には、ほどよく釘を刺すことのできるレビュー論文になっているという印象。Panaderoらのチームは、後述する実験でも、ルーブリックと自己調整型学習に関係する手法間の評価を行っており、学習手法全体をうまく目端をきかせて考えようという気概があって素晴らしい。

アブストから抜粋

The results showed that the rubric group reported higher learning strategies use, performance and accuracy.

ルーブリック群の方が学習戦略の使用、パフォーマンス、精度が高いことがわかりました。

However, the rubric group also reported more problems coping with stress and higher performance/avoidance self-regulation that was detrimental to learning.

しかし、ルーブリック群の方がストレスへの対処の問題が多く、学習に有害なパフォーマンス/回避の自己調節が高いことも報告されました。

まず、モニタリングと自己評価が、自律的な学習にとって重要であることを確認。

自己評価（Self Assessment）

自己評価が効果的であるための要件として、Andrade & Valtcheva, 2009, p. 13がひかれている。

効果的な自己評価を行うためには、学生は(Goodrich, 1996によると)自己評価の価値の認識、評価の基礎となる明確な基準へのアクセス、評価すべき特定の課題またはパフォーマンス、自己評価のモデル、自己評価の直接的な指示と援助、練習、自己評価することが適切なときに関する合図、課題またはパフォーマンスを修正し改善する機会を必要とする。

トータルには、ルーブリックの効果自体はルーブリック以外のツールと比べてもポジティブにでているとのこと。

先行研究から抽出された提言としては、教室での自己評価を訓練するために、組織の特性や実施の特性そのものを考慮することが挙げられる(Schildkamp, Vanhoof, van Petegem, & Visscher, 2011)。先行研究からの提言としては、ルーブリックの使用による弊害を回避するために、自己評価のための十分な条件を備えたルーブリック(Andrade & Valtcheva, 2009)を添付することであろう。結論としては、基本的な条件が守られていれば、特に高等教育の学生にはルーブリックの使用が強く推奨されると考えられる。

レビュー論文：Brookhart, S. M., & Chen, F. (2015).

Brookhart, S. M., & Chen, F. (2015). The quality and effectiveness of descriptive rubrics. Educational Review, 67(3), 343-368.

https://www.tandfonline.com/doi/full/10.1080/00131911.2014.929565

2005-2013年の研究についてまとめたレビュー論文。ルーブリックには、formative（生成的）とsummative（総括的）があるが、この論文は両方の方向のものをとりあげているとのこと。ちなみに、formativeなものと、summativeなものの分類については、ベネッセのBEATなどを解説*1によれば、formativeなものが「作り上げていく・進めていく過程で必要な評価」で、summative「一通りの流れが終わった後に、全体を通してどこが良かったか（悪かったか）を見るための評価」ということらしい。

また、このレビュー論文は、概念運用についての批判などもある。自己調整型学習をめぐる概念の混同などについて批判がされている。

とくに、ルーブリックは、特定の条件が満たされていれば十分な質の情報を得ることができ、特に明確で焦点を絞った基準を持つことが重要であると指摘されている。

また、定義や歴史について、最初に確認があるのもよい。

定義

（ルーブリックは）基準とパフォーマンスレベルの記述の両方が存在している場合にのみ意味をなす(Andrade 2000; Jonsson and Svingby 2007)

歴史

ルーブリックは、生徒が事実や概念を応用することよりも、事実や概念を繰り返すことに長けていることを示唆する 1980 年代の研究への反応の一部として生まれたものである。その結果、成績評価（Lane and Tierney 2008）と標準ベースの改革（Brookhart 2013a）への関心が高まった。

要するに、知識の反復を前提とするテストのようなものとは別だよね、という確認だろう。

信頼性（reliability）の評価

ルーブリックが「信頼性」のしきい値を越えているといえるかどうかは、どの分野、目的の信頼性のしきい値を問題にするかによっても違うので、なんとも言えないところもあるが、もってくるしきい値によっては、信頼性の水準はしきい値を越えているとのこと。また、次の記述も重要。

基準とパフォーマンスレベルの記述が明確で焦点を当てられていて、評価者が訓練されている場合には、ルーブリックは信頼性の高い結果をもたらすか、あるいは少なくとも結果が得られることを示唆しています。

妥当性　validityの評価

ルーブリックの内容の出典（文献レビュー、学生の作品、コースの学習成果や基準など）の文書化や、ルーブリックの専門家によるレビューが挙げられているが、専門家はルーブリックを開発した教員と同じメンバーであることもあり……評価が難しい。

ルーブリックのスコアと、外部からの判断との相関関係でチェックするらしい
自己または同僚がルーブリックを使用した際に、教師や指導者のスコアと一致していることが有効性として報告されている(Cho, Schunnn, and Wilson 2006; Sadler and Good 2006)。Schreiber, Paul, and Shibley (2012)
Kocakülah (2010) は、ニュートンの運動法則を用いた学生の問題解決力を評価するためのルーブリックについて、講師、同僚、および独立したコーダーのスコアに差がないことを発見。

内的妥当性 Internal Validity

ルーブリック内の基準間の関係の実証分析として、因子分析(Reznitskaya et al. 2009; Schreiber, Paul, and Shibley 2012)や尺度間の相関関係(Ciorba and Smith 2009)がもちいられている。

Reznitskayaら(2009)は、議論的推論をスコアリングするための分析基準を因子分析。彼らは、学生の論証能力を開発するための2つの異なる指導方法を比較したデータを再分析。因子スコアを使用した場合と、全体的（holistic）ルーブリックを使用した場合の結果を比較。2つの因子を用いた場合、処置の効果は論証力に統計的に有意な差をもたらした。しかし、全体的（holistic）スコアを用いた場合、処置の効果は有意ではなかった。研究者たちはこのことを、分析的ルーブリックが構成要素のより詳細な測定を提供したと解釈している。

holistic Rublicについては下記を参照

Types of Rubrics: Holistic and Analytic

比較評価：Panadero, E., Alonso-Tapia, J., & Reche, E. (2013).

Panadero, E., Alonso-Tapia, J., & Reche, E. (2013). Rubrics vs. self-assessment scripts effect on self-regulation, performance and self-efficacy in pre-service teachers. Studies in Educational Evaluation, 39(3), 125-132.

ルーブリックと、自己評価スクリプトの効果を比較・測定した論文.スクリプトというのは、何かというと

キューやプロンプトを含むスクリプトは、タスクを最初から最後まで実行するエキスパートモデルに応じて構造化された具体的なステップのセットである。ルーブリックと同様に、スクリプトもまた、自己調節と学習を促進するプラスの効果がある(例: Bannert, 2009, Peters and Kitsantas, 2010)。

スクリプトは主に実験的な環境で使用されてきましたが、実際の環境で実施された研究はごく少数です（例：Kramarski & Michalsky, 2010）。

とのこと。

スクリプト方式は、自己調整型学習に効いた
ルーブリック方式は、自己調整型学習にとってのネガティブなアクションを減少させた。
自己効力感については、有意な差はみられなかった。

スクリプト方式との比較は、Panadero, E., Tapia, J. A., & Huertas, J. A. (2012). Rubrics and self-assessment scripts effects on self-regulation, learning and self-efficacy in secondary education. Learning and individual differences, 22(6), 806-813.でもやられている。

https://www.sciencedirect.com/science/article/pii/S1041608012000672

実践ガイド：Bonnie and Mullinix(2003)

ルーブリックのためのルーブリック。これは、ルーブリックについて学びたい人が参照するのには、非常によいのでは。

Bonnie and Mullinix(2003), Rubric for Assessing Rubrics, Monmouth University

https://www.asu.edu/courses/asu101/asuonline/temp/rubric_%20for_rubrics.pdf

メタ認知を促すなどといったことと、一緒にやるとよいといったことも、同時にガイドされており、個人的には、このルーブリック評価のルーブリックはけっこう納得感は高い。

実践ガイド：Rubric for Rubrics

https://www.mbaea.org/media/cms/RubricforRubrics_77EAE6205D215.pdf

批判的検討：Wilson, M. (2006)

Wilson, M. (2006). Rethinking rubrics in writing assessment. Portsmouth, NH: Heinemann.

下記で日本語の紹介がある。

[読書] 作文教育のルーブリック批判論、再訪。Maja Wilson, Rethinking Rubrics in Writing Assessment | あすこまっ！

Formativeな側面というよりも、特にSummativeな面についての批判だという感じか？

あと、総合性と個別性についてのトレードオフを考えたとき、ルーブリックのもっているパートごとの分解みたいなところが気に入らないという話は、わかる。

あと、ルーブリックで採点しましょうとなったとき、多くの真面目な学生はルーブリックの評価項目を平均的に満たそうという行動に走りがちで、なんだか器用に評価基準には対応しているけれども面白みのない文章がしあがりがちだという側面もある。

安藤輝次, & アンドウテルツグ. (2008)

安藤輝次, & アンドウテルツグ. (2008). 一般的ルーブリックの必要性

日本語論文。

我が国にも、単元別ルーブリックだけではなく、一般的ルーブリックが必要なのではないか、という議論。

ルーブリックの文化差

ありそうなもんだが、さっと見つからない。

個人的所感メモ

ルーブリックの導入をどう考えるかについてトレードオフがある。（下記は、必ずし先行研究にもとづいた記述ではなく、個人的な所感を多く含んでいる）

１．総合性と具体性についてのトレードオフ

具体性を増やすべきだ派：複数人で採点をしたときのゆらぎを減らそうと思うと（＝信頼性増加）、記述は具体的にならざるを得ない。しかし、具体性を増すことにやっきになりすぎると、「総合パフォーマンス評価」としてのルーブリックの意義が弱くなる。テストに近いものであるのならば、ルーブリックであることの意義は少なくなる。（おそらく、こちらのほうがマジョリティ）
総合性を増やすべきだ派：ルーブリックはそもそも、テストによる単純化された評価へのアンチテーゼとして、総合的なパフォーマンス評価という文脈から、要請されている。簡単には測り難いものをあえて測るための基準であるのだから評価の信頼性（評価のブレの減少）のために、安易に言語化しがたいタイプの「総合性」をへらすべきではない。この総合性こそが評価の妥当性にとって重要なのではない。（Wilson, M. (2006)はこちらからの批判か？）
＜井上の所感：案１　具体性と総合性野切り分け＞具体性と、総合性を切りわけるべきではないだろうか？現在のルーブリックは、具体性と総合性のメゾ的なものになっているので、パフォーマンス改善によく機能するのだろう。しかし、総括的Summativeな評価としてのルーブリックは欺瞞に満ちている（これは「批評」について、少しでもかじっている人間であれば、概ね同意を得られるだろう）。ルーブリックは形成的 Formativeな評価システムとしてのみ洗練させ、Summativeな評価（真に妥当な評価）は、ルーブリックだけでは完結しないことを学習者に理解してもらう必要があるのではないだろうか？
＜井上の所感：案２　具体性のモジュール化＞あとは、いくつかの評価基準を提示して、学生に選んでもらうとかしかないのではないだろうかと思う。ここらへんは、engagementの議論とかぶる。

２．標準的カリキュラムと教員の個別的指導内容の魅力のトレードオフ

アドホックなルーブリックを作るべきだ派：学生自身がルーブリック作成に関わることで、学生に自己調整型学習を促進させることができるし、その場所ごとの適切な難易度設計もできる。
標準ルーブリック共有派：どの教師が教えたとしても、同じ学習成果を約束するのが組織としての一つの理想である。標準的なカリキュラム整え、同一のルーブリックも学科内で共有し、採点者と、授業担当者は分離しているぐらいのほうが、教科内容の標準化を測ることができる。
＜井上所感＞科目内容や、学科の教育カリキュラムの全体像によるだろうなという印象。前者のほうが、個々人の学習のあり方としては理想だとは思うし、私の少ない知識の範囲では、アクティブラーニングとかやっている人が支持しそうなのは、おそらく前者なのではないだろうか。他方で、後者のほうが、いろいろなお役所的な「説明」はしやすいという感覚はあるし、組織論としては十分にアリだとは思う。組織文化によっては放っておいたら、後者のような感覚が強くでてくる組織はあるだろう。また、全体的なオペレーションは後者のようなケースのほうが、結果的に効率化されて、プラスマイナスで、学生へのトータルサービスとしては上昇するという可能性は棄却できない。オーダーメイド vs 標準化（＋モジュール化）みたいな話なので、この話はけっこうエンドレスではあるが、技術経営論的な議論を参照するなら、標準化すべきレイヤーとオーダーメイドできるレイヤーの切り分けができればいいということになるだろう。どのようなレイヤーの切り分けが理想なのか、とういう議論は、だいぶ難しいパズルになるような気もするし、一般的なパレート最適解みたいなものがあるわけではなくて、個別の組織内での制度設計の状況によって、効率的な制度設計も違ってくるのだろう。

３．形成的評価と、総括的評価についてのトレードオフ

これは、総合性と具体性についてのトレードオフの話と基本的には似たような問題。総括的Summativeな評価として、ルーブリックのようなものが「正しい」ものなのだと、学習者が考えるというような事態は、知識のありようとして単純に間違っているといっていいだろう。
あくまで、ルーブリックはパフォーマンスを改善するための、ツールとして位置づけられるべきだろう。これは、大学評価や、研究評価において「被引用件数」という代理指標がひとり歩きしてしまう状況に似たような問題を構成しうるだろう。

2023-02-21追記

国内文献についてのレビュー論文

福井,2023

大学におけるルーブリック開発に関する文献レビュー－実践的な評価手法を中心に－

トップページ - 横浜国立大学学術情報リポジトリ

*1:わかりにくいが、この解説は、山内祐平と北村智によるものということだろうか？ https://fukutake.iii.u-tokyo.ac.jp/archives/beat/beating/035.html

2020-10-09

ゲーム障害とパネルデータ（メモ）

統計

はげひげ先生

higeoyaji.at.webry.info

加藤さんの記事

ゲーム依存から何が見えるのか | RAD-IT21

gendai.ismedia.jp

どちらも、パネルデータの話をしているが、まさにそう。
単発の調査だと、まあ、DSMなり、ICDなりの尺度でやれば、Gaming Disorderないし、Online Gaming Disorderにあてはまる人は発生するが、かなり露骨に、同時性の問題が起こるタイプの話であることは明らかなので、因果関係の推定をやらんと、マジでアカンという話になる。
基本的に、この手の社会的な障害だと当然そういう話になる。
井出さんとこで、いくつか、pre-postのパネルデータの話をしているが、パネルデータと、単発データは分けた形での、literature reviewをきちんと見ていくことが必要だろう。
後ろ向きの推定ということだと、非連続回帰デザインとかはこういうケースだと難しいから、あー、っていうか、まさに香川県と、周辺の四国でのパネルデータをためておくのが正しいよな……。
過去のデータで、同一被験者でのパネルデータというのは難しそうだけど、同一地域の調査ぐらいはできるだろうなあ。
ここらへんで、後ろ向きの推定をやるデータをゲットしようぜという感じに気力を働かせていけないあたりを我ながら反省。

2020-10-09

gamification関連論文　雑に収集

随時更新

Wiki的に使用します。

民主主義、倫理基準系

Playing (with) Democracy: A Review of Gamified Participation Approaches

Sarah-Kristin Thiel

Michaela R Reisinger
2016, Journal of E-Democracy and Open Government

https://www.academia.edu/30517654/Playing_with_Democracy_A_Review_of_Gamified_Participation_Approaches?email_work_card=title

Kim, T. W., & Werbach, K. (2016). More than just a game: ethical issues in gamification. Ethics and Information Technology, 18(2), 157-173.

More than just a game: ethical issues in gamification | SpringerLink

次のような論点に言及（abstract）より

(1) takes unfair advantage of workers (e.g., exploitation); (2) infringes any involved workers’ or customers’ autonomy (e.g., manipulation); (3) intentionally or unintentionally harms workers and other involved parties; or (4) has a negative effect on the moral character of involved parties.

(1）労働者を不当に利用する（例：搾取）、（2）関係する労働者や顧客の自律性を侵害する（例：操作）、（3）労働者やその他の関係者に意図的または無意識に損害を与える、（4）関係者の道徳性にマイナスの影響を与える、

Toda, A. M., Valle, P. H., & Isotani, S. (2017, March). The dark side of gamification: An overview of negative effects of gamification in education. In Researcher links workshop: higher education for all (pp. 143-156). Springer, Cham.

教育におけるゲーミフィケーションの負の効果

abstractからの引用

最も多く発生した効果は「パフォーマンスの喪失」、最も多く引用されたゲームデザイン要素は「リーダーボード」であり、その他11の要素の中で最も多く引用されたのは、この「パフォーマンスの喪失」でした。さらに、これらの要素がどのように結果に影響を与えたかを明らかにするために、要素と効果を関連付けました。その結果、ゲームデザインが負の影響を与える可能性があることがわかりました。例えば、リーダーボードは、この研究でマッピングされた多くのネガティブな影響と強く結びついています。この結果は、学習環境におけるランキングシステムに関する心理学の文献によって裏付けられている。私たちは、ゲーミフィケーションの指導者や専門家が、教育現場において、ゲームデザインの要素を避けることによって、これらの悪影響を回避するための指針として、この研究が有用であると確信しています。

2020-10-07

臨場感（≒sense of presence）の質問紙による測定手法などのメモ

Sense of Presenceの尺度関連論文
Social Presence関連

Sense of Presenceの尺度関連論文

VR系の研究だと、質問紙というか、f MRIとか、唾液調査とかの神経生理学的な調査をやっていたり、やや手間のかかるフェイクを交えた実験法を用いているという印象があるが……、質問紙調査のスタンダードなものについて、調べていくものとする。

無難に臨場感の訳語ということになっている、"sense of presence scale"　などで、検索すると、

下記の論文が質問紙としては、かなり参照数が高い。（5000越え）

Witmer, B. G., & Singer, M. J. (1998). Measuring presence in virtual environments: A presence questionnaire. Presence, 7(3), 225-240.　https://www.mitpressjournals.org/doi/pdf/10.1162/105474698565686

まあ、標準的に用いられているスケールなのだろうと思える被参照数。ここまで、メジャーだと、たぶん日本語圏でも訳されたものがあるだろうと、検索すると、下記の論文が見つかる。

吉井章人,中島達夫, 2014,エージェントにより擬人化された物体による説得の可能性に関する考察,HAI シンポジウム2014　http://hai-conference.net/proceedings/HAI2014/pdf/P-9.pdf

実際の質問紙もついており、参考にしやすいが、独自の指標も付け加えたとのことなので、「独自」部分についての評価は、ちょっとどうしたものかがわからない。

なお、VR系での臨場感概念についての議論を探すと、下記の論文が見つかる。

寺本渉, 吉田和博, 浅井暢子, 日高聡太, 行場次朗, & 鈴木陽一. (2010). 臨場感の素朴な理解 (< 特集> VR 心理学 4). 日本バーチャルリアリティ学会論文誌, 15(1), 7-16.

こちらでは、質問紙調査としては、以下のものを代表的なものとしている。

Slater，M．，Usoh，M and Steed A.: Depth of presence invirtual environments ; Presence：Tele−operatorsandVirtllalEnvironments，voL3，130−144（1994）https://www.researchgate.net/profile/Anthony_Steed2/publication/237129885_Depth_of_Presence_in_Immersive_Virtual_Environments/links/5829e4e308aef19cb80506ea.pdf
先述した、Witmer and Singer 1998https://www.mitpressjournals.org/doi/abs/10.1162/105474698565686?journalCode=pres
Lessiter, J., Freeman, J., Keogh, E., & Davidoff, J. (2001). A cross-media presence questionnaire: The ITC-Sense of Presence Inventory. Presence: Teleoperators & Virtual Environments, 10(3), 282-297.
http://research.gold.ac.uk/483/
Igroup Presence Questionnaire：Schubert, T., Friedmann, F., & Regenbrecht, H. (2001). The experience of presence: Factor analytic insights. Presence: Teleoperators & Virtual Environments, 10(3), 266-281.http://www.igroup.org/schubert/papers/schubert_regenbrecht_friedmann_presence01.pdf

寺本et.al. 2010の指摘は、最初に読むものとしては勉強になる記述が多い。

臨場感をいかに測定するかという問いに対して数多くの研究が行われてきた．そこでは，高臨場感創出要因が数多く見いだされ，様々な臨場感評価法が提案されている．たとえば，臨場感を生起させる要因は，外部要因（メディアやコンテンツ側要因）と内部要因（ユーザー側要因）に大きく分けられ［18］，外部要因には感覚情報の提示範囲，インタラクティブ性，ユーザーによる環境の変更可能性［16］やコンテンツの内容［10］，他者とのコミュニケーション可能性［22］等が含まれる．内部要因には，ユーザーの知覚・認知能力，運動能力，パーソナリティ，年齢，性別，観察時の気分が含まれる［18］［19］［21]

これまで刺激を受ける感覚モダリティが増加するほど，現実場面での我々の感覚経験に近づくため、臨場感は増幅すると考えられてきた［16］［24］［13］．たとえば，視覚だけでなく，聴覚［i］や自己受容感覚［18］を同時に刺激し，臨場感を増幅させようという試みがいくつも存在する，しかし，高臨場感の実現に関して，すべての感覚モダリティからの入力が寄与するのか，あるいは特定の感覚モダリティからの入力のみ（感覚モダリティ選択性）が寄与するのかについては，これまで明らかになっていない．また，複数の感覚モダリティからの過剰な入力は，臨場感体験場面において極度の感覚的・精神的疲労を生じさせる可能性も考えられる［13］．

なお、WitmerとSingerの論文は、1998はアクセスが有料なのだが、2005にリヴァイスされて因子分析をしているものは下記からアクセスできる。

https://stars.library.ucf.edu/cgi/viewcontent.cgi?article=6778&context=facultybib2000

下記の日本語論文、福森聡,2005のP24-P25の質問紙は、上記のWitmer and Singer 2005の問を翻訳して、調整している。

http://eprints.lib.okayama-u.ac.jp/files/public/5/53433/20160705100928600105/K0005151_fulltext.pdf

Sence of Presenceに、他者とのコミュニケーションが重要なのではないかという、指摘はよくわかる。下記の論文が該当論文とのこと。

Lombard, M., & Ditton, T. (1997). At the heart of it all: The concept of presence. Journal of computer-mediated communication, 3(2), JCMC321.https://onlinelibrary.wiley.com/doi/full/10.1111/j.1083-6101.1997.tb00072.x

この論文自体が何かを示しているというよりも、"Social Presence"についての議論を整理したりしている。だいぶ古い論文なので、ここから、数珠つなぎに、Social presenceについてのLiterature Reviewをしている文献を探したほうが良さそう。この論文を引用しているもの一覧

https://scholar.google.co.jp/scholar?cites=15419797789299899975&as_sdt=2005&sciodt=0,5&hl=ja

この中でも、たとえば、Sense of Presenceではなく、Social Presenceについての議論をまとめた、下記の論文などは面白そう。

Biocca, F., Harms, C., & Burgoon, J. K. (2003). Toward a more robust theory and measure of social presence: Review and suggested criteria. Presence: Teleoperators & virtual environments, 12(5), 456-480.　https://www.mitpressjournals.org/doi/pdfplus/10.1162/105474603322761270?casa_token=geJNUkWcNfEAAAAA:-gx6OOK0EAY7a6jGoo79PcB43HNjgYS-vmus-DM71ly2nZ1FydJ9dzsWx7I0mbeD3lE9dI_LSqTRKaQ

VR系の文脈でいくのかと思ったら、Social Presenceの定義の最初に引っ張り出されるのが、Goffman 1959。そして、Social Presenceの概念にも、そもそも、いくつかの側面があることを整理している。この論文の表１は面白いし、勉強になる。大きく、３つの領域を分けている。訳語は適当にわりふったが、まあ、ちゃんと調べたほうがよさそう。

Copresence: colocation, mutual awareness（共在、コロケーション、相互認知）
Psychological Involvement（心理的関与？）
Behavioral Engagement（振る舞いのエンゲージメント）

なお、表２も面白い。Social Presenceについての、自己申告系の質問紙調査での、尺度となっているものをいくつか紹介している。これも、大くくりの領域を定義している。

Perceived social richness of the medium（メディアのソーシャル・リッチネスの知覚？）
Involvement, Immediacy, or Intimacy（関与性、即応性、または親密性）
Social judgments of the other（他者の社会的判断）
Single or two item measures（シングルまたは2項目の測定）

最後の表３もよい。

ちなみに、Social Presenceについて、ビデオゲームのモチベーションの問題などを扱ったものもある。 Social Presenceについて扱った比較的新しい論文だと下記がある。

Osei-Frimpong, K., & McLean, G. (2018). Examining online social brand engagement: A social presence theory perspective. Technological Forecasting and Social Change, 128, 10-21.　https://www.sciencedirect.com/science/article/pii/S0040162517303724?casa_token=rqENPb9A_4wAAAAA:h033XO9We6wjVrpXc-At3ku2xcm4WQEEGELOCC5YMvXueggqHfkHUjKAuPckyxlxTxRF3HyISJPx

マーケティング系の話にいっているので、VRという感じとはちょっと違うが……。

2020-08-18

ゲーム系評論サイトの歴史（@日本語圏）をもうそろそろ書いてもいいのかもしれない。

佐倉葉ウェブ文化研究室の記述を読んでいて、思ったのだが、

websitemap.sakura.ne.jp

2000年前後ぐらいの、ゲーム系テキストサイトの歴史というのは、もうほとんど、みえなくなってる気がする。

「web ring」とか、「Read Me!」とかにみんな登録していた時代について語るのは、もう完全にインターネット老人会という感じになっていきているけれども、ジャンル別のテキストサイト史というのは、もうそろそろ、みんな記憶があいまいになりはじめているタイミングだと思う。

Critique of Gamesのゲーム評論サイトのリンク集とか、ずっとそのままにしてあるんだけれども、

www.critiqueofgames.net

ここらへんのサイトの位置付けとか、誰か主観で語ったりしてもいいのかもしれない。

もはや、みんなあんまり更新してないし、変な言及の仕方をして怒りとか、嫉妬とかそういうことが巻き起こるリスクとかも、そこまでではなくなってきてるとは思うんだとよね。

2020-08-10

売上,制作費,評価

下記、Anita Elberseが出している、映画の制作費と、興行収入の散布図だが、

toyokeizai.net

Adamsらが、メタデータと売上の相関で出しているデータも、似ている

www.eludamos.org

前者は、「金かけて作ったけどコケた映画」は沢山あるが、「金かけてないけど、すごくヒットした映画」は生まれにくいことを示唆している。
後者は、「隠れた名作」は頻繁にあっても、「売れすぎたクソゲー」みたいなものは、発生しにくい。
metacritiqueのmeta scoreや、制作費、User reviewなどを足し合わせたような変数をつくれば、概ね「作品のクオリティ」を示唆する変数として使えそうである。
一方で、Meta Scoreと、制作費の関係はどうなっているのだろうか？

Marc Busch, Elke Mattheiss, Rita Orji, Peter Fröhlich, Michael Lankes, and Manfred Tscheligi. 2016.

Nacke, L. E., Bateman, C., & Mandryk, R. L. (2014)

レビュー論文：Panadero, E., & Jonsson, A. (2013)

ルーブリックが生徒の成績向上をどう媒介するか？

影響する変数、ファクターについて

Reddy, Y. M., & Andrade, H. (2010)

妥当性と信頼性：Moskal, B. M., & Leydens, J. A. (2000).

効果実証：Andrade, H., & Du, Y. (2005)

レビュー論文：Panadero, E., & Romero, M. (2014).

自己評価（Self Assessment）

レビュー論文：Brookhart, S. M., & Chen, F. (2015).

定義

歴史

信頼性（reliability）の評価

妥当性 validityの評価

内容的妥当性（Content-related validity）

基準関連妥当性 Criterion-related validity

内的妥当性 Internal Validity

比較評価：Panadero, E., Alonso-Tapia, J., & Reche, E. (2013).

実践ガイド：Bonnie and Mullinix(2003)

実践ガイド：Rubric for Rubrics

批判的検討：Wilson, M. (2006)

安藤輝次, & アンドウテルツグ. (2008)

ルーブリックの文化差

個人的所感メモ

民主主義、倫理基準系

Sense of Presenceの尺度関連論文

Social Presence関連

レビュー論文：Panadero, E., & Jonsson, A. (2013)　

妥当性　validityの評価