Critique of Games メモと寸評

http://www.critiqueofgames.net の人のブログです。あんまり更新しません。

私の査読の書き方メモ(人文・社会科学)

 査読の書き方について書いている記事というのが、ネットを探してもあまり、情報量が多くないので、個人的にこころがけている程度のことを書いておく。

 特に、この書き方を守るべきだとか、そういうわけではない。個人的なメモ程度のものだと思ってお読みいただきたい。(なお、国際的なトップジャーナルの査読とかは、下記の基準とは全く違うだろうと思う。)

 

 

そもそも自分が査読を引き受けるかどうかを決めるポイント

・査読を引き受けるかどうかの判断は非常に重要。

・査読を依頼してきた編集委員の人が、適切でない査読者に割り振ることはよくあるので、査読を引き受ける際に、(1)自分が適切な査読者ではないと感じた場合、もしくは(2)示された期限内に査読を返すのが困難である場合は、なるべくすぐに査読を引き受けられない旨を伝えること。「捜査における初動がだいじ」みたいなところで、引き受けるかどうかの判断はとても重要。

・とはいえ、自分のジャストの分野そのものというより、「まあ、知らんわけではない分野」ぐらいの専門のお隣ぐらいの査読依頼が来ることも多い。その場合の基準として、「これだったらXXさんに査読してもらうのが良いのでは?」と思ったら、その誰かを推薦して、自分は辞退する。

・また、ダメ出しはできるが、方法論的に内容を良くするコメントをあまり思いつきそうにないときも、なるべく辞退する。

・「自分が査読するのが一番いいかどうかは正直わからないけど、じゃあ誰が推薦できるかというと難しいな………。まあ、自分が査読するのは、まあ、マシな選択肢の一つかもな……」と思えたら、査読を引き受ける

 

書く前に

・該当の論文誌の査読ポリシーを確認しておく。院生のゆるめの論文でOKなのか、それともキツめの線引きなのか。

・読みながら、気になったところは、ページ数、指摘等のコメントをまとめておく。(あとで、査読フォーマットの指定する項目別にコメントは振り分ける)

・正直、「再録可」「微細な修正の上再録」の論文は、査読コメントをあまり気にしなくてもよい。問題は「大幅な修正」と「リジェクト」である。

・「大幅な修正」にしたときに、査読者と執筆者の双方が地獄を見ることがある。特に、学際系の学会誌だと、査読者と執筆者の間にディシプリンの違いがある場合は、単純にうまくコミュニケーションがとれないことがある。そうなるとお互い地獄なので、なるべく丁寧に、早めにリジェクトをお送りするのが結局一番いいと思う。

 

<「リジェクト」と、「大幅な修正」の分水嶺

 リジェクト基準は「2回め以後のやりとりでこの論文を、なんとか著者と一緒にパスところまで、もっていくことができそうだと思えるかどうか」だと思う。

 より具体的にいえば、なんとかいけそうだと思える「大幅な修正」にあたるのは下記

  • データのとり方をちょっと直せばいけそう(ちょっと不安だけど……)
  • 分析手法を変えるなり、分析手法に誤解がある部分を修正してくれればいけそう
  • 結論と前提の主張を調整すれば、論文の骨格を変えなくても良さそう
  • 論理展開の微調整(脇の甘い箇所の論点を追加、補うといった程度。具体的に読むべきものの読むべき箇所が指定できるとなお良し)

 こういうレベルの話は「大幅な修正」の中ではかなりラクなほうだと思うし、まあ、いけるんじゃないかと思う。

 だが、次のようなのは、「2、3回目以後のやりとりでなんとかなる」ということがない可能性が高いと判断している。

  • 序盤の研究の基本設計からしてだめ →査読では面倒見きれないから、指導教官に頼って!としか言えない。リジェクト。
  • 前提となる理論がぜんぜん抑えられていない →少なくともあと半年はテーマを絞って勉強して!それから再投稿をたのむ!すまんがリジェクト。
  • 論文の重要な論理展開に致命的な問題が2点以上ある →片方がなんとかなっても、2点目以降が直るのはいつになるのか目処がつかない……指導教官に頼って!……ということでリジェクト。

<「大幅な修正」で引受けてよいと思えるライン>

  • 明確に論文として世に出すことの意義が明確なポイントが一つ以上ある。なんだったら、その他の問題となる箇所は全部削ってもらえば、論文としての形式が成り立つ。
  • 論文の全体的な内容から、研究者として明確に一定のトレーニングを受けているであることが推測され、具体的に指摘すれば、きちんと修正されたものが返ってくるであろうという期待がもてる。(論文のテーマや手法上、本来、期待されるべき専門性を見につけていない著者あるいは査読者の場合、査読コメントのやりとりで、トンチンカンな答えがかえってきがちなので、そういう人とやりとりするのは、お互いに疲弊しがち)
  • 2回め以後のやりとりで、致命的な箇所が直っているかどうかをきちんと議論できる明確な修正基準を、こちらから示すことができる。(基本的に、2回目以後の査読で条件の後付けはできないので。)

 

書くこと

1.まずは投稿者に対して感謝の念を述べる。

2.問題意識として共有できる点をのべ、そのほか、高く評価できる点を可能な限り述べる

3.問題点を具体的に指摘する。

 A.再録条件:確実に修正が必要と思われる点 ※でかいやつが2点も3点もあるようならリジェクト

 B.参考意見1:論争的なポイントなので、言及に注意を要する点 ※まあ、手を入れてもらったほうがいいだろうが、本人に強い意見があるなら、まあ放置でも可。 

 C.参考意見2:事務的な修正(書式、誤字脱字など) 

 

<大幅な修正>

  • 明確な修正基準を伝える。
  • 可能なら、「一緒に論文をよくしていけると嬉しいです」ぐらいの挨拶があってもよいように思う。
  • また、論文の「良い点」について、改めて強調する。

<リジェクト>

  • 明確なリジェクト理由。
  • 加えて、できれば、(あくまで参考意見として)「どのような研究活動つづけたら、論文として、評価可能なものに発展する可能性があるか」を伝える。
  • 論文(というか、問題意識)の「良い点」について、改めて強調する。

 

その他のポイント

  • 二回目の査読で大きな新しい論点の指摘は可能な限りすべきではない:特に「大幅な修正」をおねがいする場合が面倒なのだが、一回目の査読でクリティカルな大きなポイントは可能な限り「全て」指摘するようにこころがけたほうがよい。なぜなら、二回目以後の修正のタイミングで、大きな修正を指摘する場合、査読・修正のプロセスがどこまで続くのか先が見えない状態に陥る可能性があり、査読者・執筆者双方に関係性が悪化する可能性があるためである。その点を考慮すると、二回目以後の修正で新たな「大きな論点」が発生しそうな著者の場合は、リジェクトしたほうがよいというところはあるが、論文の根本的な書き直しを含めて、二回目でさらに新たな大きな指摘をせざるをえない可能性が高い場合は、一回目のコメントのなかで、その可能性があることを予め著者に伝えるという手もあるだろう(個人的には、そういうケースは、最初の段階でリジェクトしたほうがいいとは思う)。
  • 厳しくしすぎないポイント:私自身もそうだったのだが、「はじめての査読」をする場合、だいたいの場合、そこまで格の高いジャーナルでないことが多いと思う。しかし、博士課程を出たばかりの査読者に一般に言えることとして、かなり厳しめの査読をすることが多い(自分が厳しく言われてきたばかりだし、まあ仕方ない)。もちろん、ジャーナルによっては、ある程度ゆるくしても良いポイントというのがある場合が多い。たとえば、論文著者が「実証した」という強い主張をしているが、実際には「まあ、探索的研究としては、おもしろい議論かな」ぐらいの話は多い。そういった場合に、リジェクトをするのではなく、結論の主張を少し後退させてもらったりすることで、書き直してもらう方向にすることは多い。もちろん、ここらへんの基準はジャーナルによってそこそこ変わるので、それまでのジャーナルの掲載論文の方向性を見たり、論文の編集委員の先生に尋ねることで、確認すると良い。

参考

早川智. (2019). 査読の作法. 日大医学雑誌, 78(4), 207-211.

https://www.jstage.jst.go.jp/article/numa/78/4/78_207/_pdf

 

渡辺博芳、情報処理学会「査読を依頼されたら─より良い査読報告書の書き方─」

https://www.ipsj.or.jp/magazine/9faeag000000yx8j-att/6101ronbun.pdf

 

Chad Musick, PhD, and Caryn Jones「効果的な査読(ピア・レビュー)を行うには」ThinkSCIENCE株式会社|英文校正・学術論文翻訳

 

阿部幸大,2020,

アートとしての論文 人文系の院生が査読を通すためのドリル - Write off the grid. (hatenablog.com)

 

因果効果の推定は、創発的現象の機序の解明に寄与するのか?

学生と話していて、混乱を生みがちなポイントだと思ったので、メモ。

 

1.統計的にそれなりにきちんとした手続きを踏んで、因果効果が推定できることと、

2.創発的現象の機序を明らかにすること

 の間には、ダイレクトな関係はない。あたりまえだけれども。

 RCTなり何なりの話というのは、あくまで帰納的に因果効果を推定することであって、それは、創発的現象(ここでは、弱い創発主義的な立場を想定している)の機序を直接的にあきらかにするわけではない。それはRCTがいかに強い因果効果の推定をしえたとしても、機序の問題はやはり、理論的なモデルをたてないと無理である。

 

  • 「AとBが組み合わさった時に新しい性質Xが付与されるか」(創発)という説明と、
  • 「Aに対して、Bという介入があったときに、Aに変化Xが発生するか」(因果効果)という説明

 の2つの違いの話なので、正直、けっこう混乱を生む話だよな、とも思う。まあ、「変化X」が新しい特性として生まれるものなのか、それとも、単なる新たな特性の獲得ではない単なる「変化」なのか。

 

 参照先があれば、下記にメモする。

 

 

Kim の定式化(Kim 1999, pp. 20-22)

 

 

余談:

RCTといえば、ランダム化比較試験 RCT:Randomized Controlled Trialだろうと、思っていたが、ぐぐっていて気がついたが、合理的選択理論 Rational Choice TheoryもRCTなんだな……。

 

 

久保明教『機械カニバリズム』、東浩紀『哲学の誤配』

 

 

 どちらの本も、ゲームをめぐる議論がかなり全体の議論をめぐる骨格部分で重要なものとなっている。

 

1.

 久保,2018は基本的には、将棋の電脳戦について書かれた本である。つまみ読みをした範囲だと、理論的には、技術決定論と技術の社会的構成論を止揚するものとしてのサイボーグ論、みたいな議論に近いタイプの話のような印象をうける。大筋の議論も興味深いが、、特に第5章の「強さとは何か」は、個人的にもかなり関心と重なるところが大きい。(ただ、人類学内部の細かな議論は、正直なはなし、原典を読んでいないので、細かく検討する能力は私にはない)

 

  • きちんと読み込めていないだけかもしれないが、「技術決定論 vs 社会構成論」的な構図で話をしているのは若干気になった。たとえば、綾部(2006)などでは、社会構成論は、社会決定論とは言い切れず、中間的な側面があるよね、という話がされている。

 

ref:

綾部 広則, 技術の社会的構成とは何か, 赤門マネジメント・レビュー, 2006, 5 巻, 1 号, p. 1-18,

https://www.jstage.jst.go.jp/article/amr/5/1/5_050101/_article/-char/ja/

 

 

 東,2020は、特に後半で出てくるリオタールについの講演パートで、物語に関係する概念として「ゲーム」の概念を重要なものとしておいている。ここで言われているゲーム概念は、やや細かな検討を要する点もあるが、魅力的な問題提起がなされている。

 p149で、ゲームの成立のために「観客が必要」と論じているあたりは面白い。

 「観客」(の期待)みたいなものに重要性を見出すという場合、ここで言う「ゲーム」はある意味で、ショーとして機能しうるゲームなので、ゲームの中でもデジタルゲームのようなものとは、やや異なるタイプの「ゲーム」概念を前提にしていると見たほうが良さそうである。

 デジタルゲームの場合は、「審判」としてソースコードが機能して、文字通りの意味での「観客」は必ずしも必要ない(自分が「観客」を兼ねる)。デジタルゲームというのがすごかったことの一つは、桝山さんも言う通り「一人でできる」ことだった。観客というシステムから、切り離されてlaborに近いゲームを大量発生させることに成功したのが、デジタル化されたゲームであり、比較的、実現のしやすいゲーミフィケーションである(ref:uber eat)。

 本書を読みつつ、自動化された審判ではなく「観客」を必要とするゲームのことは、やはり別の呼び名が必要だろうという気がした。誰かがすでに名付けているかも知れないが、たとえば「ショーゲーム」とでも名付ければいいだろうか?二人遊びでも、審判でもなく、観客の期待によって続行することを期待されるようなゲームであり、観客とプレイヤーが相補的な関係にあるゲームというものをどこまで普遍化可能な「ゲーム」概念の内側に入り込ませることが可能かを考えてみたほうが良さそうだ。

 

 また、エコーチェンバーやフィルターバブルが小さな物語であって、ゲームではないという議論などは、魅力的な文だと思うが、論理構造はちょっと追えなかった。

 

 双方の本について、どこかで少し時間をつくってもう少し詰めた議論をしたいところだ。

 

 

 また、一応、備忘録的に書いておくと、ゲンロン vol.8と、ゲンロン vol.9の他に、ゲンロン vol.7でも実は、ゲームについての話がなされている。

 

 

 

 

尾原和啓,2020『ネットビジネス進化論』NHK出版

 

 尾原さんの新著。

 尾原さんの本を読むのは、『ITビジネスの原理』『アフターデジタル』につづいて三冊目。

 『ITビジネスの原理』と同じく、 なぜ、Googleのビジネスモデルが強いのか、といったようなある意味で、IT業界の関係者であれば、当然わかっているであろう内容を、(1)基本的なことからしっかりと (2)なるべくITビジネス全般を網羅的に 示そうとした、「ITビジネスの教科書」とも言える内容。前著よりも、内容がアップデートされると同時に、ページ数も増えている。

 実業の人の本なので、学者の書く本よりも、基本的にエピソードベースであり、わかりやすい内容。

 もっとも、学者的な観点から言えば、記述が柔らかすぎるという評価もありうる。たとえば、インターネットと経済というようなものであれば、実積寿也『通信産業の経済学』や、ジャン・ティロール『良き社会のための経済学』の第14章~16章あたりなど、しっかりとした学者による知見は徐々につみかさなっており、そういった本の方が、たとえば大学のテキストにするには向いている。ただ、、インターネット関連ビジネスの論点は経済・経営学的な議論もあれば、情報工学的なものまで拡がっているおり、学者が書こうとするとどうしても、一人の研究者が書ける内容ではなくなる。学者が書くと、この内容はどうしても複数人が手分けして書いた教科書のようなものにならざるを得ない。学者による教科書的な本のなかでしっかりと論じられている内容というのは、どうしてもトピックの網羅性という点だと、現場の第一線に近い人よりも論じられている内容のひろがりに限界があるという問題もある。

 そういったことを「現場の第一線に近いところにいる人が書いた教科書」というのは、単純に意義があるといっていい。

 インターネットのビジネスモデルの基本的なことをわかっていない人が最初に手に取る一冊としては、おすすめできる本だと思う。

 

 #上にも書いたが、この本を読んで、次にすすむべき、より学者めいた情報通信産業の教科書としては次の本がおすすめできると思う。

 

 

 

 

植原亮 2020,『思考力改善ドリル』:大学生向けの教科書として使いやすい内容。

ご恵投いただいた。感謝。

植原さんとは、関西大学総合情報学部に勤務していたときにお世話になり、何度かお話したが、哲学と認知科学の両方に興味がまたがっているという点で実は、けっこう興味がかぶる方だということがわかり、仲良くさせていただいた。

 

この本の中身は、哲学の本というよりは、タイトルのとおり、科学リテラシー育成のためのドリルという感じで、いわゆる「学問的な思考」みたいな頭の使い方をしたことがあまりないという学生向けに、考えてもらうとちょうど面白そうな問が、100問以上つまっており、研究の初歩みたいなことを考えてもらう上でも、役にたちそうな問がたくさんある。

 

 追記:この本の内容をnocobonみたいな感じにして学生に問いてもらえないだろうか?

 

 

Player Type Model

リチャートバートル的なものの、研究の積み重ね。

メモは随時更新。

 

Marc Busch, Elke Mattheiss, Rita Orji, Peter Fröhlich, Michael Lankes, and Manfred Tscheligi. 2016.

Marc Busch, Elke Mattheiss, Rita Orji, Peter Fröhlich, Michael Lankes, and Manfred Tscheligi. 2016. Player Type Models: Towards Empirical Validation. In Proceedings of the 2016 CHI Conference Extended Abstracts on Human Factors in Computing Systems (CHI EA '16). Association for Computing Machinery, New York, NY, USA, 1835–1841. DOI:https://doi.org/10.1145/2851581.2892399

 

下記、Richard Birtle的なゲームプレイヤーのモデルを質問紙と因子分析によって、4分類ではなく、6分類にしたもの。

(PDF) Player Type Models – Towards Empirical Validation | Rita Orji, Marc Busch, and Elke Mattheiss - Academia.edu

 

下記アブストの訳(DeepL)

BrainHexモデルのようなプレイヤータイプモデルは、デジタルゲームをプレイヤーの好みに合わせてパーソナライズするための人気のあるアプローチです。いくつかのプレイヤータイプモデルが開発され、現在ゲームデザインプロジェクトで使用されていますが、その妥当性に関するデータはまだ不足しています。この研究のギャップを埋めるために、現在進行中のプロジェクトでプレイヤータイプモデルBrainHexのサイコメトリック特性(因子構造、信頼性、安定性)と予測妥当性(プレイヤータイプスコアがプレイヤー体験を予測できるかどうか)を調査しています。2つのオンライン研究(n1=592, n2=243)の結果から、BrainHexモデルの心理測定特性が改善される可能性があることがわかりました. 今後の研究では、質問票の改良を提案し、予測の妥当性を調査することを提案します。

 

 

Nacke, L. E., Bateman, C., & Mandryk, R. L. (2014)

上記の論文で言われている「BrainHexモデル」の論文というのは、多分これのことか?

Nacke, L. E., Bateman, C., & Mandryk, R. L. (2014). BrainHex: A neurobiological gamer typology survey. Entertainment computing, 5(1), 55-62.

 

BrainHex: A neurobiological gamer typology survey - ScienceDirect

 

 

プレイヤーの7つの異なるタイプとして、下記の7つがあるとされている。

 

シーカー、サバイバー、デアデビルマスターマインド、征服者、社交家、達成者

Seeker, Survivor, Daredevil, Mastermind, Conqueror, Socialiser, and Achiever

 

 著者の一人のBatemanは、私も翻訳で解説(?)を少し書いている21st Century Game Designこと『 「ヒットする」のゲームデザイン』のクリス・ベイトマンさんである。なんだか、懐かしい名前に出会ったという気分。

ルーブリック関連論文メモ

 

 
下記、メモなので、随時編集しますので、ご了承下さい。
(言葉づかいなども含めて雑駁なメモとなっています)
 
注意 :訳文が貼り付けてあるところはほぼDeepL(+ときどき若干の修正)です。あまり、信用しないでください。
 
 

レビュー論文:Panadero, E., & Jonsson, A. (2013) 

Panadero, E., & Jonsson, A. (2013). The use of scoring rubrics for formative assessment purposes revisited: A review. Educational research review, 9, 129-144.
レビュー論文。かなり、よくまとまっており、最初にきちんと読み込むなら、この論文では?という感じ。
このレビューは、下記にも書かれているとおり、formative assessmentにおけるルーブリックの使用を特に取り上げているとのこと。
 
スコアリング・ルーブリックに関する研究の主流は、評価の総括的(Summative)な側面を強調してきたが、近年では、形成的(formative)な目的でのルーブリックの使用に注目がなされています。しかし、この研究は決定的なものではない。そこで本研究の目的は、ルーブリックが学生の学習にどのような影響を与えるのか、またどのように影響を与えるのかを調べるために、ルーブリックの形成的利用に関する研究をレビューすることである。ルーブリックに関する研究は全部で21件あり、内容分析を行った。サンプル、主題・課題、デザイン、手順、結果を、学生のパフォーマンスと自己調節への影響に関連して、異なる研究間で比較した。その結果、ルーブリックは学生の学習にポジティブな影響を与える可能性があるだけでなく、成績向上と自己調節を仲介するためのルーブリックの使用には、いくつかの異なる方法があることが示されました。ルーブリックを形式的に使用することの効果を緩和する要因と、さらなる調査が必要な要因がいくつか確認された。
 4.Resultの部分を簡単に要約しておく

ルーブリックが生徒の成績向上をどう媒介するか?

 
その上で、次のようにまとめている
1.透明性の向上:生徒からしたら、何をもとめられているのかがわかるようになる(成績照会時の証拠ということではない)
2.不安の軽減:課題についての不安が軽減される。自己調整学習の尺度をもちいても、ポジティブに評価されている。
3.フィードバックプロセスの補助:学生からも、教員からもフィードバックプロセスを支援するものとして講評
4.自己効力感の上昇が認められる(ただ、ここはちょっと要注意なので、後述)
5.自己調整型学習をサポートする:「自己調整型学習」は、学習の設計についての重要概念なので、別途調べていただきたいが、概ねポジティブな効果だとのこと
 
4.1.4の自己効力感の話は少し複雑。下記のように論じられている。
先行研究(Pajares, 2008)で示唆されているように、自己効力感のレベルが高い学生は、自己効力感のレベルが低い学生に比べてパフォーマンスが高い傾向にある。Andrade, Wang, Du, and Akawi (2009)の研究では、模範となる小論文から基準リストを作成し、ルーブリックを用いて下書きを自己評価することで、学生の自己効力感を向上させることが示されている。しかし、本研究では、パフォーマンスとの関係は調査されていない。
Panadero, 2011, Panadero et al. この研究では、自己効力感がルーブリックの使用に影響を与えていたが、3つの研究のうち1つだけであった。しかし、考えられる説明としては、van Dinther, Dochy, and Segers (2010)が示唆しているものがある。それは、学生が自分の進歩(または進歩の欠如)について現実的な意見を持つためには、自分のパフォーマンスに関する教師のフィードバックに直面する必要があるということである。
 
 

影響する変数、ファクターについて

(井上コメント:ルーブリックの効果についての厳密なRCT的なものはそこまできちんとしてないっぽい?)
 
・ルーブリックを使うところは、だいたい様々な学習メソッドをセットで取り入れていることが多いため、効果測定については、やや議論がある様子。自己評価や他のメタ認知活動と組み合わせれば、ルーブリックが成績向上を促進することを示唆するより実質的な証拠があるとのこと。
・ルーブリックを使う期間が短い(1期のみ)だと、その効果が認められる度合いが少ないとのこと。長期の使用(最低でも5期)においては、ルーブリックを用いた場合と用いない場合の差は明確に観察されるとのこと。
ジェンダーによる影響の差異が認められるとの論文もあるが、統計的に有意なレベルではないとの論文も多いとのこと
・ルーブリックの使用例は、だいたいが作文(writing)の授業。どのような作文のトピックでもルーブリックによる改善効果はあるとのこと。トピックによって効果がない、といったことはあまりみとめてれない様子。
 
 

Reddy, Y. M., & Andrade, H. (2010)

Reddy, Y. M., & Andrade, H. (2010). A review of rubric use in higher education. Assessment & evaluation in higher education, 35(4), 435-448.
 
レビュー論文。
以下、アブストラク
 
本稿では、高等教育レベルでのルーブリックの使用に関する実証研究を批判的にレビューし、文献のギャップを明らかにし、研究の必要性を提案する。高等教育におけるルーブリックの研究は、学生の学力向上、指導の改善、プログラムの評価など、様々な目的のために、幅広い分野で行われてきた。ルーブリックに対する学生の認識は一般的に肯定的であり、教員のルーブリック使用に対する肯定的な反応を報告している著者もいるが、教員がルーブリックを使用することに抵抗感を持つ傾向があることを指摘している著者もいる。2 つの研究では、ルーブリックの使用が学業成績の向上と関連していることが示唆されているが、1 つの研究ではそうではなかった。ルーブリックがコースやプログラムの改善の必要性を特定する可能性があることは実証されている。ルーブリックの妥当性に関する研究では、言語の明快さと適切さが中心的な関心事であることが示されている。評価者の信頼性に関する研究では、ルーブリックが学生のパフォーマンスの比較的一般的な解釈につながることが示されている。今後の研究への示唆としては、より厳密な研究方法の使用、妥当性と信頼性への関心、学習へのより緊密な焦点、多様な教育の文脈におけるルーブリックの使用に関する研究などが挙げられる。

 

このレビュー論文だけでかなり面白い。

 

  • ルーブリックの使用に関する研究が公表されている分野:リベラルアーツ情報リテラシー、医学、看護学経営学、歯学、食品技術、教師教育、映画技術などがある。
  • 対象とされている学生の成果物:コンセプトマップ、文献レビュー、反省文、参考文献、口頭発表、批判的思考、引用分析、ポートフォリオ、プロジェクト、口頭および書面によるコミュニケーション能力など

 

とのこと。

 

Green and Bowser (2006)によれば、

  • シェナンドウ大学(SU)で修士論文の文献レビュー用に開発されたルーブリックを、ベスト・プラクティス大学(BPU)の同様のプログラムでそのまま使用したところ、両機関の評価者の間で点数がけっこう異なったとのこと。(井上コメント:つまり同じルーブリックであっても使う場所がことなれば、ルーブリックの信頼性はブレるということ。)
  • このルーブリックが文献レビューや論文を締めくくる学生のために作られたものであるにもかかわらず、文献レビューを始めたばかりの学生の作品に適用されていたため妥当性の問題があったのだろうと。その後、ルーブリックはBPUで使用できるように修正されて使われたとのこと。
 
 

妥当性と信頼性:Moskal, B. M., & Leydens, J. A. (2000).

かなりよく引用されているっぽい、 Moskal & Leyden 2000。ルーブリックの妥当性と信頼性についての議論をしている。前に、私自身も書いた(ルーブリック表の導入に関する個人的所感メモ - Critique of Games メモと寸評)けど、やはり、ルーブリックを導入しはじめると、信頼性と妥当性について気になるところが多い。
 
 
Moskal, B. M., & Leydens, J. A. (2000). Scoring rubric development: Validity and reliability. Practical assessment, research, and evaluation, 7(1), 10.

https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1093&context=pare

表 1. 各タイプの妥当性の証拠を調べるための質問

内容
1. 評価基準は、余計な内容に対応しているか。
2. 採点基準の評価基準は、意図した内容のすべての側面に対応していますか?
3. タスクの中に、ルーブリックで評価すべき内容があるが、評価されていない内容がありますか?

構成
1. 意図した構成要素のすべての重要な側面が採点基準で評価されているか?
2. 評価基準のどれかが目的の構成要素と無関係であるか?

評価基準
1. スコアリング基準は、将来のパフォーマンスや関連するパフォーマンスでの成功を示唆するコンピテンシーをどのように反映していますか?
2. 評価尺度の使用によって評価される可能性のある、将来のパフォーマンスまたは関連するパフォーマンスの重要な構成要素は何ですか?
3. 採点基準は、将来または関連するパフォーマンスの重要な構成要素をどのように測定していますか?

 

結論部の前半

 

信頼性を確立することは、妥当性を確立するための前提条件である(Gay, 1987)。有効な評価は必然的に信頼性があるが、逆は真ではない。信頼性のある評価が必ずしも有効であるとは限りません。たとえば、採点基準が評価の目的に関係のない回答の要素に焦点を当てている場合など、採点ルーブリックは無効な解釈を引き起こす可能性があります。採点基準は、評価者が誰であるか、または応答がいつ採点されたかに関係なく、与えられた応答が同じスコアを受け取るように非常によく記述されているかもしれません。採点基準は、個々のパフォーマンス全体で見られる一般的な総合的な基準を記述したものであり、したがって、すべてのパフォーマンスの固有の特性を説明することはできません(Delandshere & Petrosky, 1998; Haswell & Wyche-Smith, 1994)。評価プロセスにおいて採点基準のみに依存している教師は、観察されたパフォーマンスと結果として得られるスコアの間に生じる矛盾に気づく可能性が低いかもしれません。

 

 

 

効果実証:Andrade, H., & Du, Y. (2005)

 

Andrade, H., & Du, Y. (2005). Student perspectives on rubric-referenced assessment. Practical Assessment, Research, and Evaluation, 10(1), 3.

 

次、比較的少人数のフォーカスグループでの調査

 

この研究では、学生がルーブリックを使って自分自身の学習とアカデミック・パフォーマンスをサポートしていることを示唆している。フォーカスグループでは、14人の学部生が、課題へのアプローチを計画し、自分の作品をチェックし、他の人からのフィードバックを指導したり反映させたりするためにルーブリックを使用した方法について議論しました。学生たちは、ルーブリックを使用することで、努力を集中させ、より質の高い作品を制作し、より良い成績を獲得し、課題に対する不安感を軽減することができたと述べています。

 

ここまではいいとして、

 

彼らのコメントはまた、ほとんどの学生がルーブリックの全体を読まない傾向があり、ルーブリックを特定の教師の要求を満たすためのツールとして認識している学生もいることを明らかにしました。

 

これは、そうだろう。

 

レビュー論文:Panadero, E., & Romero, M. (2014).

Panadero, E., & Romero, M. (2014). To rubric or not to rubric? The effects of self-assessment on self-regulation, performance and self-efficacy. Assessment in Education: Principles, Policy & Practice, 21(2), 133-148.
ルーブリックと、ルーブリック以外の学習手法との比較評価をしているもの。ルーブリック万能論的な論調には、ほどよく釘を刺すことのできるレビュー論文になっているという印象。Panaderoらのチームは、後述する実験でも、ルーブリックと自己調整型学習に関係する手法間の評価を行っており、学習手法全体をうまく目端をきかせて考えようという気概があって素晴らしい。
 
アブストから抜粋

The results showed that the rubric group reported higher learning strategies use, performance and accuracy.

ルーブリック群の方が学習戦略の使用、パフォーマンス、精度が高いことがわかりました。

However, the rubric group also reported more problems coping with stress and higher performance/avoidance self-regulation that was detrimental to learning.

しかし、ルーブリック群の方がストレスへの対処の問題が多く、学習に有害なパフォーマンス/回避の自己調節が高いことも報告されました。

 

まず、モニタリングと自己評価が、自律的な学習にとって重要であることを確認。

 

 

自己評価(Self Assessment)

自己評価が効果的であるための要件として、Andrade & Valtcheva, 2009, p. 13がひかれている。

効果的な自己評価を行うためには、学生は(Goodrich, 1996によると)自己評価の価値の認識、評価の基礎となる明確な基準へのアクセス、評価すべき特定の課題またはパフォーマンス、自己評価のモデル、自己評価の直接的な指示と援助、練習、自己評価することが適切なときに関する合図、課題またはパフォーマンスを修正し改善する機会を必要とする。

 

 トータルには、ルーブリックの効果自体はルーブリック以外のツールと比べてもポジティブにでているとのこと。

 

先行研究から抽出された提言としては、教室での自己評価を訓練するために、組織の特性や実施の特性そのものを考慮することが挙げられる(Schildkamp, Vanhoof, van Petegem, & Visscher, 2011)。先行研究からの提言としては、ルーブリックの使用による弊害を回避するために、自己評価のための十分な条件を備えたルーブリック(Andrade & Valtcheva, 2009)を添付することであろう。結論としては、基本的な条件が守られていれば、特に高等教育の学生にはルーブリックの使用が強く推奨されると考えられる。

 

 

 

レビュー論文:Brookhart, S. M., & Chen, F. (2015).

Brookhart, S. M., & Chen, F. (2015). The quality and effectiveness of descriptive rubrics. Educational Review, 67(3), 343-368.

2005-2013年の研究についてまとめたレビュー論文。ルーブリックには、formative(生成的)とsummative(総括的)があるが、この論文は両方の方向のものをとりあげているとのこと。ちなみに、formativeなものと、summativeなものの分類については、ベネッセのBEATなどを解説*1によれば、formativeなものが 「作り上げていく・進めていく過程で必要な評価」で、summative「一通りの流れが終わった後に、全体を通してどこが良かったか(悪かったか)を見るための評価」ということらしい。

 また、このレビュー論文は、概念運用についての批判などもある。自己調整型学習をめぐる概念の混同などについて批判がされている。

とくに、ルーブリックは、特定の条件が満たされていれば十分な質の情報を得ることができ、特に明確で焦点を絞った基準を持つことが重要であると指摘されている。

 

また、定義や歴史について、最初に確認があるのもよい。

 

定義

(ルーブリックは)基準とパフォーマンスレベルの記述の両方が存在している場合にのみ意味をなす(Andrade 2000; Jonsson and Svingby 2007)

 

歴史

ルーブリックは、生徒が事実や概念を応用することよりも、事実や概念を繰り返すことに長けていることを示唆する 1980 年代の研究への反応の一部として生まれたものである。その結果、成績評価(Lane and Tierney 2008)と標準ベースの改革(Brookhart 2013a)への関心が高まった。

要するに、知識の反復を前提とするテストのようなものとは別だよね、という確認だろう。

 

信頼性(reliability)の評価

ルーブリックが「信頼性」のしきい値を越えているといえるかどうかは、どの分野、目的の信頼性のしきい値を問題にするかによっても違うので、なんとも言えないところもあるが、もってくるしきい値によっては、信頼性の水準はしきい値を越えているとのこと。また、次の記述も重要。

基準とパフォーマンスレベルの記述が明確で焦点を当てられていて、評価者が訓練されている場合には、ルーブリックは信頼性の高い結果をもたらすか、あるいは少なくとも結果が得られることを示唆しています。

 


妥当性 validityの評価

ルーブリックの内容の出典(文献レビュー、学生の作品、コースの学習成果や基準など)の文書化や、ルーブリックの専門家によるレビューが挙げられているが、専門家はルーブリックを開発した教員と同じメンバーであることもあり……評価が難しい。

 

  • ルーブリックのスコアと、外部からの判断との相関関係でチェックするらしい
  • 自己または同僚がルーブリックを使用した際に、教師や指導者のスコアと一致していることが有効性として報告されている(Cho, Schunnn, and Wilson 2006; Sadler and Good 2006)。Schreiber, Paul, and Shibley (2012)
  • Kocakülah (2010) は、ニュートンの運動法則を用いた学生の問題解決力を評価するためのルーブリックについて、講師、同僚、および独立したコーダーのスコアに差がないことを発見。

 

内的妥当性 Internal Validity

 

ルーブリック内の基準間の関係の実証分析として、因子分析(Reznitskaya et al. 2009; Schreiber, Paul, and Shibley 2012)や尺度間の相関関係(Ciorba and Smith 2009)がもちいられている。

Reznitskayaら(2009)は、議論的推論をスコアリングするための分析基準を因子分析。彼らは、学生の論証能力を開発するための2つの異なる指導方法を比較したデータを再分析。因子スコアを使用した場合と、全体的(holistic)ルーブリックを使用した場合の結果を比較。2つの因子を用いた場合、処置の効果は論証力に統計的に有意な差をもたらした。しかし、全体的(holistic)スコアを用いた場合、処置の効果は有意ではなかった。研究者たちはこのことを、分析的ルーブリックが構成要素のより詳細な測定を提供したと解釈している。

 

holistic Rublicについては下記を参照

Types of Rubrics: Holistic and Analytic

比較評価:Panadero, E., Alonso-Tapia, J., & Reche, E. (2013).

Panadero, E., Alonso-Tapia, J., & Reche, E. (2013). Rubrics vs. self-assessment scripts effect on self-regulation, performance and self-efficacy in pre-service teachers. Studies in Educational Evaluation, 39(3), 125-132.

ルーブリックと、自己評価スクリプトの効果を比較・測定した論文.スクリプトというのは、何かというと

キューやプロンプトを含むスクリプトは、タスクを最初から最後まで実行するエキスパートモデルに応じて構造化された具体的なステップのセットである。ルーブリックと同様に、スクリプトもまた、自己調節と学習を促進するプラスの効果がある(例: Bannert, 2009, Peters and Kitsantas, 2010)。

スクリプトは主に実験的な環境で使用されてきましたが、実際の環境で実施された研究はごく少数です(例:Kramarski & Michalsky, 2010)。

 

とのこと。

  • スクリプト方式は、自己調整型学習に効いた
  • ルーブリック方式は、自己調整型学習にとってのネガティブなアクションを減少させた。
  • 自己効力感については、有意な差はみられなかった。

 

スクリプト方式との比較は、Panadero, E., Tapia, J. A., & Huertas, J. A. (2012). Rubrics and self-assessment scripts effects on self-regulation, learning and self-efficacy in secondary education. Learning and individual differences, 22(6), 806-813.でもやられている。

https://www.sciencedirect.com/science/article/pii/S1041608012000672

実践ガイド:Bonnie and Mullinix(2003)

ルーブリックのためのルーブリック。これは、ルーブリックについて学びたい人が参照するのには、非常によいのでは。

Bonnie and Mullinix(2003), Rubric for Assessing Rubrics, Monmouth University

https://www.asu.edu/courses/asu101/asuonline/temp/rubric_%20for_rubrics.pdf

 

メタ認知を促すなどといったことと、一緒にやるとよいといったことも、同時にガイドされており、個人的には、このルーブリック評価のルーブリックはけっこう納得感は高い。

 

実践ガイド:Rubric for Rubrics

 

https://www.mbaea.org/media/cms/RubricforRubrics_77EAE6205D215.pdf

 

 

批判的検討:Wilson, M. (2006)

Wilson, M. (2006). Rethinking rubrics in writing assessment. Portsmouth, NH: Heinemann.

 

下記で日本語の紹介がある。

[読書] 作文教育のルーブリック批判論、再訪。Maja Wilson, Rethinking Rubrics in Writing Assessment | あすこまっ!

 

Formativeな側面というよりも、特にSummativeな面についての批判だという感じか?

あと、総合性と個別性についてのトレードオフを考えたとき、ルーブリックのもっているパートごとの分解みたいなところが気に入らないという話は、わかる。

 

 あと、ルーブリックで採点しましょうとなったとき、多くの真面目な学生はルーブリックの評価項目を平均的に満たそうという行動に走りがちで、なんだか器用に評価基準には対応しているけれども面白みのない文章がしあがりがちだという側面もある。

 

安藤輝次, & アンドウテルツグ. (2008)

安藤輝次, & アンドウテルツグ. (2008). 一般的ルーブリックの必要性

日本語論文。

我が国にも、単元別ルーブリックだけではなく、一般的ルーブリックが必要なのではないか、という議論。

 

ルーブリックの文化差

ありそうなもんだが、さっと見つからない。 

 

個人的所感メモ

 


ルーブリックの導入をどう考えるかについてトレードオフがある。(下記は、必ずし先行研究にもとづいた記述ではなく、個人的な所感を多く含んでいる)


1.総合性と具体性についてのトレードオフ

  • 具体性を増やすべきだ派:複数人で採点をしたときのゆらぎを減らそうと思うと(=信頼性増加)、記述は具体的にならざるを得ない。しかし、具体性を増すことにやっきになりすぎると、「総合パフォーマンス評価」としてのルーブリックの意義が弱くなる。テストに近いものであるのならば、ルーブリックであることの意義は少なくなる。(おそらく、こちらのほうがマジョリティ)
  • 総合性を増やすべきだ派:ルーブリックはそもそも、テストによる単純化された評価へのアンチテーゼとして、総合的なパフォーマンス評価という文脈から、要請されている。簡単には測り難いものをあえて測るための基準であるのだから評価の信頼性(評価のブレの減少)のために、安易に言語化しがたいタイプの「総合性」をへらすべきではない。この総合性こそが評価の妥当性にとって重要なのではない。(Wilson, M. (2006)はこちらからの批判か?)
  • <井上の所感:案1 具体性と総合性野切り分け>具体性と、総合性を切りわけるべきではないだろうか?現在のルーブリックは、具体性と総合性のメゾ的なものになっているので、パフォーマンス改善によく機能するのだろう。しかし、総括的Summativeな評価としてのルーブリックは欺瞞に満ちている(これは「批評」について、少しでもかじっている人間であれば、概ね同意を得られるだろう)。ルーブリックは形成的 Formativeな評価システムとしてのみ洗練させ、Summativeな評価(真に妥当な評価)は、ルーブリックだけでは完結しないことを学習者に理解してもらう必要があるのではないだろうか?
  • <井上の所感:案2 具体性のモジュール化>あとは、いくつかの評価基準を提示して、学生に選んでもらうとかしかないのではないだろうかと思う。ここらへんは、engagementの議論とかぶる。

2.標準的カリキュラムと教員の個別的指導内容の魅力のトレードオフ

  • アドホックなルーブリックを作るべきだ派:学生自身がルーブリック作成に関わることで、学生に自己調整型学習を促進させることができるし、その場所ごとの適切な難易度設計もできる。
  • 標準ルーブリック共有派:どの教師が教えたとしても、同じ学習成果を約束するのが組織としての一つの理想である。標準的なカリキュラム整え、同一のルーブリックも学科内で共有し、採点者と、授業担当者は分離しているぐらいのほうが、教科内容の標準化を測ることができる。
  • <井上所感>科目内容や、学科の教育カリキュラムの全体像によるだろうなという印象。前者のほうが、個々人の学習のあり方としては理想だとは思うし、私の少ない知識の範囲では、アクティブラーニングとかやっている人が支持しそうなのは、おそらく前者なのではないだろうか。他方で、後者のほうが、いろいろなお役所的な「説明」はしやすいという感覚はあるし、組織論としては十分にアリだとは思う。組織文化によっては放っておいたら、後者のような感覚が強くでてくる組織はあるだろう。また、全体的なオペレーションは後者のようなケースのほうが、結果的に効率化されて、プラスマイナスで、学生へのトータルサービスとしては上昇するという可能性は棄却できない。オーダーメイド vs 標準化(+モジュール化)みたいな話なので、この話はけっこうエンドレスではあるが、技術経営論的な議論を参照するなら、標準化すべきレイヤーとオーダーメイドできるレイヤーの切り分けができればいいということになるだろう。どのようなレイヤーの切り分けが理想なのか、とういう議論は、だいぶ難しいパズルになるような気もするし、一般的なパレート最適解みたいなものがあるわけではなくて、個別の組織内での制度設計の状況によって、効率的な制度設計も違ってくるのだろう。


3.形成的評価と、総括的評価についてのトレードオフ

  • これは、総合性と具体性についてのトレードオフの話と基本的には似たような問題。総括的Summativeな評価として、ルーブリックのようなものが「正しい」ものなのだと、学習者が考えるというような事態は、知識のありようとして単純に間違っているといっていいだろう。
    あくまで、ルーブリックはパフォーマンスを改善するための、ツールとして位置づけられるべきだろう。これは、大学評価や、研究評価において「被引用件数」という代理指標がひとり歩きしてしまう状況に似たような問題を構成しうるだろう。

 

 

2023-02-21追記

国内文献についてのレビュー論文

 

福井,2023

大学におけるルーブリック開発に関する文献レビュー -実践的な評価手法を中心に-

トップページ - 横浜国立大学学術情報リポジトリ

 

*1:わかりにくいが、この解説は、山内祐平と北村智によるものということだろうか? https://fukutake.iii.u-tokyo.ac.jp/archives/beat/beating/035.html