シンポジウム「コーパスを使った教育・研究 サポートツールの開発」

「コーパスを使った教育・研究 サポートツールの開発」(研究成果合同発表シンポジウム)を2016年2月22日(月)13:00-17:00に関西大学(岩崎記念館4F)で開催します。ご興味のある方はぜひお越しください。

http://mizumot.com/lablog/wp-content/uploads/2016/01/5535b6f8644e6c87a7242b1b6f514ab5.pdf

[R] ggplot2の覚書

 

langtest.jp の ANOVA で ggplot2 を使ったグラフを描けるようにしたときに,

いろいろと面倒だったので,覚書としていくつか参考になったサイトへのリンクを。

r / sciplot: overlapping whiskers in lineplot.CI

ggplot の例

ggplot2についてちょっと勉強した(3) -themeを利用した外観の変更

ggplot2で全てのフォントを変えるオプション;めんどくさかった

Cookbook for R | Legends (ggplot2)

 

How to Write a Lot (Silvia, 2007)

Silvia, P. J. (2007). How to write a lot: A practical guide to productive academic writing. Washington, DC: American Psychological Association.

 APA の本紹介サイト

感動。

この本はどこで情報を仕入れて購入したのか覚えてなかったので,”A practical guide to productive academic writing” という副題から,よくありがちなアカデミック・ライティングの how to 本(精神論を含む)かと思って読み始めたのですが,面白過ぎて2日で読み切ってしまいました(全149ページの薄い本です)。

学術論文や研究助成申請書などを書かなければならない研究者や院生で,以下の項目に1つでも当てはまれば,この本を読む価値があると思います。

(1) 英語でも日本でも何か(論文・研究助成申請書など)を書くのがつらい。
(2) 書く時間がない。まとまった時間が取れたら書こうと思っている。
(3) 書く事に関しては才能がないと思っている。
(4) インスピレーションが湧かないと書きたくない。
(5) 書いていると書けなくなるスランプ(writer’s block)に陥る。
(6) 論文を投稿してリジェクトされるのがこわい。
(7) 家族や友人との時間,趣味の時間,睡眠時間を確保したい。

あまりに感動したので,詳細をブログにまとめようと思ったのですが,2007年出版の本で,しかもいろんなところで好評であることからも,以下のように日本語でも英語でも内容をまとめてくれているものが結構あります。

<日本語>

心理学者が教える少しの努力で大作を書く/多作になるためのウサギに勝つカメの方法 | 読書猿Classic: between / beyond readers

How to Write a Lot (いかにして多く書くか)| A Day in the Life

<英語>

内容のまとめ [pdf]

How to write a lot | The Thesis Whisperer

How to Write A Lot | PROF KRG

How to Write a Lot | Arunn Narasimhan

 

【いくつかメモ】

  • 書く作業が簡単なわけがない。誰でも精神的にしんどい。
  • 書くことは才能ではなくスキル。
  • 書く時間を意識的に取ることがすべて。
  • 書く時間を授業をしている時間と同じと考える。授業中は他人からの邪魔はされないのだから書く時間も同じであるべき。
  • その時間はもちろんインターネットにもつながない。必要なことは後からする。
  • 週4時間だけそのような時間を取るだけでも劇的に変化が起こる。
  • 分析や書くために読む作業もその時間帯にする。

 

「書く時間がない」というのは,こちらを思い出しました。

 

これまでは,出来る限り研究に時間を割くために,四六時中,何か研究に関することをしようとしていましたが,それでは,(モチベーションを掻き立てる小人が天から降りてくるのを待つことも多く)書く作業が後回しになってしまい,締切のあるものにしか優先順位をつけられず,かけた時間のわりにアウトプットが少ないというのが悩みでした。

しばらく,平日の授業のない時間帯に「書くことだけ(もしくはそれに関係のあることだけ)をする時間」を作って,どのような変化が起こるか試してみたいと思います。これまで10日程度試したところ,かなり満足できていますし,平日の夜や週末はできるだけ家族とすごす時間(家事含む)を,これまで以上に余裕を持って楽しめるようになってきたように思います。

ただし,今後は平日の「書く時間」に業者が研究室のドアをノックしたり,内線に何か連絡がかかってきても,授業と同じ時間帯ですから,私の「書く時間」を優先しますので悪しからず。(それはこれまで通りのような気もしますが…)

最後に,この本の著者による講演。

 

SPSSが入っていないMacでsavファイルを変換する方法

 

Mac を使うようになってから SPSS は入れてません。哲学的にその組み合わせは合わないと個人的に考えているので。

ただ,分析の相談でなぜか SPSS の sav 形式のファイルを送ってくる人もいるので,そのファイルを SPSS の入っていない Mac で読み込んで,Excel などで開く方法の備忘録です。

 

1. R を使う方法

R へのデータのインポート(scratch-R)や,「Rを使って,SPSSデータをcsvファイルに変換する方法」で紹介されている,foreign パッケージを使って変換しようとすると,日本語フィード名が入っているとエラーが出たので,memisc パッケージを使用。(参考

install.packages("memisc") # パッケージのインストール
library(memisc)
dat <- as.data.set(spss.system.file("filename.sav"))
head(dat) # 読み込んだデータの確認
write.csv(dat, file="filename.csv", quote=F, fileEncoding="CP932") 
# csv ファイルに書き出し。fileEncoding="CP932"で日本語文字化け回避。

 
2. PSPP を使う方法

PSPP は,SPSS に見た目がそっくりな統計解析ソフトウェアですが,無料で提供されており,さまざまな OS で使用できます。(ただし,PSPP でできる分析は,オプションを入れない IBM SPSS Statistics Base と同程度なので限定的です。)Wikipediaの説明

PSPP の開発プロジェクト (かつては “Fiasco” と呼ばれていた) は、SPSS のフリーなオープンソースの互換ソフトウェアを作り上げることを目的としている。SPSS のソースは公開されておらず、利用条件には厳しい制限とDRMが課せられているため、ライセンスを更新しなければ限られた期間だけしか使うことができない。それはおかしい、納得できない、とPSPP の開発者は考え、ライセンスの期限切れ以外は SPSS と同じ機能を持つソフトウェアを開発し、万人が共有、改良できるものにしたいと考えた。(Wikipedia より引用)

数年前に触ってみたときは,英語版しかなく動作も遅かったのですが,今回使ってみたところ,日本語化されていてサクッと動きました。

<手順>(参考PSPP for OS X を使用。

  1. sav ファイル(SPSS のファイル)を読み込む。
  2. ファイル >  新規作成  > シンタックスで,LIST. と大文字ピリオドつきで入力し実行する。
  3. 出力の画面で,ファイル >  書き出し で HTML(*.html) で保存。csv や txt で保存すると日本語が含まれている場合に文字化けする。
  4. 作成された HTML ファイルを開き,データをコピーし,Excel にペーストする。

 

MacR で,もっと楽に変換できることを期待してたりします…

 

「メタ分析評価のチェックリスト」と IRIS の紹介

 

Luke Plonsky (Northern Arizona University)  は,応用言語学系の国際ジャーナル 掲載論文のメタ分析を行ったり,論文中で使われている統計的手法について,過去の論文の傾向を探り,報告をどのように改善すべきかなどを提案しています。いくつかの論文の基となっている,Michigan State University の Dissertation [pdf] も公開されています。

その Plonsky が,以下の本の中で,”Replication, meta-analysis, and generalizability”という章を書いており,p. 127 には,”Proposed instrument for assessing reports of L2 meta-analyses” という,「メタ分析評価のチェックリスト」が提案されています。

Plonsky, L. (2012). Replication, meta-analysis, and generalizability. In G. Porte (Ed.), Replication research in applied linguistics (pp. 116-132). Cambridge: Cambridge University Press.

このチェックリストは,これまでの研究で使用されているテストや質問紙,その他の測定道具をリポジトリの形(もちろん無料)で公開している,IRIS (A digital repository of data collection instruments for research into second language learning and teaching) でもダウンロード可能です。

 

 

IRIS で公開されている測定道具は,クリエイティブ・コモンズの中でも,引用元を明記しリンクを提供すれば,ほとんどのものがすべて複製・配布・改変することが可能なライセンス(Attribution-NonCommercial-ShareAlike)になっていますので,以下でも “Proposed instrument for assessing reports of L2 meta-analyses” を紹介しておきます。

 

Proposed instrument for assessing reports of L2 meta-analyses

0 = No; 1 = Somewhat; 2 = Yes.

Introduction/Literature review

  1.  Does the review address a focused and clearly defined question?
  2. Are all (potential) moderator variables identified a priori and explained sufficiently?
  3. Is the relevance of the study, both theoretical and practical, presented?
  4. Are potential biases of primary and secondary researchers recognized?
  5. Are the different study designs explained with respect to their potential strengths and weaknesses?
  6. Are the different types of data collection instruments used in primary research explained?

Methods

  1. Was the search for relevant primary research reasonably exhaustive?
  2. Are the inclusion/exclusion criteria sufficiently explicit and unambiguous?
  3. Was the presence of publication bias assessed?
  4. Was interrater reliability for coding measured and adequate?
  5. Was the quality of primary studies assessed?
  6. Were effect sizes from the same sample/study dealt with appropriately?
  7. Were effect sizes weighted appropriately?
  8. Were missing data dealt with appropriately?
  9. Were outliers dealt with appropriately?
  10. Are all items on the coding sheet justified and available for inspection?

Results/Discussion

  1. Are the main (i.e., summary) findings presented?
  2. Does the review add new knowledge about the constructs of interest?
  3. Are the results interpreted and contextualized appropriately?
  4. Are the findings discussed in relation to the particular theory or model(s) being tested?
  5. Are practical implications discussed?
  6. Are the findings used to provide substantive and methodological suggestions for future research?

 

ちなみにですが,Mizumoto & Takeuchi (2009) で使用した質問紙も,IRIS で公開しています

IRISは追試(replication)や再現性ということを考えると,非常に素晴しい試みで,応用言語学の分野でもっと広がることを期待していますが,心理学では,さらに進んだ取り組みとして,データすべての公開までを求めているジャーナルもあり,最終的には,測定道具のみならず,ローデータの公開までするという方向に向かっていくのかもしれないと思っています。(分析の再現性といえば,R がいいですよね。

Rのはじめかた

 

量的な研究のお話をするときには,いつも再現性の確保のために,フリーでオープンソースの統計解析環境 R をお薦めしています。しかし,「Rは使ってみたいけど,どうやって始めればよいかわからない」というご意見をよく耳にします。

「Rなんてマニアックそうなのは自分には使えない。」というのが,まったく使ったことのない人が持つ印象かもしれません(私も10年ぐらい前まではそう思っていました)が,こちらの冒頭に書いてあるように,Rは現在,計算統計学におけるリンガ・フランカ(国際共通語)と考えられているため,量的な研究を行う研究者は使っておいて損はないと言えるでしょう。

Since its publication by Ihaka and Gentleman (1996), R (R Development Core Team 2012) has become a successful language for statistical computing and graphics. Today, it is often regarded as the lingua franca of computational statistics.

そこで,今回はRを触ったことがない人が,まず第一歩を踏み出すための資料をいくつか紹介したいと思います。

フリーでオープンソースであることもあり,R に関するわかりやすい資料はどんどんウェブで新しく出てきますが,2014年2月の段階で個人的にお薦めしたいオンライン上の資料は以下です。

 

書籍では,『Rによるやさしい統計学』(山田 剛史,杉澤 武俊,村井 潤一郎 / オーム社)が抜群にわかりやすいです。(Kindle版もあり)


外国語教育研究に興味がある研究者の方は,とりあえず R をインストールしてから,『外国語教育研究ハンドブック』のコンパニオン・ウェブサイトにRのコードがありますので,書籍を読み進めながらRを実行してみると,理解が深まると思います。

また,過去にこのブログでも紹介したのですが,Larson-Hall (2010) の R 版 は書籍自体がフリーでオンラインにあります。こちらは SLA 研究の実例データが多く含まれているので,SLA 研究者にはとても参考になると思います。

その他にも,心理学のほうでは,”Discovering Statistics Using SPSS” (最新版はIBMと入っているところに大人の事情がありそうだけどとてもわかりやすい本)の R 版 “Discovering Statistics Using R” もあります。

R自体は,SPSSのようにGUI (Graphical User Interface) があるわけではなく,コマンド入力をしなければならないというところが,その普及の大きな障害となっていますが,R Commander (Win/Mac)MacR (Macのみ) を使えば,GUIベースの統計解析ソフトのように直感的に分析を実行することも可能です。

実際,「道具は何でも構わない」というのが私のスタンスです。しかし,「再現性」ということを考えた場合には,どうしてもRが他の統計解析ソフトよりも上位に来ます。SPSSを使う場合も,再現性を重視する研究者の方はシンタックスをできるだけ用いるように心がければよいかと思います。

 

 

こういう学会は退会

 

所属する学会が多くなってくると整理する必要があるので備忘録。

  • ムダに権威的(つまりダサい)。
  • 何の研究をやっているのかわからない。
  • 新しい・楽しい研究は期待できない。
  • 研究者のコミュニティーとは言えない。
  • 院生・若手を育てようとしていない。
  • 学会誌がオンラインで公開されていない。
  • 長年,論文を書いていない人たちが査読をしている。
  • 会費がムダに高い。
  • 「研究と実践の橋渡し」とか「グローバル」とか,
    やろうとしていないのに急に言い出す。
  • 研究発表後の質疑応答ではご所属とお名前を名乗り,
    ご質問がご演説みたいになる。
  • (候補)ほとんどの人の研究発表のスライドの最後が
    「ご清聴ありがとうございました」。[参考]


 

メタ分析はすべきではない?

 

昨年10月に秋田で開催されたメソドロジー研究部会で,浦野研先生と亘理陽一先生による,「英語教育研究における追試(replication)の必要性」というタイトルの発表がありました。

浦野先生のブログで公開されている資料からもわかるとおり,発表の内容はとてもすばらしく,英語教育研究の分野で(メタ分析よりも先に)追試(replication)の必要性があるということをわかりやすくお話いただきました。

この発表で主張されていた内容にはほとんど賛成なのですが,2点ほど個人的に気になっている点(というか引っかかっている点)がありますので,すでに数ヶ月経ってしまっていますが,こちらに書いておきたいと思います。

まず1点目は,亘理先生がブログでも書かれている以下の点についてです。

指導方法や対象となっている文法項目があまりにも異なり,また十分網羅されているとは言えず,こうした研究をsynthesizeしても広くぼやけたことしか言えない(のでひとつにまとめるべきではない)というのが結論です。

前半部分は,メタ分析における分類が適切ではない(もしくはそもそもの研究数が足りない)ということですが,「分類が適切ではない」もしくは「十分網羅されていない」という結論を導き出したのが,メタ分析の論文 (Norris & Ortega, 2000) の再分析によるものですから,逆説的ですが,少なくともこの論文の存在意義はあると言えるのではないかと思います。

また,「分類が適切ではない」というのであれば,同じデータを用いて,再度,moderator variable(調整変数)のコード化を行い,メタ分析をし直せばよいのです。そのため,メタ分析ではそのような再分析が可能であるように,使用した論文や詳細が示されています。(実際,亘理先生はそのように再度コード化をしています。その moderator variable を使ったメタ分析はいつ見れるのか楽しみにしているところです。)

後半部分の「広くぼやけたことしか言えない(のでまとめるべきではない)」というところも,メタ分析の目的が「これまでの先行研究の全体像を示す」ということにあるのであれば,その目的にかなったメタ分析になります。広くぼやけたことでも,先行研究を統合することによって,先行研究で不足している点や,今後の研究での課題などが見えてくるはずです。

次に2点目ですが,浦野先生が主張されていた以下の点についてです。

突き詰めると、メタ分析を行うには、独立変数と従属変数のそれぞれで統制をおこなった研究のみを対象にしないと、いわゆる「統合」にならないと主張したと言えると思っています。. . . 「どんな言語項目・規則を対象にどのような指導を行ったのか」(=独立変数)と「学習者の知識をどのように測定したのか」(=従属変数)にばらつきがあると、メタ分析の結果、具体的な提案には至りません(Norris & Ortega, 2000もそう)。

この主張を行うために,浦野先生は,統制された実験を行いやすい医学系のメタ分析を比較対象として挙げていました。しかし,実際,メタ分析を行うには「統制された研究のみ」を対象にする必要があるのでしょうか?— それも「目的による」でしょう。浦野先生が主張されている「メタ分析とはこういうものだ」というのは,「純粋な」メタ分析のあるべき形ですが,必ずしもそういうものだけがメタ分析というわけではありません。

外国語教育研究ハンドブック』で印南洋先生が書かれているように,メタ分析は「先行研究での全体的な傾向や,研究間の不一致を調べる場合」(p. 227)にも用いられるべきなのです。(『教育・心理系研究のためのデータ分析入門』でも印南先生がメタ分析のわかりやすい解説をしてくれています。)

また,後半部分の「具体的な提案をする」ということについても,メタ分析の目的が「これまでの先行研究の全体像を示す」ということにあるのであれば,「具体的な提案」が目的とはならないはずです。このあたりの議論は,Borenstein et al. (2009) の Chapter 40: When Does it Make Sense to Perform a Meta-Analysis? [pdf] に解説があります。(Chapter 43: Criticism of Meta-Analysis [pdf] も参考になります。)

浦野先生と亘理先生の主張は,結局は「構成概念と操作的定義がはっきりしていないものについては,メタ分析をすべきではない」ということだと思いますが,私は上述の理由から全く逆の立場です。

目的に合ったメタ分析はどんどんしましょう。

一般的な研究論文の先行研究のレビュー(ナラティブ・レビュー)では,その論文に関連のある内容のみが取り上げられて,(紙面の都合や著者の不勉強にもよる場合もありますが)メタ分析のように包括的・系統的なレビューはできません。そのため,たとえ構成概念がごちゃ混ぜになったものであったとしても,メタ分析によって初めて先行研究の全体像や特に問題点が明らかになることも多いと言えます。また,論文著者や,浦野先生や亘理先生のような批判的な読者が,先行研究で不足している点や,今後の研究での課題を指摘することによって,その研究テーマが精緻化されていきます。

さらに,実際にメタ分析を行ってみて,メタ分析の考え方を理解することによって,1つ1つの研究結果は再現性に乏しい(特に p 値!)ということがわかれば,自分や他の研究者の行った研究結果に対する見方が変わりますし,なぜ 追試(replication)が必要かということも身をもって知ることができます。メタ分析は実際にしなくても,「メタ分析的思考」はこれからの研究者は必ず身につけるべきでしょう。

浦野先生と亘理先生のご発表内容,そして発表資料を見ただけでは,「メタ分析はすべきではない?」と思ってしまう人もいるかもしれませんので,私のような擁護派の意見もご参考にしていただき,それぞれの研究者が自分にとってメタ分析が必要かどうかを判断していただきたいと思います。

CentOSのRにsemPlotパッケージをインストール

 

 

Shiny を使い,SEM をオンライン上で実行できるこのWeb Application を作っていて,自分のサーバー(CentOS 6)に semPlot パッケージがインストールできなかったのをどうにか解決したのでメモ。

<症状>
semPlotを install.packages(“semPlot”)とやっても,最後に以下のようなエラーが出る。

dat <- Warning in install.packages :
installation of package ‘XML’ had non-zero exit status
ERROR: dependencies ‘jpeg’, ‘png’ are not available for package ‘qgraph’
* removing ‘/home/XXX/qgraph’
Warning in install.packages :
installation of package ‘qgraph’ had non-zero exit status
ERROR: dependencies ‘qgraph’, ‘XML’ are not available for package ‘semPlot’
* removing ‘/home/XXX/semPlot’
Warning in install.packages :
installation of package ‘semPlot’ had non-zero exit status

<原因>
“had non-zero exit status” でググってみると結構ヒットする。
その中で,特に以下の記事にヒントがあった。
「XMLパッケージのインストール」| My Life as a Mock Quant

CentOSだとインストールの方法が違うので,以下の記事を参考にインストール。
「yum経由でCentOSにlibxmlをインストールする方法」| Layer8

yum -y install libxml2-devel

続いて,jpeg と png もインストール。

yum -y install libjpeg-devel
yum -y install libpng-devel

これで,install.packages(“semPlot”) で,semPlotパッケージのインストールが無事成功。