[R] ggplot2の覚書

 

langtest.jp の ANOVA で ggplot2 を使ったグラフを描けるようにしたときに,

いろいろと面倒だったので,覚書としていくつか参考になったサイトへのリンクを。

r / sciplot: overlapping whiskers in lineplot.CI

ggplot の例

ggplot2についてちょっと勉強した(3) -themeを利用した外観の変更

ggplot2で全てのフォントを変えるオプション;めんどくさかった

Cookbook for R | Legends (ggplot2)

 

How to Write a Lot (Silvia, 2007)

Silvia, P. J. (2007). How to write a lot: A practical guide to productive academic writing. Washington, DC: American Psychological Association.

 APA の本紹介サイト

感動。

この本はどこで情報を仕入れて購入したのか覚えてなかったので,”A practical guide to productive academic writing” という副題から,よくありがちなアカデミック・ライティングの how to 本(精神論を含む)かと思って読み始めたのですが,面白過ぎて2日で読み切ってしまいました(全149ページの薄い本です)。

学術論文や研究助成申請書などを書かなければならない研究者や院生で,以下の項目に1つでも当てはまれば,この本を読む価値があると思います。

(1) 英語でも日本でも何か(論文・研究助成申請書など)を書くのがつらい。
(2) 書く時間がない。まとまった時間が取れたら書こうと思っている。
(3) 書く事に関しては才能がないと思っている。
(4) インスピレーションが湧かないと書きたくない。
(5) 書いていると書けなくなるスランプ(writer’s block)に陥る。
(6) 論文を投稿してリジェクトされるのがこわい。
(7) 家族や友人との時間,趣味の時間,睡眠時間を確保したい。

あまりに感動したので,詳細をブログにまとめようと思ったのですが,2007年出版の本で,しかもいろんなところで好評であることからも,以下のように日本語でも英語でも内容をまとめてくれているものが結構あります。

<日本語>

心理学者が教える少しの努力で大作を書く/多作になるためのウサギに勝つカメの方法 | 読書猿Classic: between / beyond readers

How to Write a Lot (いかにして多く書くか)| A Day in the Life

<英語>

内容のまとめ [pdf]

How to write a lot | The Thesis Whisperer

How to Write A Lot | PROF KRG

How to Write a Lot | Arunn Narasimhan

 

【いくつかメモ】

  • 書く作業が簡単なわけがない。誰でも精神的にしんどい。
  • 書くことは才能ではなくスキル。
  • 書く時間を意識的に取ることがすべて。
  • 書く時間を授業をしている時間と同じと考える。授業中は他人からの邪魔はされないのだから書く時間も同じであるべき。
  • その時間はもちろんインターネットにもつながない。必要なことは後からする。
  • 週4時間だけそのような時間を取るだけでも劇的に変化が起こる。
  • 分析や書くために読む作業もその時間帯にする。

 

「書く時間がない」というのは,こちらを思い出しました。

 

これまでは,出来る限り研究に時間を割くために,四六時中,何か研究に関することをしようとしていましたが,それでは,(モチベーションを掻き立てる小人が天から降りてくるのを待つことも多く)書く作業が後回しになってしまい,締切のあるものにしか優先順位をつけられず,かけた時間のわりにアウトプットが少ないというのが悩みでした。

しばらく,平日の授業のない時間帯に「書くことだけ(もしくはそれに関係のあることだけ)をする時間」を作って,どのような変化が起こるか試してみたいと思います。これまで10日程度試したところ,かなり満足できていますし,平日の夜や週末はできるだけ家族とすごす時間(家事含む)を,これまで以上に余裕を持って楽しめるようになってきたように思います。

ただし,今後は平日の「書く時間」に業者が研究室のドアをノックしたり,内線に何か連絡がかかってきても,授業と同じ時間帯ですから,私の「書く時間」を優先しますので悪しからず。(それはこれまで通りのような気もしますが…)

最後に,この本の著者による講演。

 

SPSSが入っていないMacでsavファイルを変換する方法

 

Mac を使うようになってから SPSS は入れてません。哲学的にその組み合わせは合わないと個人的に考えているので。

ただ,分析の相談でなぜか SPSS の sav 形式のファイルを送ってくる人もいるので,そのファイルを SPSS の入っていない Mac で読み込んで,Excel などで開く方法の備忘録です。

 

1. R を使う方法

R へのデータのインポート(scratch-R)や,「Rを使って,SPSSデータをcsvファイルに変換する方法」で紹介されている,foreign パッケージを使って変換しようとすると,日本語フィード名が入っているとエラーが出たので,memisc パッケージを使用。(参考

install.packages("memisc") # パッケージのインストール
library(memisc)
dat <- as.data.set(spss.system.file("filename.sav"))
head(dat) # 読み込んだデータの確認
write.csv(dat, file="filename.csv", quote=F, fileEncoding="CP932") 
# csv ファイルに書き出し。fileEncoding="CP932"で日本語文字化け回避。

 
2. PSPP を使う方法

PSPP は,SPSS に見た目がそっくりな統計解析ソフトウェアですが,無料で提供されており,さまざまな OS で使用できます。(ただし,PSPP でできる分析は,オプションを入れない IBM SPSS Statistics Base と同程度なので限定的です。)Wikipediaの説明

PSPP の開発プロジェクト (かつては “Fiasco” と呼ばれていた) は、SPSS のフリーなオープンソースの互換ソフトウェアを作り上げることを目的としている。SPSS のソースは公開されておらず、利用条件には厳しい制限とDRMが課せられているため、ライセンスを更新しなければ限られた期間だけしか使うことができない。それはおかしい、納得できない、とPSPP の開発者は考え、ライセンスの期限切れ以外は SPSS と同じ機能を持つソフトウェアを開発し、万人が共有、改良できるものにしたいと考えた。(Wikipedia より引用)

数年前に触ってみたときは,英語版しかなく動作も遅かったのですが,今回使ってみたところ,日本語化されていてサクッと動きました。

<手順>(参考PSPP for OS X を使用。

  1. sav ファイル(SPSS のファイル)を読み込む。
  2. ファイル >  新規作成  > シンタックスで,LIST. と大文字ピリオドつきで入力し実行する。
  3. 出力の画面で,ファイル >  書き出し で HTML(*.html) で保存。csv や txt で保存すると日本語が含まれている場合に文字化けする。
  4. 作成された HTML ファイルを開き,データをコピーし,Excel にペーストする。

 

MacR で,もっと楽に変換できることを期待してたりします…

 

「メタ分析評価のチェックリスト」と IRIS の紹介

 

Luke Plonsky (Northern Arizona University)  は,応用言語学系の国際ジャーナル 掲載論文のメタ分析を行ったり,論文中で使われている統計的手法について,過去の論文の傾向を探り,報告をどのように改善すべきかなどを提案しています。いくつかの論文の基となっている,Michigan State University の Dissertation [pdf] も公開されています。

その Plonsky が,以下の本の中で,”Replication, meta-analysis, and generalizability”という章を書いており,p. 127 には,”Proposed instrument for assessing reports of L2 meta-analyses” という,「メタ分析評価のチェックリスト」が提案されています。

Plonsky, L. (2012). Replication, meta-analysis, and generalizability. In G. Porte (Ed.), Replication research in applied linguistics (pp. 116-132). Cambridge: Cambridge University Press.

このチェックリストは,これまでの研究で使用されているテストや質問紙,その他の測定道具をリポジトリの形(もちろん無料)で公開している,IRIS (A digital repository of data collection instruments for research into second language learning and teaching) でもダウンロード可能です。

 

 

IRIS で公開されている測定道具は,クリエイティブ・コモンズの中でも,引用元を明記しリンクを提供すれば,ほとんどのものがすべて複製・配布・改変することが可能なライセンス(Attribution-NonCommercial-ShareAlike)になっていますので,以下でも “Proposed instrument for assessing reports of L2 meta-analyses” を紹介しておきます。

 

Proposed instrument for assessing reports of L2 meta-analyses

0 = No; 1 = Somewhat; 2 = Yes.

Introduction/Literature review

  1.  Does the review address a focused and clearly defined question?
  2. Are all (potential) moderator variables identified a priori and explained sufficiently?
  3. Is the relevance of the study, both theoretical and practical, presented?
  4. Are potential biases of primary and secondary researchers recognized?
  5. Are the different study designs explained with respect to their potential strengths and weaknesses?
  6. Are the different types of data collection instruments used in primary research explained?

Methods

  1. Was the search for relevant primary research reasonably exhaustive?
  2. Are the inclusion/exclusion criteria sufficiently explicit and unambiguous?
  3. Was the presence of publication bias assessed?
  4. Was interrater reliability for coding measured and adequate?
  5. Was the quality of primary studies assessed?
  6. Were effect sizes from the same sample/study dealt with appropriately?
  7. Were effect sizes weighted appropriately?
  8. Were missing data dealt with appropriately?
  9. Were outliers dealt with appropriately?
  10. Are all items on the coding sheet justified and available for inspection?

Results/Discussion

  1. Are the main (i.e., summary) findings presented?
  2. Does the review add new knowledge about the constructs of interest?
  3. Are the results interpreted and contextualized appropriately?
  4. Are the findings discussed in relation to the particular theory or model(s) being tested?
  5. Are practical implications discussed?
  6. Are the findings used to provide substantive and methodological suggestions for future research?

 

ちなみにですが,Mizumoto & Takeuchi (2009) で使用した質問紙も,IRIS で公開しています

IRISは追試(replication)や再現性ということを考えると,非常に素晴しい試みで,応用言語学の分野でもっと広がることを期待していますが,心理学では,さらに進んだ取り組みとして,データすべての公開までを求めているジャーナルもあり,最終的には,測定道具のみならず,ローデータの公開までするという方向に向かっていくのかもしれないと思っています。(分析の再現性といえば,R がいいですよね。

こういう学会は退会

 

所属する学会が多くなってくると整理する必要があるので備忘録。

  • ムダに権威的(つまりダサい)。
  • 何の研究をやっているのかわからない。
  • 新しい・楽しい研究は期待できない。
  • 研究者のコミュニティーとは言えない。
  • 院生・若手を育てようとしていない。
  • 学会誌がオンラインで公開されていない。
  • 長年,論文を書いていない人たちが査読をしている。
  • 会費がムダに高い。
  • 「研究と実践の橋渡し」とか「グローバル」とか,
    やろうとしていないのに急に言い出す。
  • 研究発表後の質疑応答ではご所属とお名前を名乗り,
    ご質問がご演説みたいになる。
  • (候補)ほとんどの人の研究発表のスライドの最後が
    「ご清聴ありがとうございました」。[参考]


 

英語論文を書くときに必要な道具2013夏

 

 

ここ最近使ってる「仕事道具」です。(※ちなみにMacの話をしています)

 

(1) LaTeX

何よりも書くことに集中できます。ただし,ファイルは pdf で出力されるので,投稿先も pdf で出せるところ限定になります。

 

(2) CasualConc

英語論文コーパスを自作してフレーズを確認しています。

 

(3) Mendeley

LaTeX(やWord)で参考文献を自動作成。普段は文献管理で使用しています。

 

(4) CrossRef Metadata Search

参考文献の詳細や doi がわからないときに使います。

 

(5) シソーラス

Macの標準搭載辞書のOxford American Writer’s Thesaurusを使っています。

 

(6) 新編英和活用大辞典

Mac 版アプリでたまにコロケーションの確認をします。

 

(7) Google (Scholar)

もろもろの検索と英語のフレーズチェックのために。

 

(8) 先行研究(論文のpdf)

引用はもちろんですが,研究者コミュニティーの academic writing でよく使われているフレーズは積極的に真似します。しかし,こちらの説明(pdf)にあるように,剽窃(plagiarism)にならないように「よく使われるフレーズ」でないものは引用が必要です。

Some English phrases are very common and will obviously show up in the writing of many different people. Plagiarism only arises when a string of words or thoughts is long enough that individual variations in expression are likely to occur.

※「よく使われるフレーズ」がどういうものかというのは,Hyland (2008) の論文などが参考になります。

 

(9) R

分析とグラフ作図はだいたいRを使っています。

 

(10) OmniGraffle

パス図などはこれで描いています。

 

(11) Keynote

Rのグラフ作図で物足りないときにヘルプで使っています。

 

(12) APA Publication Manual 6th

pdf 化していつでも検索できるようにしています。

 

(13) Twitter

論文を書き始めるときに閉じて,疲れたらたまに開きます。
なぜか執筆がだいぶ遅くなります。

 

すべてMac上で開いて使いますので,いくらモニターがあっても足りません。

 

 

RStudio Server のインストール(さくらVPS 編)

 

 

Rstudio をまだ使ってなかったときは,「別に R と機能が
変わるわけではないし,大きいモニターで作業するので
なければ,必要ないだろう。」と思っていましたが,
使い始めると便利で仕方ありません。

Rstudio の説明はこちらが参考になります。
Rstudio事始め

すべての情報が1つの画面上にあるというのが,どれほど便利か,
実際に使ってみるまで気づかなかったというのが本音です。

また,Rstudio では,R Markdown というものが使えて,
このようなものも作成することが可能です

最近は,論文でも supplementary material があって,ジャーナルの
サイトからダウンロードできることもありますが,このように R で
分析したものを,ローデータを含めて,コードですべてオンラインに
置いておけば,読者が再・追実験するときにそのまま使えるので,
再現性が担保されます。

また,「この分析どうやっているのだろう?」と思い,
ある分析方法を学びたいと思っている人たちも使えるので,
リサーチ・リテラシーを高める上でも,データとコードを
公開するのは良い方法だと思います。

 

少し話が逸れましたが,本編のお話を。

RStudio Server は,Rstudio のサーバー版で,つまりは
ブラウザ上で Rstudio を動かせるということです。

なぜ,自分の PC 上ではなく,わざわざブラウザ上で Rstudio を
動かしたいかというと,個人的には以下のような理由がありました。
(どれにも該当しない人は RStudio Server は必要ないと思います。)

  1. R が入っていない PC でも使える。(ただしRstudio Server はInternet Explorer はサポートしていない様子。)
  2. 授業やワークショップで R の使い方を紹介するとき,Rが 入っていない教室でも,インターネットがあれば使える。また,わざわざインストールから行う必要がない。
  3. iPad などのタブレットでも分析を行いたい。
  4. 自分のPCで処理すると RAM,CPU などに負荷がかかるのが嫌だ。

 

2012年7月ごろに,ちょっと RStudio Server を使ってみようと思い,
@yamcat2015 先生 のこの記事を参考にして,いろいろ私信で質問して,
サポートしてもらいながら,さくらのVPN(2G)に
なんとかインストールしてみました。

<その他参考にしたサイト>

CentOS6系にRStudioをインストールした。

CentOS 6.2 に R と RStudio Server をインストールする

Installing RStudio Server on Scientific Linux 6: My bash notebook

一般ユーザー作成方法(Linux初心者のためのLinux入門)

 

一度,設置してしまえば,ローカルで Rstudio を使うのと
同じように使えます。どこでも同じ環境で分析ができるのは
やっぱり便利です。

ただし,iPad で動かしてみると,

 Save workplace image to ~/.RData? [y/n/c]:

というので,y や n や c の入力がうまくできなかったりして,
「あまり使えない」というのが正直な感想でした。

元々,出張に iPad や iPad mini のみで出かけたときに,
Rstudio を使いたいというのが,もっとも大きな動機だった
こともあり,それができないというのはショックでした。

また,後期には大学院の授業もなく,R関連の
ワークショップも実施しなかったので,あまり使わずに
放置しており,使わない割にサーバーのレンタル(2G)に
年間1万6千円以上かかるため,結局,1年で解約することにしました。

 

 

シンポジウム『統計手法を用いたデータ分析とその解釈—何が必要でどう利用すべきか—』

 

2012年12月01日(土)外国語教育メディア学会(LET)
中部支部第80回支部研究大会でのシンポジウム
『統計手法を用いたデータ分析とその解釈—何が必要でどう利用すべきか—』にて,
「より好ましい統計解析と図示方法」というタイトルでお話をしました。

スライド,参考資料などのリンク,そして使用した R のコードを
こちらでは公開しています。

<キーワード>
リサンプリング,ブートストラップ,並べ替え検定,確率化検定,効果量,作図
resampling, bootstrap, permutation, randomization, effect size, visualization

 

スライド(サビ抜き)


分析や作図に使用した R のコード

 

参考資料などのリンク(スライド出現順)

 

大会中のつぶやきをまとめた togetter はこちら

 

 

 

Excelを使った統計解析とグラフ化入門

 

2012年11月24日(土)JACET関西支部秋季大会(プログラムpdf
でのワークショップ「Excelを使った統計解析とグラフ化入門」の
資料やリンクを公開します。WSの概要はこちら

 

演習用ファイル(ダウンロード)

(1) 記述統計と t 検定用ファイル
(2) 表と図作成用ファイル

 

説明スライド(サビ抜き)

 

Twitter での実況解説をこちらにまとめました
@ozapro18 さん,どうもありがとうございました。

JACET関西支部の”JACET Kansai Conference Report” 
でも,当日の様子が報告されています。

 

WS 中に紹介したサイトや書籍・論文,
参考になるサイトへのリンク(スライド出現順)