CSV形式ファイルの読み込み
これまでテキストファイルをデータフレームに読み込んで作業を行ってきた。ところが、エクセルのデータからRにデータを移行する際に、この方法は必ずしも便利ではなかった。スペースがスキップすることもあった。そこで、今回はCSV形式のファイルを試す。データーとして1990年から2013年までの国内約150値点の気象庁の旧測候所の年平均気温のデータをエクセルで作成したものを用いた。このデータをエクセルでCSV形式にして保存した。
なお、この作業をエクセル2013で行ったところ、以前には感じなかった違和感を感じた。複数のシートがあるエクセルファイルで、特定のシートをCSV形式で保存しようとすると、以前は新たなCSVファイルが作成され、元のエクセルファイルに変更は生じないと考えていた。2013では、エクセルファイルのシート名がCSV形式のファイル名に変更されてしまうようだ。エクセルファイルを変更したくなければ、CSV形式としたいシートを新規作成したブックにコピーして、そのシートをCSV形式にして保管した方がよいようだ。
ここで用いたCSVファイルは、ウエッブに置いた。そのファイルを読みこむこととしよう。それには以下のように、read.csvを用いる。
Temp19701995<-read.csv("http://u4ren6.com/R/data/Temp19701995.csv",header=T,row.names=1)
ローカルのファイルを読み込む際は、ウインドウズではアルファベットのファイル名の大文字と小文字が区別されないが、urlを記述する際は大文字と小文字を正しく区別して使用しないとFile Not Foundのエラーが発生する。
row.names=1は、1列目が行の表題になっていることを指示している。
読みこんだデータは
Temp19701995
と打ち込むことで確かめられる。
このデータは1970年から1995年の26年間の国内の地方別年平均気温を表にしたものである。
地方として、「北海道」「東北」「関東」「島嶼」「甲信越」「東海北陸」「関西」「中国」「四国」「九州」「沖縄・奄美」の11地方に分けている。島嶼は、東京都の島嶼部である。
attach(Temp19701995)
として、
plot(北海道,東北)
と打ち込むと、以下の散布図が描かれる。
|
強い相関関係が認められるグラフが描かれた。すなわち、北海道の気温が高かった年は、東北の気温も高かったことが分かる。右上角にある飛び離れて気温が高いのは1990年である。相関係数を計算してみる。
cor(北海道,東北)
と入力すると、0.9240803と表示される。北海道の気温と東北の気温の間では、相関が高くて当然と思われるだろう。それでは地方が異なると、この関係はどれだけ低下するだろうか?それを見るために、
plot(北海道,沖縄奄美)
と入力した結果を下に示す。
相関関係がかなり悪くなったことが一目でわかる。1970年から1995年の間で、北海道で気温が一番高かったのは1990年であり、沖縄奄美では1991年と互いに異なる。
cor(北海道,沖縄)
と入力すると、0.558881と表示され、北海道と東北との相関係数よりだいぶ小さくなった。
(2014.12.15)
|