富士山の気圧と東京の気温
前回は、二つの変数の散布図を描き、それらの変数の相関係数を計算した。これまで東京の2013年8月の日々の平均気温、最高気温、最低気温という小さなデータを扱ってきたが、ここで少し大きなデータを扱ってRの様子を調べた。その結果、小さなデータでは気が付かなかったR側とエクセル側の取扱い上の問題点に気が付いた。 相関係数は、 cor(Fuji.P2012,Tokyo.T2012) と打ち込むと、 [1] 0.8726579 が得られる。 plot(Fuji.P2013,Tokyo.T2013) と、打ち込むと、以下のグラフが描かれる。 相関係数は、 cor(Fuji.P2013,Tokyo.T2013) と打ち込むと、 [1] 0.8481117 が得られる。なお、このように一部の数字などのみが変化したコマンドを打ち込むときは、上向き矢印を使って、以前打ち込んだコマンドをコンソールに呼び出し、その一部を変更すると手間が省ける。 日付をデータ系列から外して、相関行列を求めると、次のような結果が得られた。 Fuji.P2012 Tokyo.T2012 Fuji.P2013 Tokyo.T2013 Fuji.P2012 1.0000000 0.8726579 0.7487514 0.8144523 Tokyo.T2012 0.8726579 1.0000000 0.8193896 0.9203631 Fuji.P2013 0.7487514 0.8193896 1.0000000 0.8481117 Tokyo.T2013 0.8144523 0.9203631 0.8481117 1.0000000 この結果は、個人的には面白く思っており、一番相関が高いのは東京の今年の気温と昨年の気温の間の関係であり(相関係数0.92)、一番相関が低いのは富士山の今年の気圧と昨年の気圧の関係である(相関係数0.75)。富士山の気圧と東京の気温との相関はその中間にあり、昨年の富士山の気圧と東京の気温との関係の相関が最も高く(相関係数0.87)、次いで今年の富士山の気圧と東京の気温との関係の相関が高い(相関係数0.85)。年度の異なる富士山の気圧と東京の気温との相関は相関係数が0.81から0.82であるが、それでも富士山の今年の気圧と昨年の気圧の相関係数よりは高い。このことから、富士山の気圧は年による変化は、東京の気温の年による変化より大きいといえる。 たった2年間の比較でそのようなことを言ってよいのかといわれそうである。そこで、1965年から2012年までのデータで検証することにした。その作業には思いのほか手こずった。それは、エクセルの表をテキスト形式にするところと、Rが計算した相関行列の表を整えるところだった。まず、エクセルがテキスト形式で保存するとき不具合が生じたり、欠測値があったりで手間がかかった。Rの相関行列は7列単位で出力され、縦に長い表となっていた。それをテキストコピーし、エクセルの上で表の体裁を整えた。作業を行った証拠として、得られた相関行列の一部を示す。 なお、富士山の測定値は、最近欠測値が多い。推定値を丁寧に求めれば、欠測値を減らすこともできるのだが、その作業を行わなかったため、2000年以降は欠測が目立つ。 この相関行列の対角線の片側について集計したところ、東京の気温同士の相関係数の平均は0.894、富士山の気圧と東京の気温の相関係数の平均は0.782、富士山の気圧同士の相関係数の平均は0.705となった。
今回は、少し量の多いデータを実際に入力し、散布図を描き、二つの変数の間の相関係数の計算、複数の変数行列から相関行列の計算法を学んだ。データの変換やRの計算結果の利用についてはさらに勉強する必要を感じた。なお、今回用いた2012年と2013年の10月までの富士山の気圧と東京の気温のテキストデーターはFuji-Tokyo2012-2013.txtに置いた。 |