T_NAKAの阿房ブログ

アクセスカウンタ

zoom RSS 『統計ソフト「R」超入門 』 を読んだ

<<   作成日時 : 2018/03/08 00:01   >>

ナイス ブログ気持玉 1 / トラックバック 0 / コメント 4

先月、『統計ソフト「R」超入門 』というブルーバックスの新刊が出ていました。統計解析をするためにいろいろなソフトウェアツールがありますが、無償で一般性があるのはやはり「R」なんでしょうね。何年か前にちょっとやってみようと思っていたのですが、ダウンロードしただけで中々始められませんでした。コマンド入力とか、ちょっとやってられないと感じたからです。この本では「Rコマンダー」というパッケージを組み合わせたシステムでのデータ解析を示していて、GUIで処理できるようなので、読んでみることにしました。

下に目次を示しますが、初歩の統計分析の殆どのツールが提供されていると言って良いでしょう。
これで \1,382 なら、お得だと思います。
非常に簡単に操作できるので、出てきた結果は適切なのか?という不安がありますね。

ちょっと話がずれるのですが、小島寛之先生が「高校数学での統計学必修化は間違っている」とおっしゃってます。私も概ね賛成です。例えば有意差検定が理論的に何故正しいのかは、確かに説明は出来るんですが、それはあまりにも難しいです。
そういうことがちゃんと分からなくても、有意差検定をツールとして使うのは加減乗除とルートをとる位の計算で実行できますし、この「R」のようにデータセットを与えれば結果は出てきます。なので、統計ツールを使い熟すには、それが理論的に正しいか?より、どういう場合にどういう使い方をして結果をどう評価するか?という知識が必要です。これは定義から論理で定理を導出するような性格の数学ではなく、工学的な発想の学問でしょう。なので、これを数学として高校で教えると数学の得意な生徒は不満なんじゃないかと思います。どうも天下り的な説明が多いので、嫌気がさすと思うのです。例えば正規分布ですら、これに合致するデータが多いという説明でお茶を濁されることが多いのです。それが納得できないのに、 t 分布、カイ2乗分布、F分布なんかなんで出てくるのか?非常に不満がありました。このブログでは正規分布の導出過程を何度も書いてますが、そういう不満から来ています。

どうも統計学に私怨があって、だいぶ脱線しました。

この本に戻ると、講談社の特設ページにサンプルデータがUPされているので、それを使いながら読んでいきました。
第9章まではスラスラと頭に入っていきましたが、第10章の回帰分析はちょっと長くて時間が掛かりましたね。単回帰はさらっとしていて、重回帰分析について多くのページを割いていて、そこが少し分かり難かったです。
ただ、今、世の中で騒がれているビッグデータ分析の初歩的なツールとして重回帰分析は重要です。だからページ数が多いのは頷けます。
はっきり言って、第9章までの分析ツールは医学・薬学・生命科学系の実験分析には未だに有力ですが、ビッグデータ分析といわれているものにはあまり有効ではないと思います。
ただ、「R」超入門ということだと、第9章まで題材は有効かも知れませんね。私はその部分は楽しめました。
全体的な感じとして、この本は基本的なことを書いているので初期マニュアルとして手頃で良い本だと思いました。

欲をいうとビッグデータを解析するような多変量解析をRを使って実行する方法を書いて欲しかったですね。


【目次】---------------------------------------------------

 第T部 導入編

  第1章「R」ってなに?

  第2章 Rを使うための準備

   2.1 Rのインストール
   2.2 Rコマンダーのインストール

  第3章 Rコマンダーを使ってみよう

   3.1 Rのコマンダーの起動
   3.2 Rスクリプトでのコマンドによる操作
   3.3 パッケージ付属データの利用
   3.4 グラフの保存
   3.5 グラフの応用ソフトへの貼り付け
   3.6 RとRコマンダー

 第U部 実践編

  第4章 データ解析を始める前に

   4.1 使用するデータの内容
   4.2 変数の種類
   4.3 データ解析の流れ

  第5章 データの特徴を探る

   5.1 量的変数のグラフ表現
    5.1.1 インデックスプロット
    5.1.2 ドットプロット
    5.1.3 ドットチャート
    5.1.4 ヒストグラム
    5.1.5 密度推定
    5.1.6 幹葉表示
    5.1.7 箱ひげ図
    5.1.8 平均値プロット
    5.1.9 QQプロット
   5.2 質的データのグラフ表現
    5.2.1 棒グラフ
    5.2.2 円グラフ
    5.2.3 複数のグラフを並べて描画
   5.3 数値による要約
    5.3.1 すべての変数についての数値による要約
    5.3.2 量的データの数値による要約
    5.3.3 質的データの度数分布および適合性検定
   5.4 正規性の検定

  第6章 変数間の関係を探る

   6.1 複数の量的変数間の関連性
    6.1.1 散布図
    6.1.2 相関の検定
    6.1.3 散布図行列
    6.1.4 相関行列
    6.1.5 3次元散布図 鳥観図
   6.2 質的変数間の関連性
    6.2.1 2元分割表 2つの質的変数間の関連性
    6.2.2 多元分割表 3つ以上の質的変数間の関連性

  第7章 平均に関する推定と検定

   7.1 1標本における母平均に関する推測
    7.1.1 母平均の関する t 検定
    7.1.2 1標本ウィルコクソン検定
   7.2 独立な2標本における母平均に関する推測
    7.2.1 母平均の差に関する t 検定と区間推定
    7.2.2 2標本ウィルコクソン検定
   7.3 対応のある2標本における平均の差に関する推測
    7.3.1 対応のある2標本の t 検定と区間推定
    7.3.2 ウィルコクソンの符号付き順位検定

  第8章 分散に関する検定

   8.1 等分散性に関するF検定 2つの集団
   8.2 ルビーンの検定 3つ以上の集団

  第9章 分散分析

   9.1 1元配置分散分析
    9.1.1 1元配置分散分析 正規分布の場合
    9.1.2 クラスカル・ウィルコクソン検定
   9.2 多元配置分散分析

  第10章 回帰分析

   10.1 回帰モデルとは何か
   10.2 回帰モデルのあてはめ
    10.2.1 線形回帰 説明変数が量的変数のみの場合
    10.2.2 線形モデル 説明4変数が質的変数を含む場合
   10.3 モデル診断
    10.3.1 グラフによるモデル診断
    10.3.2 数値によるモデル診断
    10.3.3 複雑な線形モデルの回帰分析
   10.4 モデルの選択
    10.4.1 分散分析によるモデル比較
    10.4.2 AICによるモデル選択
   10.5 解析結果の保存

  第11章 比率に関する推定と検定

   11.1 1標本における比率に関する検定
   11.2 2標本における比率に関する検定

  第12章 ロジスティック回帰分析

   12.1 ロジスティクス回帰分析の考え方
   12.2 モデルのあてはめ
   12.3 モデル選択

 第U部 活用編

  第13章 データセットの準備

   13.1 データエディタによる作成
    13.1.1 グラフによるモデル診断
    13.3.2 数値によるモデル診断
    13.3.3 複雑な線形モデルの回帰分析
   13.2 データファイルからのインポート
    13.2.1 テキストファイルからのインポート
    13.2.2 エクセルファイルからのインポート
    13.2.3 クリップボードからのインポート
   13.3 データセットの保存と読み込み
    13.3.1 データセットの保存
    13.3.2 データセットの読み込み
   13.4 データセットのエクスポート 

  第14章 変数およびデータの管理

   14.1 新しい変数の計算
   14.2 因子の管理
    14.2.1 変数の再コード化
    14.2.2 数値変数を因子に変換ト
    14.2.3 因子水準の順序を変更
    14.2.4 利用されていない因子の削除
   14.3 変数の標準化
   14.4 データセットの管理
    14.4.1 変数名の変更
    14.4.2 変数をデータセットから削除
    14.4.3 データセットの併合
   14.5 アクティブデータセットの扱い
    14.5.1 アクティブデータセットの指定
    14.5.2 ケースの削除
    14.5.3 欠陥値のあるケースの除外
    14.5.4 アクティブデータセットの部分集合の抽出

 付録
  Rマークダウン機能について
  有用な演算子一覧表
  有用な関数一覧表
  統計用語集

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 1
ナイス

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(4件)

内 容 ニックネーム/日時
面白そうな本ですね。私も読んで試してみようと思います。高校数学の移行処置については、私も同様な意見で、自分の掲示板で苦言を呈させていただきました。良かったら読んでみてください。(^^)
http://amonphys.web.fc2.com/
あもん
2018/03/08 05:52
あもんさん、掲示板を拝読させていただきました。全く同感ですね。私は高専・電気工学科卒なので、普通高校数学よりは少し上ぐらいのものは習っていました。一応、一変数複素関数論も齧っていて、留数定理までは学習していますが、解析接続となると習ったのか?というとスルーされたようですね(こんなこと習ったら忘れるはずないですから、、)。そういう中で、統計学も応用数学の一部として習いましたが、どうも好きになれませんでした。やっていることは加減乗除とルートをとるだけで、数表を見て有意かどうかを判断したり、推定区間幅を計算するだけです。調査解析するデータそのものに興味がないと本当に面白くないですよね。こういう解析テクニックは使ってないとすぐ忘れるので、高校で教えても意味があるのか?多いに疑問ではあります。どうしても統計学をカリキュラムに入れたいのなら、社会科目(例えば現代社会)、理科科目(例えば生物)のなかでエピソード的に教えるのが良いかと思います。普通科以外なら、品質管理とかいろいろと工夫できると思いますね。
T_NAKA
2018/03/08 09:50
「統計」は数学以外の科目に入れるべきというのは、私もまったく同意見です。「コンピューター」の科目に移行するのが良いかもしれませんね。高校生には Excel と VBA をいじらせるのが実践的でしょう。文系でも Excel やこれに類似したソフトを将来使う可能性は高いですしね。その延長で「統計」を教えれば良いと思います。
また、普通高校では文系・理系の選択を行う必要があるので、2年間の間に各科目が学問的にどういうものであるかをできるだけ簡単に紹介する必要があるように思います。そういう意味ではオイラーの式に到達せずたいした有難みも感じず中途半端に終わる「複素数平面」よりは、「行列・一次変換」を教えた方が適切であると、私は思うわけです。
あもん
2018/03/12 09:29
いっそのこと、理科科目として「統計学基礎」なんていうのを作ったらいいのかも知れません。平均・分散・標準偏差ぐらいは常識として知っておいた方がいいでしょうし。。
T_NAKA
2018/03/12 13:16

コメントする help

ニックネーム
本 文
『統計ソフト「R」超入門 』 を読んだ T_NAKAの阿房ブログ/BIGLOBEウェブリブログ
文字サイズ:       閉じる