第18章 Rの分析環境

Rは統計用のプログラミング言語です。 他に、特に機械学習の分野ではPythonやJuliaも人気です。

  • 政治学や経済学ではStataという統計ソフトも人気ですが有料という難点があります。

また、RStudioはRを便利に使うための統合開発環境 (IDE) です。 RStudio以外にもあるもののデファクトスタンダードになっている感はあります。

RStudioはあくまでRを使いやすくするためのもので、R本体ではありません。 なので、まずはRをインストールしてからRStudioをインストールします。

18.1 Rのインストール

18.1.1 ダウンロード

まずはRの公式サイトへ行き(右クリックで新しいタブで開くことができます)、download Rをクリックします。

次にダウンロードする際のミラーサイトを選びます。 好きな国のものを選んでいいですが、ここでは日本の統計数理研究所のものを選んでおきます。

自分のPCのOSに応じたものを選択します。

18.1.1.1 Windowsの場合

install R for the first timeを選択します。

Downlosd R X.X.X for YYYを選択してダウンロードします。

分かりやすいようにダウンロードフォルダにダウンロードしておきます。

Windowsの場合、Rtoolsをインストールもインストールしておきましょう。

18.1.1.2 Macintoshの場合

18.1.2 インストール

Rをダウンロードしたフォルダを開き、ファイルをクリックします。

  • ファイル名はOSによって異なります。

その後は表示されるままに進めていけばよいです。

Rは基本的にOSの言語で表示されますが、英語で使いたい場合はMessage Translationsのインストールにチェックが入っている場合は外しておきましょう。

  • 英語のエラーメッセージで検索したほうが解決策が見つけやすくなります。

18.2 RStudioのインストール

18.2.1 ダウンロード

RStudioの公式サイトからRStudioのダウンロードサイトへ行きます。

下の方にインストーラーをダウンロードするリンクがあるのでOSに応じたものを選択します。

  • 安定版ではないけれど最新のRStudioを使いたい人はRStudio Previewをインストールしてください。
  • また、RやRStudioをインストールせずにオンラインで使用できるRStudio Cloudというものもあります。

18.2.2 インストール

あとはダウンロードしたフォルダに移り、インストーラーを起動して表示されるがままに進めていきます。

18.2.3 RStudioの起動

RStudioのショートカットをクリックしたり、メニューでRStudioと入力してクリックすると起動するはずです。

RStudioを初めて起動すると次のような表示になるとはずです。 左側の大きなパネルでRが表示されていればインストールの成功です。

ちなみに、Tools > Global Options > Appearanceではフォントや背景・ハイライトの色を変えることができます。

ダークな背景を選択するとRStudio全体もダークテーマになります。

18.2.4 RStudio Cloud*

RStudio CLoudにより、RStudioをブラウザを使ってオンラインで使用することができます。 複数のユーザーで共同作業を行うことも可能です。

  • LinuxユーザーはRStudio Serverを使って自らサーバを立てることもできます。

18.3 再現可能な分析のために

再現可能性 (replicability) とは、狭義では、誰がどんな環境で分析しても。オリジナルの分析結果と(ほぼ)同じものを得られることだと思っています。 以下では、再現可能性を担保できるようなR/RStudioの使い方を解説します。

18.3.1 Rスクリプト

まず、分析の手順を記録に残し、公開する必要があります。 RではRスクリプトと呼ばれるファイル(拡張子は.R)を作成し、そこにコードを残して起きます。

  • もちろん、使用したデータも公開する必要があるのは言うまでもありません。

18.3.1.1 Rスクリプトの作成

RStudioでは左上のFile > New File > RScriptもしくは白い紙に緑色のプラスマークのボタンを押してR Scriptを選択します。

すると、デフォルトでは左上のパネルにRスクリプトのエディタが表示されます。

18.3.1.2 Rスクリプトの展開

RスクリプトをRStudioで開くには左上のFile > Open Fileで選択します。

18.3.1.3 Rスクリプトの実行

Rスクリプトに書かれたコードはCtrl + Enterを押すと、カーソルのある行がコンソールに流れ、実行されます。

18.3.2 Rプロジェクト

データの読み込みで解説したように、データの読み込みや保存の際には起点となる作業ディレクトリ (working directory) を決める必要があります。

一般的に、作業ディレクトリはPCによって変わってしまうので、Rプロジェクトを立てることでその問題を回避します。 簡単に言えば、Rプロジェクトをクリックすることで自動的に作業ディレクトリが設定された状態でRStudioを起動することができます。

また、プロジェクトごとにRStudioを起動できるので、異なるプロジェクト間でデータやRスクリプトが混在することも回避できます。

ひとまず、新しい分析を行う際は必ずRプロジェクトを作成するようにしましょう。

18.3.2.1 Rプロジェクトの作成

まずは、プロジェクトの作り方ですが、RStudioの左上の青いボタンをクリックします。

続いて、新たにプロジェクト用のフォルダを作るのであればNew Directoryを、既存のフォルダをプロジェクト用にするのであればExisting Directoryを選択します。

基本的にはNew Projectを選択します。

最後に、プロジェクト用のフォルダの名前とそのフォルダを置くフォルダのパスを指定してCreate Projectをクリックします。

  • フォルダ名は必ず英数字と-や_で書き、日本語は避けましょう
  • 既存のフォルダを使う場合はパスを指定するだけです。

  • 例えば今回はDocumentsフォルダの中にtestという名前のプロジェクトを作成しました。

一度、RStudioを終了し、先程指定したパス通りの場所にフォルダができていることを確認してください。 そのフォルダの中に、プロジェクト名と同じ名前の.Rprojファイルができているはずです。

18.3.2.2 プロジェクトの起動

それをダブルクリックしてみるとRStudioが起動されます。 このとき、すでに作業ディレクトリはプロジェクト用フォルダに指定されているのです。

  • getwd()で作業ディレクトリを確認してみて下さい。

18.3.2.3 ワークスペースの保存と再開*

どうしても一度分析を中断して、再開したい場合はワークスペースを保存しておきましょう。 上記画面でSave workflow to .RData on exitAskになっている場合、RStudioを終了する際にワークスペースを保存するのか聞かれるはずなので、保存します。

  • ちなみに、.RDataファイルはRのワークスペース(の一部)を保存するデータ形式です。

すると、フォルダ内に.RDataファイルができるので、再開するときにload()に当該ファイルのパスを入力して実行するとワークスペースが復元されます。

18.3.3 RStudioの設定*

18.3.3.1 RStudio起動時の挙動

Tools > Global Optionsを開き、Genralの中で以下のチェックを外します。

平たく言うとRStudioを起動したときに前回の続きが残っていない真っさらな状態にしておきます。

18.3.3.2 文字コード

日本語がしばしば文字化けすることがあります。 なぜならWindowsではShift-JIS、LinuxとMacではUTF-8と呼ばれるエンコーディング(平たく言うとPCが文字を表示する方法)形式だからです。

UTF-8が世界的に使われているので、Code > Saving > Default text encodingUTF-8にしておきます。

もし、日本語を含むファイルをRStudioで開いたときに文字化けしている場合、Windowsを使っている人はUTF-8のファイルをShift-JISで開いたということなので、File > Reopen with EncodingUTF-8を選択します。

逆にMacの場合はShift-JISのファイルをUTF-8で開いているので同様にShift-JISで開きます。

  • Windowsの人はUTF-8をデフォルトのエンコーディングにしてしまうといいでしょう。