第18章 Rの分析環境
Rは統計用のプログラミング言語です。 他に、特に機械学習の分野ではPythonやJuliaも人気です。
- 政治学や経済学ではStataという統計ソフトも人気ですが有料という難点があります。
また、RStudioはRを便利に使うための統合開発環境 (IDE) です。 RStudio以外にもあるもののデファクトスタンダードになっている感はあります。
RStudioはあくまでRを使いやすくするためのもので、R本体ではありません。 なので、まずはRをインストールしてからRStudioをインストールします。
18.1 Rのインストール
18.1.1 ダウンロード
まずはRの公式サイトへ行き(右クリックで新しいタブで開くことができます)、download R
をクリックします。
次にダウンロードする際のミラーサイトを選びます。 好きな国のものを選んでいいですが、ここでは日本の統計数理研究所のものを選んでおきます。
自分のPCのOSに応じたものを選択します。
18.1.1.1 Windowsの場合
install R for the first time
を選択します。
Downlosd R X.X.X for YYY
を選択してダウンロードします。
分かりやすいようにダウンロードフォルダにダウンロードしておきます。
Windowsの場合、Rtoolsをインストールもインストールしておきましょう。
18.1.1.2 Macintoshの場合
18.1.2 インストール
Rをダウンロードしたフォルダを開き、ファイルをクリックします。
- ファイル名はOSによって異なります。
その後は表示されるままに進めていけばよいです。
Rは基本的にOSの言語で表示されますが、英語で使いたい場合はMessage Translations
のインストールにチェックが入っている場合は外しておきましょう。
- 英語のエラーメッセージで検索したほうが解決策が見つけやすくなります。
18.2 RStudioのインストール
18.2.1 ダウンロード
RStudioの公式サイトからRStudioのダウンロードサイトへ行きます。
下の方にインストーラーをダウンロードするリンクがあるのでOSに応じたものを選択します。
- 安定版ではないけれど最新のRStudioを使いたい人はRStudio Previewをインストールしてください。
- また、RやRStudioをインストールせずにオンラインで使用できるRStudio Cloudというものもあります。
18.2.2 インストール
あとはダウンロードしたフォルダに移り、インストーラーを起動して表示されるがままに進めていきます。
18.2.3 RStudioの起動
RStudioのショートカットをクリックしたり、メニューでRStudio
と入力してクリックすると起動するはずです。
RStudioを初めて起動すると次のような表示になるとはずです。
左側の大きなパネルでR
が表示されていればインストールの成功です。
ちなみに、Tools > Global Options > Appearance
ではフォントや背景・ハイライトの色を変えることができます。
ダークな背景を選択するとRStudio全体もダークテーマになります。
18.2.4 RStudio Cloud*
RStudio CLoudにより、RStudioをブラウザを使ってオンラインで使用することができます。 複数のユーザーで共同作業を行うことも可能です。
- LinuxユーザーはRStudio Serverを使って自らサーバを立てることもできます。
18.3 再現可能な分析のために
再現可能性 (replicability) とは、狭義では、誰がどんな環境で分析しても。オリジナルの分析結果と(ほぼ)同じものを得られることだと思っています。 以下では、再現可能性を担保できるようなR/RStudioの使い方を解説します。
18.3.1 Rスクリプト
まず、分析の手順を記録に残し、公開する必要があります。
RではRスクリプトと呼ばれるファイル(拡張子は.R
)を作成し、そこにコードを残して起きます。
- もちろん、使用したデータも公開する必要があるのは言うまでもありません。
18.3.1.1 Rスクリプトの作成
RStudioでは左上のFile > New File > RScript
もしくは白い紙に緑色のプラスマークのボタンを押してR Script
を選択します。
すると、デフォルトでは左上のパネルにRスクリプトのエディタが表示されます。
18.3.1.2 Rスクリプトの展開
RスクリプトをRStudioで開くには左上のFile > Open File
で選択します。
18.3.1.3 Rスクリプトの実行
Rスクリプトに書かれたコードはCtrl + Enter
を押すと、カーソルのある行がコンソールに流れ、実行されます。
18.3.2 Rプロジェクト
データの読み込みで解説したように、データの読み込みや保存の際には起点となる作業ディレクトリ (working directory) を決める必要があります。
一般的に、作業ディレクトリはPCによって変わってしまうので、Rプロジェクトを立てることでその問題を回避します。 簡単に言えば、Rプロジェクトをクリックすることで自動的に作業ディレクトリが設定された状態でRStudioを起動することができます。
また、プロジェクトごとにRStudioを起動できるので、異なるプロジェクト間でデータやRスクリプトが混在することも回避できます。
ひとまず、新しい分析を行う際は必ずRプロジェクトを作成するようにしましょう。
18.3.2.1 Rプロジェクトの作成
まずは、プロジェクトの作り方ですが、RStudioの左上の青いボタンをクリックします。
続いて、新たにプロジェクト用のフォルダを作るのであればNew Directory
を、既存のフォルダをプロジェクト用にするのであればExisting Directory
を選択します。
基本的にはNew Project
を選択します。
最後に、プロジェクト用のフォルダの名前とそのフォルダを置くフォルダのパスを指定してCreate Project
をクリックします。
- フォルダ名は必ず英数字と-や_で書き、日本語は避けましょう。
- 既存のフォルダを使う場合はパスを指定するだけです。
- 例えば今回は
Documents
フォルダの中にtest
という名前のプロジェクトを作成しました。
一度、RStudioを終了し、先程指定したパス通りの場所にフォルダができていることを確認してください。
そのフォルダの中に、プロジェクト名と同じ名前の.Rproj
ファイルができているはずです。
18.3.2.2 プロジェクトの起動
それをダブルクリックしてみるとRStudioが起動されます。 このとき、すでに作業ディレクトリはプロジェクト用フォルダに指定されているのです。
getwd()
で作業ディレクトリを確認してみて下さい。
18.3.2.3 ワークスペースの保存と再開*
どうしても一度分析を中断して、再開したい場合はワークスペースを保存しておきましょう。
上記画面でSave workflow to .RData on exit
がAsk
になっている場合、RStudioを終了する際にワークスペースを保存するのか聞かれるはずなので、保存します。
- ちなみに、
.RData
ファイルはRのワークスペース(の一部)を保存するデータ形式です。
すると、フォルダ内に.RData
ファイルができるので、再開するときにload()
に当該ファイルのパスを入力して実行するとワークスペースが復元されます。
18.3.3 RStudioの設定*
18.3.3.1 RStudio起動時の挙動
Tools > Global Options
を開き、Genral
の中で以下のチェックを外します。
平たく言うとRStudioを起動したときに前回の続きが残っていない真っさらな状態にしておきます。
18.3.3.2 文字コード
日本語がしばしば文字化けすることがあります。 なぜならWindowsではShift-JIS、LinuxとMacではUTF-8と呼ばれるエンコーディング(平たく言うとPCが文字を表示する方法)形式だからです。
- 詳しくはRにおける文字コードを参照して下さい。
UTF-8が世界的に使われているので、Code > Saving > Default text encoding
をUTF-8
にしておきます。
もし、日本語を含むファイルをRStudioで開いたときに文字化けしている場合、Windowsを使っている人はUTF-8のファイルをShift-JISで開いたということなので、File > Reopen with Encoding
でUTF-8
を選択します。
逆にMacの場合はShift-JISのファイルをUTF-8で開いているので同様にShift-JIS
で開きます。
- Windowsの人はUTF-8をデフォルトのエンコーディングにしてしまうといいでしょう。