統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。

 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。

 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使っている。Rに対する多大な貢献のため、ユーザーの間で「神」とあがめられている。

 日経ビジネスは2019年1月7日号で「会社とは何か」という特集を組んだ。特集では様々な角度から会社の役割の変化を論じているが、その中に社会課題を解決するために、自身のナレッジや経験を惜しみなく投入する“新人類”についても触れている。ウィッカム氏もそんな新人類の一人だ。なぜRの開発にボランティアでか変わったのか。ウィッカム氏に話を聞いた。

ウィッカムさんはいつからRの開発に関わり始めたのでしょうか。

ハドリー・ウィッカム氏(以下、ウィッカム):16~17年前に始めたので2002年だと思います。当時、私はニュージーランドのオークランド大学医学部で勉強していたのですが、医者にはなりたくないと思い、統計学とコンピューターサイエンスに専攻を移したんです。その授業中にRの存在を知りました。

統計言語 「R」を基にした数々の人気パッケージ開発に貢献したハドリー・ウィッカム氏(写真:Misun photography)
統計言語 「R」を基にした数々の人気パッケージ開発に貢献したハドリー・ウィッカム氏(写真:Misun photography)

10年間、数千時間をコード書きに費やした

Rは、カナダのウォータールー大学の教授だったロバート・ジェントルマン氏がオークランド大学で短期間、教えていた時に、統計学の教授だったロス・イハカ氏と出会い生まれたと聞いています。

ウィッカム:そうです。オークランド大学がRの発祥の地です。

ウィッカムさんはdplyrやggplot2など、現在のRに欠かせないパッケージを作りました。でも、Rはオープンソース・ソフトウェアなので無償です。なぜボランティアでRの開発に取り組んだのでしょうか。

ウィッカム:今はRstudioで給料をもらっているので状況は変わっていますが、学生だった当時は世界に対する影響力、さらに他の人々の手助けができるという点でオープンソースに夢中になりました。データ分析という面でRは素晴らしい技術です。それが無料で使えるというのも素晴らしいことです。ただ、少し専門的だったので、いろいろなことをもっと簡単に実行できるようにして、社会に恩返しをしたいと思ったんです。

開発の経緯は?

ウィッカム:そもそもは博士号を取るための研究の一部でした。完全な個人プロジェクトです。博士課程にいた時に、他の学生のデータ分析を手伝っていました。その時に、ほとんどの問題はデータを正しい形に整理して扱いやすくするところにあると気づいたんです。それで、そういうツールを作ろうと。投下した時間ははっきり分かりませんが、博士課程の時や米ライス大学の助教の時を含め、およそ10年間、ほとんどの時間をRのコードを書くことに費やしてきました。数千時間は使っていると思います。

 正直に言って、プログラミングの時にはフラストレーションを感じたり、イライラしたりすることもあります。でも、私のソフトウェアが役に立ったとか、生活を楽にしてくれたとか、わざわざ連絡してきてくれる人が大勢います。そういう声を聞くと、これからも頑張ろうという気になる。他の人に貢献できていることに、個人的な楽しみを感じています。

世界で数百万人が使うパッケージに

ウィッカムさんのコードは文章を読むかのように理解できると評判です。

ウィッカム:ggplot2は可視化を実行するために設計しました。グラフィックスの作成です。dplyrはデータ操作のためのパッケージ。データの集計やグループ分け、並べ替えなどの操作が可能になります。

 両者に共通しているのはデータを扱うために言語や文法を定義しているところです。目標はできるだけはっきり、簡単にコードで表現すること。どちらもプロブラマーでない人でもコードを書くことができます。それを理解するために専門家になる必要もない。文章のようにコードを読み、もっと改善できるところを指摘し、そのコードを考えてシェアしていくことができるように設計しました。他の人が何を理解しにくいと思うか、という心理的なことも考えて書いています。みんなに覚えてもらえるよう名前もこだわっています。

実際、かなりの人々がウィッカムさんのパッケージを使っています。

ウィッカム:ggplot2を作った時は、将来的に1000人ぐらいの人が使ってくれたらいいな、と思っていたのを覚えています。今では数百万人が使っています。

Rはコンピューター・サイエンティストや統計家だけでなく、生命科学や自然科学など幅広い専門家が使っています。それも、Rとウィッカムさんのパッケージが使いやすいからだと思います。

ウィッカム:確かに、Rは他のものより使いやすいかもしれません。ただ、使いやすさでいえば、IBMのSPSSやStataのような統計解析ソフトがあります。その中でRが伸びているのは、人々の集めているデータがより大きくなり、複雑化しているのが理由の一つだと思います。あらかじめ用意されているような分析ツールには頼り切れなくなったということです。その点、Rは誰も試したことのないようなことを試す柔軟性がありますので。

 ご指摘の通り、Rを使っている人は以前と比べて多様性が増しています。私より年上のエンジニアでRを使っている人はきっと統計学が得意な人でしょう。ただ、最近はより純粋なソフトウェアエンジニア、あるいは生命科学の研究者やジャーナリストが増えていると思います。ジャーナリストはデータの中で何が起きているのかを理解するためにRを学んでいます。統計的なものを学んでこなかった人々に対して、われわれがどのような手助けができるか。そこが重要なところだと思っています。

「他の人に貢献できていることに、個人的な楽しみを感じる」と語るウィッカム氏(写真:Misun photography)
「他の人に貢献できていることに、個人的な楽しみを感じる」と語るウィッカム氏(写真:Misun photography)

無償でコードを書くのは今や当たり前

オープンソース・コミュニティの良さは?

ウィッカム:ある問題に取り組んでいるのが自分ひとりということはほとんどないでしょう。コードの問題で何か解決しようとしていることがあれば、同じ問題に取り組んでいる人が絶対に他にいます。最初は自分で取り組まなければならないかもしれませんが、後は他の人がコードを改善し、貢献してくれる。運がよければ、自分が書いたものよりもっとうまく解決してくれるかもしれません。こうした恩恵はオープンだからこそ得られるものです。

 もっとも、今でこそ無償でコードを書き、共有するのは今や当たり前ですが、20年前はあまり普及していませんでした。そんなことをするのはおかしいという感じだったと思います。時代はだいぶ変わりました。

 Rコミュニティでのやりとりの中で努力してきたことの一つは、できるだけ入ってきた人たちを歓迎し、心地よい場所にするということでした。Rを利用している人々はプログラマーではない人も多いですから、最初はとっつきにくい場合もあるでしょうし。

 そういうRコミュニティの特徴を体現した存在として、「R Ladies」があります。彼らは女性や性的マイノリティのための勉強会などを企画している団体で、Rの習得やスキルの共有ができるように手助けしています。これは本当に立派だと思います。

最後に、今のRの隆盛をどう思いますか?

ウィッカム:Rがここまで成功したことには今も驚いています。昔、Rの会議に参加した時は多くても200人程度でした。それが今では数千人が集まる会議もあります。日本のカンファレンスにも行きましたよ。世界中でフレンドリーなコミュニティが生まれてとてもうれしく思います。

まずは会員登録(無料)

登録会員記事(月150本程度)が閲覧できるほか、会員限定の機能・サービスを利用できます。

こちらのページで日経ビジネス電子版の「有料会員」と「登録会員(無料)」の違いも紹介しています。

初割実施中