コース: データサイエンス入門:基本を理解する

知識に焦点を当てる

コース: データサイエンス入門:基本を理解する

知識に焦点を当てる

私はデータサイエンスの課題の ひとつをクラスター・オブ・ドリームスと 呼んでいます。 映画「フィールド・オブ・ドリームス」を 基にしています。 貯金をはたいてトウモロコシ畑を 野球場にした男の話です。 かつて選手だった亡霊が訪れて、 野球場を作るように言いました。 それを造れば彼らは来る、と。 多くの組織が、これと同じ罠にはまり、 ハードウェアの構築と、 膨大な量のデータの収集に注力しています。 クラスターで実行するソフトウェアに 多額の投資をしています。 環境を十分に整えれば、 価値ある洞察が得られると考えています。 構築すれば、それが来る、なのでしょう。 そう思うのも無理はありません。 多くの組織が、ハードウェアの プロジェクトで成功した経験を持ち、 やり方が分かっています。 大規模な組織は数十年にわたる 実績と経験があるのです。 データサイエンスはまだ新しく、 組織にとって探索や問いへの 資金投入は容易ではありません。 運用機能を構築することとは違うのです。 新しい考え方に目を向ける必要があります。 ハードウェアは触ることができます。 目で見ることができます。 探索は定量化が困難です。 プロジェクトのパイプラインに収まる ROI はありません。 変わりやすいものであり、 あとで無駄ではなかったかどうかが 分かるだけです。 アメリカ議会図書館は、 1,700 億件のツイートを収集する プロジェクトを始めました。 データサイエンスの能力を 示そうとしたのです。 サーバとハードウェアを購入しましたが、 データをどうするかは何も 計画していませんでした。 また、誰にもアクセスを 許可しませんでした。 設備を作ればそれらが来る、 と考えたのです。 結果、データは何百台もの サーバ上で使われないままです。 データ収集の記念碑です。 珍しいことに思えるかもしれませんが、 よくあることです。 組織は、能力の構築に重点を置きます。 クラスターに一定数のノードという 目標を設定します。 一連の視覚化ツールにも注目します。 予算はハードウェアと ソフトウェアに使われ、 データサイエンスチームには ほとんど残りません。 ある組織が、データウェアハウスを ビッグデータのクラスターに 置き換えようとしていました。 データウェアハウスに 数百万ドル費やしていたため、 投資を維持するために専門家を雇いました。 ハドゥープに移行する時も 同じ考え方でした。 3つのクラスターを作る数百万ドルの プロジェクトを開始しました。 予算はサーバとソフトウェアに使いました。 2年後、3つのクラスターはあるものの、 データにアクセスした人は ごくわずかでした。 さらに困ったことに、スタッフは 複数の部署に分散していました。 設備に大金をかけましたが、 データサイエンスチームは ありませんでした。 数年たってもクラスターには 数テラバイトのデータしかありません。 数百ドルのハードドライブに収まる量です。 ごく一部の人が簡単なレポートを 作っただけです。 こうならないように、 覚えておくべきことがあります。 ひとつ目は、データサイエンスチームは 探索的ということです。 データから洞察を見つけます。 データは成果ではありません。 データから得られる洞察が成果です。 大規模なクラスターが 重要なのではありません。 データサイエンスチームがデータ収集に 時間を費やしても、そこから価値が もたらされるわけではありません。 いい包丁を持っていても シェフになれないのと一緒です。 データの収集だけでは データサイエンスチームとは言えません。 データサイエンスチームたらしめるものは、 問いであり、 科学的手法なのです。 2つ目は、多くのデータサイエンスチームが 複数のソフトウェアツールを 使用していることです。 パイソンではなく アールを使う時もあります。 リレーショナルデータベースが 適している場合もあります。 複数の視覚化ツールを 使うかもしれません。 探索には選択肢が必要です。 高価なツールをひとつ使うよりも、 無料のツールを複数使ったほうが いい場合があります。 必要に応じてツールを作ることもあります。 優秀なデータサイエンスチームは 極めて煩雑です。 様々なツールやテクニックを使い、 データを集めてスクラブします。 設備ではなく、 研修や専門知識への投資が必要です。 データサイエンスチームで 最も価値があるのは、問いを立てる人です。 それを忘れないでください。

目次