ビッグデーターとは何だったのか? デジハリの授業を通して


2ヶ月間のデジハリ通学制の講座が終わりました。
「データサイエンス基礎」というビッグデーターの授業です。

メインの講師の高橋さんに加え、
ビッグデーター業界(?)で活躍されている方をゲストに招き、
お話を聞くというもの。最後には、最終課題を提出します。

授業数は全8回。期間は2ヶ月間です。

<授業の様子>



「データサイエンス基礎」は木曜日の夜の20時40分から始まり、
22時過ぎまで続きます。
場所は、御茶ノ水駅を降りてすぐの、ソラシティビルです。

ノリとしては週一回の夜間学校に行くような感じです。
毎回の授業内容は大変濃くて、自分にとっては週一回が調度良いくらいです。

授業では具体的な「やりかた」よりも、
それよりも、もっと根本的なこと、
考え方やアプローチの手法が紹介されました。

メインの講師である高橋さんが、様々なゲストを呼んでくれるため、
この授業では、ほぼ毎回、先生が異なります。

業界で活躍されているゲストの方は、独特な熱気を持っていて、
この熱気は、本や映像では得難いものでした。
授業の後に、呼び止めて質問のできます。
まさに大学…!といった感じです。

夜間学校なので、20代の学生という方から、
スーツ姿の企業の方まで幅広い立場の人が教室に集まっていました。

教室は、かなりの密度。
ビッグデーターへの社会的な関心の大きさが伝わってきます。


<ビッグデーターとはなんだったのか…>


ビッグデーター…

内容はよくわからないけれど、最近はやっているキーワード。
たくさんのデーターをとってきて、何かする…?

授業を受ける前、そのくらいしか知識がありませんでしたが、
8回の授業を終えた今、ビッグデーターの面白さが、少しずつ分かってきました。

8回の授業を通して、私なりに理解したビッグデーターの姿は下記の通りです。



いわゆる「ビッグデーター」と呼ばれているものは、いくつかの要素に分解できます。


  • たくさんのデーターを集める技術
  • 集めたデーターを分かりやすくする技術
  • 分かった結果から改善するする技術


ビッグデーターを支える技術は膨大で、それぞれ専門的なスキルが求めらるため、
全部を一人でやるのは難しいと思いました。
よって、どれか1つに軸を決め、勉強を始めると良さそうです。

上記の3つのが具体的にどのようなものなのか、それについて詳しく説明をします。


<たくさんのデーターを集める技術>


どのようにデーターを集めるのか、その技術です。
この技術が最も必要だと思われる一つが、Googleに代表される検索システムです。

検索システムは当たり前ですが、たくさんのwebページを事前に知っていなくてはいけません。
それをするためには、日夜たくさんの無人のパソコン(サーバー)が、
際限なくwebページを訪れて、データーを集めていきます。(働きアリみたいですね)

膨大な量のサーバー構築や、どのように効率よくwebページを訪れるのかという考え方が必要です。

また、天気情報を集める場合には、雨量計のような観測装置も必要ですよね。
個々のセンサーを開発したり、設置したりするノウハウも、この技術の1つに含まれると思います。

<集めたデーターを分かりやすくする技術>


集めてきた膨大なデーターを人間が利用しやすいように加工しなければいけません。
さきほどの検索システムの例だと、ユーザーが入力したキーワードに対し、
一番、求める情報がのったページを表示するよう調整するといった具合です。

この場合だと、ページの良し悪しを判断する基準を用意したり、
本文から、関係しそうなキーワードをピックアップしたりすることが必要です。

検索エンジンとは別に、データーから何かを読み解こうとした場合、
大量のデーターは人間の理解できる量を超えているため、文字の配列を図などに変換して可視化します。

<分かった結果から改善する技術>


データーを集め、うまく可視化すると問題点が見えてきます。
では問題に対して何をするのか、その対処法を考えるのがこの技術です。

例として、私のHPの使い説明します。

Googleアナリティクスというサービスをご存知ですか?
HPのhtmlファイル内に特定のコードを埋めこむことで、
ユーザーさんが滞在している時間や、どのページに移動しているのかが追跡できる無料のサービスです。
もっと本格的に色々と仕込むと年齢や性別まで追えるようです。

このサービスの優れているところは、
「データーを集める」ことと「データーを可視化」することが既にできているということ。

ここでは「離脱率」に注目してみます。離脱率はそのページで閉じてしまう割合です。
どうも「rulu」のページでの離脱率が極端に高いことが分かります。



Googleアナリティクスを使えば色々な問題を発見することができますが、
ここからは、どうやって改善するのかを自分で考えなくてはいけません。

もうこうなってくると、ビッグデーターというか…
企画や、コンサルティングといった領域にですよね。
コンピューターが自動でやってくれません。

例の「rulu」のページは、下記のようなプロセスで改善をしてみました。


  1. なぜruluページの離脱率が高いのか?
  2. 文章が多く、わかりにくそうな印象を持つ
  3. 文章を少なしくし、絵を多めにする
  4. 説明用のムービーを付けてみる


これで、対処前と対処後の離脱率を比べてみます。
まぁ、多少は良くなったのかな、という結果が得られました。

このように、Googleアナリティクスを使うと、
行った対処が当たっているかどうかが分かるのが大きな利点です。

「なんとなく良くなった」というのではなくて、
離脱率という客観的な数値で比べることができます。



<まとめ>


この授業は一般的に「ビッグデーター」と呼ばれるものを、
ゲスト講師の実例を通し、多角的な方向から切り込みました。

その結果、今まで曖昧だったビッグデーターの鱗片が見えてきて、
全8回の授業が終わるころには、その鱗片を整理することが出来ました。

そのような発見を促すという意味で大変すぐれた授業だったと思います。

次回は、全8回の授業が終わったあとに発表される、
「最終課題」を紹介したいと思います。

ではまた。