【感想】データ・ドリブン社会の創発と戦略(安宅和人) 第5回目講義 慶應義塾大学
本日は、慶應義塾大学の安宅先生の
『データ・ドリブン社会の創発と戦略』の第5回目の振り返りになります。
第5回のリンクはこちら。↓
調査データ 2:データの性質を知る
本講義における気づき
1)エクセルとSQL
エクセルは100万行しか扱えない。
ヤフージャパンの1分間のアクセス量にも満たない。(ここの数字感はあまりなかった)
1時間で1億アクセス以上になるサービスにおいては、SQLなどを学ぶのは必須。
プログラミング技術なしでは、規s模の大きいログデータを取り扱いのは不可能。
2)データ取得の目的
とりあえず、データを集めてから分析するのではダメ。
何に答えを出すべきかを考えて、それをもとに欲しいデータを考える。
また、既存のデータでは答えを出せる問いは少ない。
多くの場合、自力でデータを獲得する必要がある。
#これまでの講義で何度も言われている。それほど、重要な事項。
#PhD時代の例を述べていた。サルの研究をしている友人がいたそうで、猿の訓練には1年ほどかかるそう。しかし、コントロールのとり方を間違えて、1年を無駄にした人を見たという経験があるそうです。
3)データに関する倫理観
データを扱うのは、パワーを持つため、倫理観が不可欠。
悪用しようと思えば、いくらでもできる(「統計でウソをつく法」にもある)。
悪の道に汚れない。汚れたデータを使わない。
悪の道の染まると、その世界から退場になる。
4)スワイピングパターンで個人を同定
スワイピングパターンで個人を同定する技術が出てきている。
スワイピングパターンは数十パターンに分かれるそうで、
AさんはNo.12のパターン、BさんはNo.23のパターンなどがわかるそう。
一見それだけでは意味を持たない量的なログデータに対して、
メタ的な意味をもたせた例だと思う。
5)比較のアプローチ
比較のアプローチは大きく2つある。
セグメンテーション:似た性質をもつグループに分ける
クラスタリング :似たグループに分ける
6)分析力があるとは
切れ味のいい分析とは?
→切れ味の良い比較軸を持っているか。
上記のアプローチを念頭に意味ある比較を考える。
7)学生が少なくなっている…
研究においてもビジネスにおいても、かなり有用な授業であるのに、
初回に比べてかなり空席が目立つ様になってきている…。
2限の講義なので、寝坊も少ないと思いますが。
以上になります。
第6回、第7回は、塾内限定公開なので、次回は第8回目の講義になります。