ビッグデータやオープンデータの前に、まずはバッドデータと格闘しよう
オライリージャパン
売り上げランキング: 354,632
「バッドデータ(Bad Data)」のきちんとした定義を決めるのは難しいことです。現場でよく見かける、純粋に技術的な現象だと考える人もいます。たとえば、欠損値、不正なレコード、おかしなファイル形式などです。確かに、これらもバッドデータに含まれますが、実際にはもっと多岐にわたります。時間を食うようなデータもバッドデータです。これはあなたを残業させたり、イライラのもとになります。アクセスできないデータ、あったのに消えてしまったデータ、昨日と今日とで違っているデータ、これらもみなバッドデータです。要するに、バッドデータとは邪魔になるデータのことです。
バッドデータにまつわるトラブルなどを事例を元に如何に解決したか、また、そもそもバットデータとは何なのかについて書かれた書籍です。
技術的な内容もありますが、むしろバッドデータとどう向き合うのか、エンジニアとしてできることは何なのかというヒントが得られる参考書です。
最近ではビックデータやオープンデータが話題ですが、必要なデータが使いやすい形で手に入るということは殆どありません。
本書では、そんなデータと日々向き合いいくつものバッドデータの壁を乗り越えてきたエンジニアたちの先人の知恵が詰まっています。
特に第11章「最善は善の敵、バッドデータは本当にバッドなのか?」ではシカゴ市のイノベーション&テクノロジー部局長であるブレット・ゴールドスタインさんが、就任当初「汚れた行政データ」と格闘した経緯が掲載されていてオープンデータクラスタの方にも興味深い内容なのではないかと。
行政データが扱いづらいのは日本もアメリカも元々変わらなかったのですが、それら公的機関の出すバッドデータと対峙してきたエンジニアたちの活躍によってデータがいかに重要かということが理解されていった経緯がわかります。
「俺の使いやすいようにデータを出せ!」と言ってるだけではなにも変わらないし、変えられない。
まずは手を動かせ、ということですね。
11章の中から特に感銘を受けた文章を載せておきます。
汚いデータには理由があります。何もやれることがない場合もありますが、それ以外は間違いなくあなたの責任です。いかなるときも、不完全なデータを投げ出したい誘惑に耐える必要があります。
日々の生活と複雑なエコシステムという現実には、高いエントロピー、すなわち「汚さ」があります。こうした現実にまつわるデータも同じです。それは問題解決から逃れる言い訳にはなりません。代わりに、データサイエンティストとして新しいテクニックを追い求め、それを自分たちの生活にとって重要な問題に適用し続けるモチベーションにすべきなのです。
汚いデータでも、活かす殺すはエンジニア次第ということですね。