ひとりオープンデータソンやってみました。
オープンデータ Advent Calendar 2013 13日目の参加記事です。
@_ujigisさんが書かれていた”「地理空間情報オープンデータソン」したらどうかな?“の記事に感銘を受けまして、ひとりオープンデータソンをやってみました。
ターゲット
今年の11月に福井市役所のサイトがオープンバイデフォルトとなりました。ライセンス条件の範囲内であれば、福井市のサイトに掲載されている情報を自由に利用できるようになっています。
今回は、福井市で公開されている情報を、使いやすいデータセットにコンバートする作業をおこなってみます。
元データ
公私立保育園(認定こども園含む)一覧
元データはTableで作成された表データと、GoogleMap上にマッピングされた場所データです。
これはこれでありがたい情報ですが、このままでは決して使いやすいデータというわけではありません。
せっかく、場所情報(緯度経度)のデータがあるので、両者を合わせた1つのcsvファイルになっているともっと利用しやすくなると思うので、まずはcsvを作成します。
csvファイルを作る
Excelにコピペして作成。
もう愚直にTableをコピペしてExcel上で整形します。
場所データ(緯度経度)はソースコードに書きこまれていたので、エディタにコピペして整形しました。
「区切り位置」機能や「並べ替え」「置換」などを駆使して、手作業でゴリゴリとデータを整形し、ひとつのcsvに。
まぁ、地味な作業ですね。
GeoJSONファイルも作る
ついでなのでGeoJSONファイルも一緒に作成します。
なぜ、GeoJSONなのかは後述。
作成したcsvファイルをQGISに「デミリテッドテキストファイルをレイヤに追加」で読み込み、レイヤを「名前を付けて保存」でGeoJSONデータとしてエクスポートしただけです。
GitHubで再配布
とりあえず、コンバートしたcsvファイルとGeoJSONファイルをgithubにアップしました。
githubを使う利点は2つ。
一つは、データに間違いがあったときなどに、修正したファイルをプルリクエストしてもらえれば、容易に反映できるという点。
2つ目は、githubにGeoJSONファイルをアップロードすると自動で地図上にプロットしてくれる機能があることです。
この機能によって、アップされている地理空間情報の内容を一目で確認することができるので、とても便利です。
生のGeoJSONデータが欲しいときは、ファイルをダウンロードするか、「Raw」ボタンをクリックしてください。
今回コンバートしたデータセットは以下
shimizu / dataSet / fukui_kindergarten /
総括
以上、駆け足でしたが「ひとりオープンデータソン」をやってみました。
データのコンバート作業は手間のかかる作業ではありますが、その辺がハードルになってデータの公開が滞っているなら残念です。
福井市のようにオープンバイデフォルトで公開してもらえれば、データの編集作業ぐらいやってくれるエンジニアが巷にそこそこ居るのではないかと思うので、ぜひ他の自治体でも検討していただきたいです。
(個人的には、大手ベンダーのデータコンバートソリューションに予算を割くぐらいなら、同じオープンデータ促進でも別のことに予算を使ってほしいなー、なんて思ったりもします)
利用者側も、「データを出せ」と要求するばかりでなく自分達でできることを見つけて協力していかないと、オープンデータの普及も進まないのではないでしょうか。下記の文章は、以前も引用したことがありますがもう一度掲載します。
汚いデータには理由があります。何もやれることがない場合もありますが、それ以外は間違いなくあなたの責任です。いかなるときも、不完全なデータを投げ出したい誘惑に耐える必要があります。
日々の生活と複雑なエコシステムという現実には、高いエントロピー、すなわち「汚さ」があります。こうした現実にまつわるデータも同じです。それは問題解決から逃れる言い訳にはなりません。代わりに、データサイエンティストとして新しいテクニックを追い求め、それを自分たちの生活にとって重要な問題に適用し続けるモチベーションにすべきなのです。
“Code for America”だって、「自治体任せじゃ動きも遅いし、自分たちでHackしちまおうぜ!」というノリで始まったわけですし。
「ない」なら「自分たちで作る」がハッカー文化というものですよね。