読者です 読者をやめる 読者になる 読者になる

データ・サイエンティストは可視化の夢を見るか?

Does Data Scientist Dream of Visualization?

オープン・データを解析するにも前処理に手間暇がかかる

今日和。
見事なまでに徹夜明けです。
丸一日かけて、件のオープン・データを統計アプリで分析しやすいように整形してみました。

f:id:renpoo:20170410153809j:plain

いやあ、手間暇かかりましたね。
政府系のオープン・データを観察するのは初めてのことだったのですが、かなりの面倒さです。
最初のうちはどうしたらいいのか分からないので、Excel で手を動かして試行錯誤をくり返していました。親友に教わった「アルゴリズムの手順に従って条件付き書式で色分けをしてみる」などもやってみました。

でも、これはスクリプトで処理しないと、結構大量なデータ数なので大変です。たとえば、この質問票1は 2010 年度から 6 年分存在します。
そこで慣れてもいない Python を使って文字列処理することに決定。
しばらく Jupyter Notebook の上で、段階的にフィルタリング処理を積み重ねていきました。
そうすると一夜明けて目途が立ちます。
要領を掴んだ、と思ったのです。

ですから、そこからは emacs にエディタを移し、一括のバッチ処理スクリプトとして、さらなる改造を加えます。そして先程、第一段階としての質問票1について前処理が終わりました。
試しに、ちょっと Excel の「区切り位置」でフィールドをバラしてやり、Tableau に取り込んでやると、面白いように多角的な分析ができます。
ああ、苦労した甲斐があったなあ〜。

今回の教訓は、複数年にわたる公共系のアンケート・データにありがちなことなんでしょうが、質問項目が微妙に変わったりして、データの突合が難しいことでした。ですから、イヤになるほど文字列置換を駆使して辻褄を合わせています。それと階層構造のフィールドもあったので、それをひとつのフィールドにまとめるために、ちょっと技巧的なことを、ぎこちなくも行いました。
スクリプトのソース・コードは相当汚いです。
ほかの質問票にも挑戦する過程で、なんとか推敲してやりたいと思ってます。


しかし、勉強になりましたね。
Johns Hopkins の MOOCs "Executive Data Science" のコースで教わったとおり、単に公共データを借りてきて分析するにも様々な問題に直面します。
下手くそながら、一定の解決を見たのは良い経験になりました。
人生、いろいろやってみるものですね。