読者です 読者をやめる 読者になる 読者になる

データ・サイエンティストは可視化の夢を見るか?

Does Data Scientist Dream of Visualization?

世論調査のオープン・データを眺めて思案する

今日和。
先日、ラジオ・ニュースで内閣府の『社会意識に関する世論調査』についての報道がありました。
興味を持ったので、内閣府サイトに行って該当データをダウンロードしてきたんですが、中身を見てビックリ!
三重クロス集計の、しかもパーセンテージに変換してあるデータになっています。
なんか取り扱いにくいなあ、と思うのは私だけでしょうか?


そこで検索して行き当たったのがこれ。
R言語で統計解析入門: クロス集計表から「スタック」形式のデータフレームへデータ変換 梶山 喜一郎
R言語で統計解析入門: 多重クロス表:質的データから3変数のクロス表(三重クロス表)を作成する 梶山 喜一郎


成る程、多重クロス集計からでも元データ相当のテーブルが生成できるんですね(そりゃそうだ)。
該当 csv には母数の記載があるので、元のクロス集計表を復元することは可能です(パーセンテージにした段階で有効数字が丸められているので、多少の誤差は混入していますが)。でも、これらのアンケートを経年推移を観察できるようなデータにまとめてみたい。

そこで参考になるのが『世界銀行』の統計データです。
World Development Indicators | Data

こちらの中身を観察すると、複数のカテゴリーにわたる経年データをどのように記述すれば、統計アプリで取り扱いしやすいか一目瞭然です。


内閣府の『社会意識に関する世論調査』が現在の質問様式になったのは平成 10 年度頃からの模様です。
ですが、質問項目についても多少の異同は存在するでしょう。
そういったことを勘案したうえで、如何に一覧表にまとめ上げるか、この数日、思案に暮れています。