総務省統計局のサイトには、国勢調査の統計データを公開しています。
http://www.e-stat.go.jp/SG1/estat/GL02100104.do?tocd=00200521
ご存知の通り、国勢調査とは、5年ごとに国内の人口、年齢、人口性比、世帯、労働力人口、産業、職業、昼間人口、などの統計データを都道府県別・市区町村別に調査し集計したものです。主に、エリアマーケティング、営業戦略などのビジネスシーンで活用されています。
ただし、他リソースとの連結・比較・相関等、データ分析に活用する場合、データ形式が扱いづらく、構成上、多くの調整が発生します。
そこで、掲載されている国勢調査データについてデータクレンジング(正規化)処理を行い、Tableauに取り込んだのち、マッピング、グラフ化等様々なビジュアライズ(可視化)を行い、データ分析の土台を構築してみました。
ターゲットとした国勢調査
今回、Tableauでビジュアライズを行うデータは2015年総務省国勢調査の総人口・総世帯数の統計にします。 この統計は、市区町村レベルで以下の項目が記載されています。
- 2010年及び2015年の人口
- 2010年及び2015年の世帯数
- 2015年の人口密度
- 人口増減率
- 人口増減実数
- 世帯数増減率
- 世帯数増減実数
- 面積
Tableauで分析する準備
Tableauにデータを取り込みビジュアライズ及び分析するにあたって、取り込み対象であるデータは以下の要件を満たす必要があります。
- データが列方向(上から下)に並んでいること
- 同じ種類の項目が1つの列に格納されていること
国勢調査データの正規化
国勢調査の統計データには、Tableauで分析を行う上で以下の問題点があります。
- 地域の項目に都道府県と市区町村が混ざっています 集計計算を行う時に、都道府県の値が混ざってしまうことで誤った結果が出ます。
- 人口を扱っている項目が2つあります 2010年と2015年を含めて人口を分析する際に支障が出る可能性があります。
- 世帯数を扱っている項目が2つあります 2010年と2015年を含めて世帯数を分析する際に支障が出る可能性があります。
- 2010年の人口密度のデータがありません
- 全ての項目から都道府県のデータに該当する行を削除
- 都道府県を格納する列を作成し、市区町村に対応する都道府県を記載
- 人口の列を1つに統合
- 世帯数の列を1つに統合
- Tableau上で人口/面積の計算することで人口密度を求めます
統計データを地図へマッピング
Tableauでは地理情報を含む場合、ワークシートに地図として表示することができます。オリジナルの設定のままですと市区町村では一部の市区町村が地図として認識されませんが、外部のポリゴンデータを取り込むことで地図としてビジュアライズすることができます。
以下のサイトで提供されているポリゴンデータを用いて地図として表示しました。
日本市区町村ポリゴンデータ for Tableau – A Successful Failure国勢調査データのビジュアライズ
地図とグラフを組み合わせて、総務省国勢調査のビジュアライズしたダッシュボードを作成しました。 それぞれのダッシュボードには以下の機能があります。
- 調査項目の増減率、実数、都道府県ごとに上位10位以上の市区町村のデータを表示します
- 増減率を表示するワークシートは、減少している市区町村は赤、増加している市区町村を緑で表示します これにより、地図で傾向分析を行うことができます。
- 実数を表示するワークシートは、最小値と最大値の中央値を基準として、中央値を下回ると赤、上回ると緑で表示します これにより、地図で分布の偏りを確認することができます。
- 上位10以上の市区町村を表示するワークシートは、2015年の棒グラフに関して、2010年と比べて増加している市区町村を緑、減少している市区町村を赤で表示します
- ドロップダウンのフィルターでダッシュボードに表示する都道府県を選択できます
- ワークシートの地図または棒グラフをクリックすると、他のワークシートではクリックした市区町村のデータが表示されます これにより、増減数、実数、順位を連動させた分析を行うことができます。
まとめ
総務省統計局のサイトには、国勢調査に限らず様々なデータが公開されています。
http://www.stat.go.jp/data/guide/1.htm
公開されている統計データを正規化することで、データは可視化・分析しやすくなり、データの価値は何倍にも上がります。
Tableau等のBIツールを導入されている組織も増えてきていますが、活用の第一歩として公開データの正規化を試されては如何でしょうか。
弊社では、国勢調査データに限らず、様々な公開データ(天候データ、不動産相場データ、株価データ、店舗所在地、企業情報、ECサイトの商品情報、ニュース記事)や企業内のデータ(会計データ、アクセス分析結果、広告データ)等のデータを継続的にストックし、BIツールなどに取り込むことで相関関係、因果関係を分析するプラットフォームの研究をしています。
次回は、また別のテーマで公開されたデータのビジュアライズに挑戦してみます。
会社で一番Tableau歴が長い。 Tableau CloudとTableau Serverの管理に精通している。