見落としがちな真実を見つける:オープンデータ探索的データ分析(EDA)の実践
オープンデータ活用の第一歩:データを「見る」ことの重要性
ダウンロードしたオープンデータを前に、次に何をすれば良いのか迷った経験はありませんか。表計算ソフトでファイルを開いてみたものの、膨大な行と列を前にして、このデータから一体何が読み取れるのか、地域課題解決にどう繋がるのか、すぐにイメージできないということは少なくありません。
データ分析を進める上で、いきなり高度な統計分析や機械学習に進む前に、非常に重要となるのが「探索的データ分析(Exploratory Data Analysis、略称EDA)」です。EDAは、データを様々な角度から眺め、その構造や特徴、潜んでいるパターンや傾向、外れ値などを「探索」するプロセスです。
本記事では、自治体職員の皆様がオープンデータを地域課題解決に活用するための第一歩として、この探索的データ分析(EDA)の基本的な考え方と、Excelなどの身近なツールでも実践できる手法について解説します。データが持つ「声」を聴き、見落としがちな真実を発見するためのヒントとなれば幸いです。
探索的データ分析(EDA)とは何か?なぜ自治体職員に必要か
探索的データ分析(EDA)は、データセットを「詳しく知る」ためのアプローチです。仮説検証的な分析(特定の問いに対する答えを統計的に導き出す分析)とは異なり、まずはデータを自由に探索し、そこから新たな仮説を発見したり、分析の方向性を定めたりすることを目的とします。
自治体職員にとって、オープンデータのEDAが重要である理由は多岐にわたります。
- データの全体像と品質の把握: ダウンロードしたデータがどのような構造を持ち、どの程度の量があり、どのような種類のデータが含まれているのか、そして欠損値や入力ミスなどのデータ品質に関する問題を把握できます。これは、その後の分析の信頼性を確保する上で不可欠です。
- 潜在的なパターンの発見: 集計や可視化を通じて、特定の地域にデータが集中している、ある要素と別の要素に関連性が見られる、時間の経過とともに特定の傾向がある、といったパターンを発見できます。これらは、当初想定していなかった新たな地域課題やその要因に関する示唆を与えてくれる可能性があります。
- 分析の方向性の設定: データの探索を通じて得られた洞察は、次にどのような詳細な分析を行うべきか、どのデータを他のデータと組み合わせるべきか、どのような可視化が有効か、といった具体的な分析計画を立てる上での強力な手がかりとなります。
- コミュニケーションの促進: データの主要な特徴や発見されたパターンを分かりやすく可視化することで、他の職員や関係者、市民に対してデータの状況や分析の初期的な示唆を効果的に伝えることができます。
EDAは、データ分析のプロジェクトにおいて、地図を持たずに未知の土地を歩き回るのではなく、まず地形図や衛星写真を見て大まかな状況を掴むようなものです。
Excelでもできる!探索的データ分析(EDA)の主な手法
専門的な分析ツールがない場合でも、日常的に利用しているExcelを活用することで、オープンデータの基本的なEDAを行うことが可能です。ここでは、Excelで実践できる主なEDA手法とその考え方をご紹介します。
1. データの概観とクリーニングのヒント
- 目的: データの「形」を理解し、潜在的な問題点を見つける。
- Excelでの実践:
- 行数・列数の確認: シートを開いてデータのサイズを確認します。これがデータの量の大まかな把握になります。
- データ型(種類の確認): 各列(変数)にどのような種類のデータ(数値、文字列、日付など)が入っているかを目視で確認します。同じ列の中に異なる種類のデータが混在していないか確認します。
- 欠損値の確認: 空白になっているセル(欠損値)がないか確認します。フィルタ機能で空白セルを抽出したり、
COUNTBLANK
関数で数を数えたりできます。欠損値が多い列は、その後の分析に使うべきか検討が必要です。 - ユニークな値の確認: 特定の列にどのようなユニークな値(重複のない値)があるか確認します。特に「地域名」や「分類コード」のような列で、表記ゆれ(例: "A市", "A 市", "エー市")がないか確認します。フィルタ機能で値リストを見たり、Advanced Filterでユニークな値だけを抽出したりできます。
これらの確認を通じて、データが分析に適した状態か、前処理(クリーニング)が必要かを見極めることができます。
2. 基本統計量の算出
- 目的: データの中心的な傾向やばらつきを数値で把握する。
- Excelでの実践:
- 代表値:
- 平均 (
AVERAGE
関数): 数値データの平均値を計算します。 - 中央値 (
MEDIAN
関数): データを並べたときの中央の値です。外れ値の影響を受けにくい代表値です。 - 最頻値 (
MODE.SNG
関数): 最も頻繁に出現する値です。
- 平均 (
- ばらつき:
- 最大値 (
MAX
関数), 最小値 (MIN
関数): データの範囲を示します。 - 標準偏差 (
STDEV.S
関数): データが平均からどの程度散らばっているかを示します。 - 範囲 (Range): 最大値から最小値を引いた値です。
- 最大値 (
- データの分析ツール: 「データ」タブの「データ分析」機能にある「基本統計量」を使うと、これらの統計量をまとめて簡単に算出できます(データ分析機能はアドインのため、有効化が必要な場合があります)。
- 代表値:
これらの統計量を見ることで、データの全体的な傾向(例: 平均年齢が高い、収入のばらつきが大きいなど)を数値的に把握できます。
3. データの分布の可視化
- 目的: データがどのような値に集中しているか、どのように散らばっているかを視覚的に理解する。
- Excelでの実践:
- 度数分布表とヒストグラム: 数値データをいくつかの区間(階級)に分け、各区間にいくつのデータが含まれるかを集計した表(度数分布表)を作成します。これをグラフにしたものがヒストグラムです。「データ分析」機能の「ヒストグラム」を使うと簡単に作成できます。または、
COUNTIFS
関数を使って自分で度数分布表を作成し、集合縦棒グラフで表示することも可能です。 - ボックスプロット(箱ひげ図): データの分布、中央値、四分位数、外れ値を視覚的に示すグラフです。Excel 2016以降のバージョンで作成可能です(「挿入」タブ → 「統計グラフ」)。
- 度数分布表とヒストグラム: 数値データをいくつかの区間(階級)に分け、各区間にいくつのデータが含まれるかを集計した表(度数分布表)を作成します。これをグラフにしたものがヒストグラムです。「データ分析」機能の「ヒストグラム」を使うと簡単に作成できます。または、
ヒストグラムやボックスプロットを見ることで、データが左右に偏っているか、特定の区間に集中しているか、あるいは異常に離れた値(外れ値)がないかなどを視覚的に把握できます。
4. カテゴリカルデータの集計と可視化
- 目的: 地域や分類といったカテゴリごとのデータの状況を把握する。
- Excelでの実践:
- ピボットテーブル: 地域名、施設種別、年齢層などのカテゴリ列を使って、件数や合計値、平均値などを集計します。例えば、地域ごとの高齢者数、施設種別ごとの利用者数などを簡単に集計できます。
- 円グラフ・集合縦棒グラフ: ピボットテーブルで集計した結果を円グラフや集合縦棒グラフで表示することで、カテゴリ間の比較を視覚的に行えます。
ピボットテーブルとグラフの組み合わせは、地域の特性や状況をカテゴリ別に比較・分析する際に非常に強力な手法です。
5. 変数間の関係性の探索
- 目的: 二つの数値データの間に関係があるか、パターンがないかを探る。
- Excelでの実践:
- 散布図: 二つの数値データ(例: 「〇〇施設の数」と「その地域の人口」、または「年」と「イベント参加者数」など)を選び、散布図を作成します(「挿入」タブ → 「散布図」)。点が右肩上がりに集まっていれば正の相関、左肩下がりなら負の相関がある可能性が示唆されます。特定の地域だけが大きく外れた値を示していないかなども確認できます。
- 相関係数: 「データ分析」機能の「相関」を使うと、複数の数値変数間の相関係数をまとめて計算できます。相関係数は-1から1の間の値を取り、1に近いほど正の相関、-1に近いほど負の相関、0に近いほど相関がないことを示します。ただし、相関があるからといって因果関係があるわけではない点に注意が必要です。
散布図は、二つの要素の関係を目で見て理解するのに役立ちます。例えば、「公園が多い地域は住民の健康寿命も長い傾向があるか?」といった問いを探索するヒントになります。
探索から発見へ:地域課題への応用例
例えば、「地域の活性化」という課題に対して、オープンデータを使ってEDAを行ったとします。
- データの概観: まず、地域内の事業所データ、人口データ、イベントデータ、観光客データなどのオープンデータを収集し、それぞれのデータ量、含まれる変数、欠損値の状況などを確認します。事業所データに「業種」や「従業員規模」の列が含まれていることが分かります。
- 基本統計量・分布: 事業所の「従業員規模」や人口データの「年齢」分布などを調べます。特定の業種の事業所数が多い地域や、若い世代の人口が少ない地域があることが分かります。
- カテゴリ別集計・可視化: 地域ごとに事業所の業種別割合や、人口の年齢層別割合をピボットテーブルで集計し、グラフで比較します。これにより、ある地域は特定の産業に偏っている、別の地域は高齢化が特に進んでいる、といった具体的な地域特性が浮き彫りになります。
- 関係性の探索: 地域ごとの事業所数と昼間人口の間にどのような関係があるか散布図で確認します。特定の地域で事業所数が多いにも関わらず昼間人口が少ない場合、通勤者の流入が多い可能性が示唆され、交通網の課題や住宅施策のヒントが得られるかもしれません。また、イベント開催数と地域の観光客数の関係を時系列で確認し、イベントの効果を探索します。
このようなEDAを通じて、「この地域は特定の課題が顕著である」「この二つの要素の間には関連性が見られる」といった具体的な示唆が得られます。これらの示唆は、さらに深掘りして原因を特定したり、特定の地域に絞った施策を検討したり、別の種類のオープンデータと組み合わせて分析を進めたりするための強力な出発点となります。
EDAの次へ、そして継続的な探索
探索的データ分析(EDA)は、一度行えば終わり、というものではありません。データの更新や新たなデータの公開に合わせて繰り返し行うことで、地域状況の変化を捉えたり、新たな課題の兆候を発見したりすることができます。
Excelでの基本的なEDAに慣れてきたら、より大規模なデータを効率的に扱えるツール(PythonとPandasライブラリ、R、または一部のBIツール)にステップアップすることを検討しても良いでしょう。これらのツールは、より高度な集計や可視化、自動化されたデータクリーニング機能などを提供し、EDAの可能性を広げてくれます。
しかし、最も重要なのはツールの習熟度ではなく、データを「注意深く見る」「疑問を持つ」「発見を楽しむ」という姿勢です。オープンデータを活用した地域課題解決は、この「探索」の精神から始まります。ぜひ、お手元のオープンデータを様々な角度から眺め、データの中に隠された真実を見つける旅を始めてみてください。そして、そこで得られた洞察を、次の分析や具体的なアクションへと繋げていきましょう。