オープンデータ活用を広げる:CSV以外のデータ形式(JSON, Shapefile等)の基礎と扱い方
オープンデータ活用におけるデータ形式の重要性
自治体職員の皆様が日々取り扱われている行政データの中には、ExcelやAccessで扱いやすいCSV形式のデータが多いかもしれません。しかし、オープンデータとして公開されているデータの中には、CSV以外の様々な形式で提供されているものが数多く存在します。これらの多様なデータ形式に対応できるようになることは、オープンデータの活用範囲を広げ、より複雑な地域課題の分析や、複数のデータセットを組み合わせた高度な分析を行う上で非常に重要となります。
本記事では、CSV以外の主要なオープンデータ形式にはどのようなものがあるのか、それぞれの特徴は何か、そしてこれらの形式のデータをどのように扱えば良いのかについて、地域課題解決への応用を視野に入れながら解説いたします。ExcelやAccessの基本操作は理解しているものの、それ以外の形式に触れる機会が少なかった、あるいはどのように扱えば良いか分からなかったという読者の皆様の参考になれば幸いです。
CSV以外の主要なオープンデータ形式とその特徴
オープンデータとしてよく見られるCSV以外のデータ形式には、主に以下のようなものがあります。
1. JSON (JavaScript Object Notation)
JSONは、人間が読み書きしやすく、機械にとっても扱いやすい軽量なデータ交換フォーマットです。Web APIなどを通じてデータが提供される場合によく利用されます。
- 特徴: 階層構造を持つデータを表現するのに適しています。キーと値のペアの集まり(オブジェクト)や、値のリスト(配列)を組み合わせてデータを表現します。
- Excel/Accessでの扱い: JSON形式のデータをExcelやAccessで直接開いて編集するのは困難です。構造が複雑な場合、手作業での整形は現実的ではありません。
- 活用シーン: Webサービスからリアルタイムに近いデータ(例: 公共交通機関の運行情報、イベント情報など)を取得する際に利用されることがあります。
2. Shapefile
Shapefileは、地理空間情報(位置や形状)とその属性情報を格納するための、最も一般的なGIS(地理情報システム)データ形式の一つです。
- 特徴: 点(施設の位置)、線(道路や河川)、ポリゴン(行政界、土地利用区域など)といった地物とその属性情報(地物に関するデータ)をセットで扱います。複数のファイル(.shp, .shx, .dbfなど)で一つのShapefileを構成します。
- Excel/Accessでの扱い: Shapefileに含まれる属性情報(.dbfファイル)はExcelやAccessで開ける場合がありますが、地理空間情報そのものを表示・編集することはできません。
- 活用シーン: 地域内の特定の地点やエリアに関する分析(例: 学校の位置と学区、ハザードマップと住民分布)を行う際に不可欠な形式です。自治体が公開する施設データ、行政界データ、都市計画データなどに多く見られます。
3. XML (Extensible Markup Language)
XMLは、構造化された文書を記述するためのマークアップ言語です。データの意味や構造をタグを使って定義できます。
- 特徴: データの内容だけでなく、そのデータの構造や要素間の関係性を詳細に記述できます。様々なシステム間でデータを交換する際の標準形式として利用されることがあります。
- Excel/Accessでの扱い: ExcelやAccessにはXMLデータを読み込む機能がありますが、XMLの構造が複雑な場合は、意図した通りにデータをインポート・整形するのが難しい場合があります。
- 活用シーン: 統計データや行政手続きに関するデータなど、構造が複雑なデータを交換する際に利用されることがあります。
多様なデータ形式を扱うための基礎知識と実践
これらのCSV以外のデータ形式を扱うためには、いくつかの基本的な考え方と、特定のツールが必要になります。
1. データ形式の理解を深める
まず、取得したオープンデータがどの形式であるかを確認することが重要です。ファイル拡張子(.json, .shp, .xmlなど)や、データ提供サイトの説明を参照してください。そして、それぞれの形式がどのような構造を持っているのか、基本的な概念を理解することが、次のステップに進む上で役立ちます。例えば、JSONは「入れ子構造」、Shapefileは「地図上の形とそれに関するデータがセット」になっている、といったイメージを持つことが大切です。
2. データの「中身」を確認する
データ形式によっては、Excelで直接開いても内容が適切に表示されないことがあります。このような場合は、テキストエディタ(Windowsのメモ帳など)や、Webブラウザの機能、専用のビューアツールなどを使って、データの元の構造を確認してみましょう。JSONであれば、整形表示できるオンラインツールを使うと、階層構造が分かりやすくなります。Shapefileであれば、後述のGISツールで開くのが最も確実です。
3. 専用ツールやライブラリの活用
多様なデータ形式を効果的に扱うためには、ExcelやAccessだけでは限界があります。読者ペルソナのスキルレベルを考慮すると、まずは比較的操作が容易な無償ツールや、データ分析ライブラリの基本的な使い方を知ることが有効です。
- JSONの扱い:
- オンラインJSONビューア/整形ツール: 構造を確認したり、可読性を高めたりするのに便利です。「JSON viewer online」などで検索すると多くのツールが見つかります。
- プログラミング言語(Pythonなど)とライブラリ(pandas): 少量のデータであれば手作業やオンラインツールで対応できることもありますが、大量のJSONデータを効率的に処理したり、他のデータと結合したりするには、Pythonのようなプログラミング言語と、データ分析ライブラリであるpandasを利用するのが一般的です。pandasを使えば、JSONデータを表形式(DataFrame)に変換して、CSVデータなどと同様に扱うことが容易になります。コードを書くことに抵抗があるかもしれませんが、データの読み込みや基本的な整形といった簡単な処理から試してみるのも良いでしょう。
- Shapefileの扱い:
- GISツール(QGISなど): Shapefileを扱う上で最も基本的なツールはGISソフトウェアです。特に、無償で高機能な「QGIS」は、自治体でも広く利用されています。QGISを使えば、Shapefileを地図上に表示して視覚的に確認したり、属性情報を表として参照・編集したり、他の地理空間情報と重ね合わせたり、CSVなどの属性データをShapefileに結合したり(位置情報があれば)、新たなShapefileを作成したりすることが可能です。GISの専門知識がなくても、基本的なデータの表示や属性情報の確認といった操作から始めることができます。
- プログラミング言語(Pythonなど)とライブラリ(GeoPandas): GISツールでの手作業に加えて、より定型的・大量の地理空間データを処理したい場合は、PythonのGeoPandasライブラリが強力な選択肢となります。GeoPandasはpandasを拡張したもので、Shapefileを含む様々な地理空間データをDataFrame形式で扱い、空間的な操作(例: ある地点がどの区域に含まれるか判定する、複数のポリゴンを結合するなど)を行うことができます。
4. データ変換を検討する
扱いたいツールやシステムが特定のデータ形式にしか対応していない場合は、データ形式を変換する必要が出てきます。
- オンライン変換ツール: JSONからCSVへの変換など、単純な変換であればオンラインの変換ツールが利用できる場合があります。
- デスクトップツール: QGISのようなGISツールは、ShapefileをGeoJSONやKMLなど他の地理空間情報形式に変換する機能を持っています。
- プログラミングによる変換: より複雑な変換や、大量のデータを一括で変換したい場合は、Pythonなどのプログラミング言語でスクリプトを作成するのが柔軟です。
地域課題解決への応用事例
異なるデータ形式のオープンデータを組み合わせることで、地域課題の分析がより多角的になります。
- 防災計画の見直し: 避難所(Shapefile)と指定緊急避難場所の開設状況(JSONまたはCSV)を組み合わせ、地図上に表示することで、災害発生時の避難経路や収容能力に関する課題を視覚的に把握できます。
- 地域経済分析: 商業施設の分布(Shapefile)と、特定の地域における消費動向データ(JSONまたはCSV、匿名加工済みパーソナルデータなど)を組み合わせて分析することで、地域経済の活性化策立案に役立てられます。
- 公共施設配置の最適化: 高齢者人口分布(Shapefile化した統計データ)と公共交通路線の位置(Shapefile)、そして既存の福祉施設の位置・定員情報(CSVまたはShapefile)をGIS上で重ね合わせ、移動手段が限られる高齢者からのアクセシビリティを分析するなど。
これらの事例のように、地理空間情報(Shapefile)と属性情報(CSV, JSONなど)を組み合わせた分析は、地域の実態をより正確に捉え、「どこで」「どのような」対策が必要なのかを具体的に検討する上で非常に有効です。
まとめ
オープンデータは、CSV形式だけでなく、JSONやShapefileなど多様な形式で提供されています。これらの形式に対応できるようになることは、オープンデータ活用の可能性を大きく広げ、地域課題解決に向けた分析をより深く、実践的なものにするための重要なステップです。
最初は馴染みのない形式に戸惑うかもしれませんが、それぞれの形式の基本的な特徴を理解し、QGISのような使いやすい無償ツールや、Pythonとデータ分析ライブラリといった強力な武器の使い方を少しずつ学ぶことで、必ず対応できるようになります。オンラインで利用できる便利なツールや、初心者向けの解説情報も増えていますので、ぜひ積極的に新しいデータ形式の扱いに挑戦してみてください。
多様な形式のデータを組み合わせることで、これまで見えなかった地域の課題が見えてくる可能性があります。一歩進んだオープンデータ活用を目指し、地域の実情に即したデータ分析に取り組んでいきましょう。