1 イベント概要
2 イベント目的
3 イベント内容
4 アンケート結果
5 成果
6 課題
7 課題
イベント名
Social Hack Day #56
開催日時
2023年12月16日(土)10:45~18:00
対象者:
- オープンデータに興味がある人
- 自治体職員
- エンジニア
2022年度に報告した「DataOpsを活用したオープンデータ利活用に関する報告書」におけるオープンデータ利活用プロセスやツール等の有効性の確認を目的として本イベントを開催した。
今回のイベントでは、データ利用者が緊急避妊検索プロジェクトで使用している診療所データの可視化に活用することを前提としている。
データ利用者の観点で、データを有効に活用するにはどのような構成とすべきかをデータ提供者のプロセスである「データの収集蓄積」を通して議論し、このプロセスの有効性を確認する。
データの可視化に際し、以下の作業を実施した。
- 最新の診療所データをPDFからExcel(xlsx)に変換
- データ可視化の為、変換したデータをスプレッドシート上で修正
- ChatGPTの有用性確認の為、ChatGPTによる修正したデータのレビュー及びデータの可視化
イベント内で使用したデータ、ツールについては以下に記載する。
緊急避妊に係る取組について|厚生労働省
※ご協力いただいたプロジェクト:アフターピル検索
-
PDFをExcelに変換
PDFのデータをExcel(xlsx)に変換する為のツール -
PDF Excel 変換
PDFのデータをExcel(xlsx)に変換する為のツール(こちらの方が効率よく変換することが可能だった) -
地方公共団体コード住所(J-LIS)
郵便番号や住所から地方公共団体コードを確認する為のツール -
BODIK ジオコーダー
住所から緯度・経度の情報を取得するツール
11:00 本日の活動内容共有
11:30 プロジェクト開始、チーム内自己紹介
11:50 プロジェクト(DataOps)概要説明
12:00 当日の作業内容共有
12:05 質疑応答
12:10 休憩
13:10 再開
13:15 データ提供者の方からのコメント
13:30 CKAN拡張機能を使用した際の効果説明(デモを実施)
13:35 PDF→Excel変換作業開始
14:50 生成系AIレビュー体験
15:00 プロジェクト中間発表
15:15 写真撮影
15:20 シャッフル(概要説明、作業内容共有、質疑応答)
15:50 カルチャーの分野のオープンデータ
16:00 再シャッフル(意見交換、今後の作業方針)
16:30 ChatGPTを使用したデータの可視化
16:55 アンケート
17:00 最終成果報告
17:15 報告会終了
CKAN拡張機能はDataOpsプロセスの課題抽出・計画・データの公開・取得・活用・フィードバックの要素を満たす機能を有している。
この機能の内、フィードバックのデモ実施イメージは以下。
ChatGPTを使用して、変換したデータのレビューを実施。
事前にオープンデータの項目定義を学習させ、その定義にもとづいたフィードバックを生成。
生成系AIレビュー体験の実施イメージは以下。
ChatGPTを使用してデータの可視化を実施。
変換したデータをChatGPTに読み込ませ、可視化された地図データを生成。
また幅の調整や表示項目の追加指示への対応についても確認。
ChatGPTを使用したデータの可視化で実施した会話ログのイメージは以下。
ChatGPTを使用したデータの可視化で生成された地図のイメージは以下。
DataOpsのプロセスがオープンデータ利活用促進につながるかの根拠を得る為、イベント参加者にアンケートを実施した。
アンケート結果
イベントの中で得られた成果を以下の表にまとめた。
成果 | 関連するDataOpsプロセス | |||||||
---|---|---|---|---|---|---|---|---|
課題抽出 | 計画 | データの収集蓄積 | データの公開 | データの取得 | データの処理 | データの活用 | フィードバック | |
国の制度関連の取り組みを行っているプロジェクトでDataOpsの概念を組み込んでいきたいという意見が上がった | ||||||||
自治体がオープンデータを提供するプロセスを体験することで、作業量等の観点から自治体職員が現状の業務に加えて、手作業でデータ加工を行うことは負荷の観点で困難であると感じた | ○ | |||||||
オープンデータ提供者にとって生成系AIによるレビューが有効な手段であることを実感できた | ○ | |||||||
CKAN拡張機能(ckanext-feedback)はフィードバックをトリガーとしてDataOpsプロセスの課題抽出・計画・データの公開・取得・活用の要素を満たす機能を有している為、それをイベント参加者が実際に体験することでDataOpsプロセスにおける善循環サイクルへの理解を促進できた | ○ | ○ | ○ | ○ | ○ | ○ | ||
博物館では所蔵品のデータの提供を積極的に実施している為、カルチャーの領域でも活用してみたいという意見が上がった | ||||||||
ChatGPTを使ってデータ構造についてレビューを実施したところ生成系AIレビューのイメージのようなアイデアを検討してくれた | ○ | |||||||
ChatGPTによる可視化は細かい要求に対しても適切にデータを生成してくれる為、データ利用者にとって活用できるツールであることを実感した | ○ |
この中でも特に重要な成果は以下である。
- 自治体がオープンデータを提供するプロセスを体験することで、作業量等の観点から自治体職員が現状の業務に加えて、手作業でデータ加工を行うことは負荷の観点で困難であると感じた
データ提供者に負担がかかることで、データ公開に対する抵抗感が強くなる可能性がある。
その為、データ提供者に負担をかけずにデータを加工する仕組みを今後検討する必要がある。
なお、以下内閣官房が公開している資料1では、DX・情報関係業務の担当職員数は、3名以下の自治体が54.6%(950団体/1,741団体)、1名以下の自治体が16.9%(295団体/1,741団体)と報告されている。過半数が3名以下であるため、自治体職員の負担は大きいと考えられる。
イベントの中であがった課題を以下の表にまとめた。
課題 | 関連するDataOpsプロセス | |||||||
---|---|---|---|---|---|---|---|---|
課題抽出 | 計画 | データの収集蓄積 | データの公開 | データの取得 | データの処理 | データの活用 | フィードバック | |
オープンデータがPDFで公開されている為、データ利用者は扱いづらい | ○ | ○ | ○ | ○ | ||||
自動化して効率的にデータの整形を行いたい | ○ | |||||||
自治体側がファイルに変更を加えた際、その変更がデータ利用時に大きな障害になってしまう場合がある為(想定外の項目が追加されている等)、相互のコミュニケーションが必要だと感じた | ○ | ○ | ||||||
以下の理由から初めにフォーマットを用意しておく必要性を実感した ● 地域ごとにフォーマットが異なる ● 半角全角、記号などの統一が行われていない ● 自治体がオープンデータに加えた工夫(「市」の行を追加してグルーピングしている)で、かえって扱いにくいデータ形式になってしまっている |
○ | ○ | ○ | |||||
大元のデータが更新されると、リンクが無効になってしまう問題が発生したため、データ更新の際、何かアナウンスがあるべきだと感じた | ○ | ○ | ||||||
文化資源の領域のオープンデータも利活用したいという意見があったが、オープンデータの認知度や法整備などの課題がある | ○ | |||||||
ChatGPTが出してくれたデータ構造は細かく、確かに正しいが項目が大量になってしまうためデータ作成のコストがかかる | ○ | |||||||
CKANにオープンデータを公開するにあたりバージョンを意識する必要があるが、有識者のサポートが必要になる可能性が高い | ○ | |||||||
ChatGPTによる可視化はデータ利用者にとって活用できるツールではあるが、指示文のちょっとしたニュアンスの違いで結果が変わってしまうこともある為、必ず結果が確かなものかを確認する必要がある | ○ |
この中でも特に重要な課題は以下である。
- オープンデータがPDFで公開されている為、データ利用者は扱いづらい
- 以下の理由から初めにフォーマットを用意しておく必要性を実感した
- 地域ごとにフォーマットが異なる
- 半角全角、記号などの統一が行われていない
- 自治体がオープンデータに加えた工夫で、かえって扱いにくいデータ形式になってしまっている
データ利用者にとって利活用しやすいデータ(※1)を公開することが利活用の促進につながると思われる。
その為、データ構造やフォーマットの統一を意識してデータを加工する仕組みを今後検討する必要がある。
※1 利活用しやすいデータとは、機械判読(※2)可能なデータを指す。
※2 機械判読とはコンピュータプログラムが自動的にデータを加工、編集等ができること
今回のイベントでは、データ利用者の観点で、データを有効に活用するにはどのような構成とすべきかについて議論した。
データ構造やフォーマットの統一を意識してデータを加工することは必要であるが、その為のデータ提供者の作業コストは高くなることが確認された。
今後の課題としては、データ提供者に負担をかけずに、データ利用者が利活用しやすいデータに加工する仕組みを検討する必要がある。
この仕組みができることによって、利活用の促進につながることが期待できる。
Footnotes
-
内閣官房デジタル行財政改革会議事務局, “「国・地方を通じたDXの推進」に係る討議資料,” 2 2024. [オンライン]. Available: https://www.cas.go.jp/jp/seisaku/digital_gyozaikaikaku/taiwa6/240227taiwa1.pdf. [アクセス日: 29 03 2024]. ↩