Creativity Sharing and
Entrepreneurial Support

オープンデータの利活用の諸問題と、意味・意図のメタ情報を付加したデータ構造体作成例

License : CC0
「横浜市 区別市民意識ー要介護・高齢化率クロス分析」を例として、オープンデータの利活用の諸問題と、意味・意図のメタ情報を付加したデータ構造体作成について述べる。 オープンデータの種類、公開のされかたは様々あり、PDF、EXCEL、CSV.などデータ形式だけでなくそのデーら論理構造が様々でありそのままではリンクを取ったりマージができない場合殆どである。例えば横浜市でもデータ内容がそれを作成した部局でフォーマットが異なったり、データ尚列順序が異なったり栗栖分析することができない。そしてクロス分析だけでなくある目的にデータ構造(論理ー意味構造)を持たせるためにはその目的にあったものを再構成するしかない。 本事例では市民意識調査、高齢化率・要介護率のほか生活保護や生活基礎調査のデータから、その間の相関性を求めるために、データを2階層にカテライズした事例をしめす・それをメタ・メタデータと呼んでいる。最上位層は生データの持つ性格や使用目的をあらわし、その下位階はその理由やブレークダウンしたものである。この2つをメタ・メタデータと呼んでいる。最下位層はメタデータでありデータの属性をしめすものである。 イープンデータを利用する場合、単独での利用もあるが、一般にデータとデータの関係性に問題の所存がありその関係性を分析すること問題の解決やサービスを生み出すことができる。また、情報検索を行う場合、データの持っている性格や情報発信側の意図するところを見つけ検索したり、情報発信側がそのデータセットをもっと利用してもらいやすいような抽象度を高めた名前付けをすることでオープンデータとしてもっと使ってもらいやすいようになる。 今回ここに示す事例では上記のようなカテゴイズを行い、クロス分析をする場合、上位概念での相関性を考えることで物事をマクロにみることができる。このような考え方を一般に普及させることを進めてきた。 コレラのことはセマンティックWEBと密接に絡んでいる。形式的意味論から本質的息論にたつことで、AIにおける諸問題がかなり見通しがよくなると考える。
Update: Oct 9, 2018

Image detail
本テーマにおけるデータ構造は基本的にツリー、カプセル構造です。元のテーブルが縦軸(列)が行政区、横軸(行)が調査評価項目になっています。そしてその行列間の多次元分析や、その行の項目が行政区によってどのような違いがあるいかを可視化しています。図で示す目的は、行列を入れ替えたほうが人間の認識性が高まり、LOD変換する場合、情報(データ)の階層性を保持しながらRDF変換が素直に自然にできることを理解して頂くために作成したものです。
Update: Oct 9, 2018 (Kamogawa)
Image detail
本図は元データに付加したメタメタデータの関係から其の相関を求めていく場合のマトリックステーブルです、一つ一つのセルの中には散布図は埋め込まれます。また相関係数を書き込むことができます。記述されているテキストを拡大したものが次の解説に付属する図になっています。対角線の部分には分散を示す棒グラフを記述するのが一般的でしょう。
Update: Oct 1, 2018 (Kamogawa)
Image detail
下図はページトップのサムネール画像の画像を拡大したものです。市民意識調査の調査項目はこの階層違構造を持つテーブルの最下位の階層に位置します。それをカプセル化する形で、そのデータセットを括り、上位階層をつくり、その性格にふさわしい名称をあたえ、さらにそれを括った最上位階層をつくります・これによりそのデータセットがどのような目的(意図)や意味を持つかの抽象階層構造を構成することができます。データリンクをとる場合、当然その上位階層の意図や意味があって、データレベルの紐付けや検索に意味が出てきます。人間の思考構造を素直に表したものといえるでしょう。 この考え方は過去のLODチャレンジで何度か提示しています。クロス分析をする場合、最下層の生データレベルでやれば1000もの組み合わせが発生しますが。その上位階層からみると的がしぼられたクロス分析で済ますことができ、大幅な演算量の削減ができます。XVIEWのような自動演算でその辺は問題なしということはいえるかもしれません。人間の直感を超えた相関性の発見ができることもあり。あながち効率化を求めるのはよくないかもしれません。 でも、先に当たりをつけるという人間の感覚を磨くことも重要で、計算パワーと人間の直感の組み合わせは重要でしょう。でも常にデータ野も追記、データとデータの関係性の意味を考え、その論理構造化していく感覚を磨くことは重要です。提案者側はこの2つのメタ・メタデータ構造(TAG)をCocetxtーConceptと呼んでいます。そして、そのその間の連関(アソシエーション)にことの本質があることを忘れてはいけないと思います。
Update: Oct 1, 2018 (Kamogawa)
Text detail
オープンデータとして提供されるデータは単位の不揃い、テーブル数値に%が組まれていたり、順番が逆などそのままでは多次元分析作業ができない場合が極めて多い。 またデータソースが異なる部局であると年次も不揃いが多い。従って、そのままの元データをXVIEWやLODには渡せない。PDFや印刷物での提供形態も多く使おうとするには事前作業が膨大であるオープンデータの利活用の障害になっていると認識する。 下表はそのような背景の下で、元データの中から統計的に有意差があるものを選び、上位概念の指標をつくり、それをカプセル化した。今後、分析されたデータから偏差値で正規化したテーブルを作成。相関係数Rのマトリックステーブルを作成LODへエクスポートする計画である。最近LODのメタデータが階層構造を扱えるようになったとのことから、その事例作成を行う。
Update: Sep 28, 2018 (KeitarouNakayama)
Image detail
Update: Sep 28, 2018 (KeitarouNakayama)
Idea detail
【関連する応募作品】
Update: Sep 28, 2018 (KeitarouNakayama)
Idea detail
【関連する応募作品】
Update: Sep 28, 2018 (KeitarouNakayama)

Grant Information

Suggested fund information for realizing the idea.

Related Pages

横浜市の健康寿命延伸21(第二期)で平成25年度に行われた市民意識調査は主として生活行動習慣や背景となる生活意識を16800人に対して行ったものです。他方、人口動態調査から得られる高齢化率や要介護率などのデータは別々の組織からバラバラに提供されています。今回その横断分析をを行い、両者の相関性を求め地域固有性を見つけ、その地域にあった包括ケアやサービス設計の支援となるデータセットをまとめました。エクセルレベルでやれる可視化分析ではその手間隙と問題の認識性に限界があり今回XVIEWというクロス分析と可視化結果をSNSベースでコミュニケーションできるようにしています。これにより様々なステークホルダーが自分の立場からその地域に適合したた形での問題の解決に向かうことが可能になってきます。現実面では個人個人に適合したサービス提供になってきます。このあたりはサービススタッフの全人間的なサービス、コミュニケーション力が求められ、教育問題が非常に重要になってきます。そえには現状理解と起きている現象の踏みこんだ理解が求められます、 特に後期高齢者が増え、看りや認知症の対応など精神面のサポートが重要になってきます。
6

value

4


 「横浜市 市民意識調査」のデータは印刷物であり、せいぜいPDFとなっているがデータテーブルでなくグラフに書かれた数字を読み取って必要なデータを表で作成するしかありませんでした。多次元分析や、各種の可視化表現を行えるようにするためのデータを作成しました。 本データセットはEXCEL上で統合編集を行ったものです。横浜市の健康寿命延伸21(第2期)の一環として健康福祉局 保険事業課と衛生研究所が調査してレポートしたもので、紙印刷媒体で提供されているものから「有意差」があるものを選択したものをメインとしています。それに、横浜市統計ポータルからの高齢化率・要介護率データや生活基礎調査などからデータをピックアップして35項目にまとめたものです。 EXCELベースで様々なデータ分析可視化はできますが、統計処理ソフトや可視化ソフトで有償無償のものをうまく組み合わせることでっ目的にあったメッセージ変換が可能です。上記様々なデータソースはフォーマットgやデータ配列がばらばらなので、結局このような形の中間データ構造体を作成せざるを得ませんでした。しかしながら、別のLODチャレンジ2018で応募しているようなメタデータ、メタメタデータ(TAG)付けを行うことで、より意味と目的をもったデータ分析が可能となっています。このデータセットと他の様々なデータとの組み合わせによる分析比較を行った場合、その結果を共有できる公開をお願いします。
5

value

3

Comments