Creativity Sharing and
Entrepreneurial Support


※※※ システム停止中 ※※※ - Resource Propagation Algorithm (RPA)は、観光領域のLinked Dataにおける潜在的なリンクを推定するアルゴリズムです。 - 推定可能なLinked Dataのファイルサイズを最大1MBに制限しています。 - 述語のマッピングとグラフデータの作成のために観光語彙基盤を用いています。 - キーワードのリンク推定のためにDBpedia Japaneseを用いています。 - 都道府県,及び市区町村のリンク推定のためにIPAdicを用いています。 - Linked Dataのグラフ構造に基づいたキーワードのリンク推定が可能です。 - 非ネスト構造のTurtleデータのみ対応しています。  (LinkData.org上で公開されているTurtleデータを推定可能です。) - オープンソースソフトウェア (OSS) として公開予定です。 - 開発言語:バックグラウンド処理 C/C++,ユーザインタフェース PHP - 成果物:観光語彙基盤、用語辞書(DBpediaKnowledge)、RPA ■背景  Linked Dataは、Uniform Resource Identifier (URI) を用いてウェブ上に存在するリソースのメタデータを記述したデータです。Linked Dataがオープンデータとして公開されたLinked Open Data (LOD)は、次世代のウェブであるセマンティックウェブ(=データのウェブ)の形成に寄与する重要な存在となっており、世界的にLODの公開件数が飛躍的に増加しています。 ※本記事では、便宜上、Internationalized Resource Identifier (URI)とURIを同じ概念として取り扱います。 ■課題  Linked Dataは、その名称の通り、リンクされたデータです。  リンクされたデータを作成するためには、目的語を可能な限りURIで記述することが求められます。リソースをURIで記述することで、他のLODで定義された意味概念を継承することができます。これにより、各LODにおける同一リソースの意味概念の相違が緩和されるだけでなく、横断的なリンクにより様々なLODを1つのデータセット(集合知)として取り扱うことが可能になります。  2018年1月14日時点において、DBpedia Japaneseは、110,717,052 triplesのうち88,646,313 triplesの目的語がURI型 (xsd:anyURI)で記述されており、実に約80%の目的語が他のリソースを参照していることになります。また、電子情報通信学会の文献検索システムI-Scoverは、14,919,055 triplesのうち5,334,252 triples (約36%) の目的語がURI型で記述されており、文献や著者、組織、イベントなどのクラスで管理されたリソースを横断的に関係付けています。LODStats (http://stats.lod2.eu/)によると、192,230,648 triplesのうち46,061,873 triples (約24%) の目的語は、URI型で記述されていることを報告しています。  しかし、DBpediaやI-Scoverのようにリンクされたデータは比較的少数であり、孤立状態にあるLODが多数存在します。例えば、LinkData.orgに登録されている6,123件のTurtleデータを調査したところ、22,410,700 triplesのうち920,303 triples (約4%) の目的語がURI型で記述されていることが分かりました。また、DBpedia Japaneseには21,452種類の述語が用いられているのに対して、LinkData.orgに登録されているデータセット群は計32,491種類の述語が用いられていることから、Linked Dataの二次利用が難しい現状にあると考えられます。つまり、データセット単位で個別にアプリケーションソフトウェアを実装する必要があるようです。 ■目的  Linked Dataの潜在的なリンクを推定できるResource Propagation Algorithm (RPA) を提案し、Linked Dataの二次利用促進を図ります。今回は、観光領域のLinked Dataを対象としてRPAの研究開発を進め、有効性を確認した後に様々な領域のLinked Dataを対象とした潜在的なリンクの推定を目指します。  
8

value

8