Creativity Sharing and
Entrepreneurial Support

Linked Open Dataの価値を高めるLinked Open処理

License : CC0
Update: Jan 18, 2016

Text detail
【エントリー部門】 アイディア部門 【応募者属性】 社会人 【応募者名】 Linked Open Dataの価値を高めるLinked Open処理 【エントリー作品のURL】 http://www.slideshare.net/zuhitoslide/20160117lod-challenge-idea-57149986 【エントリー作品の権利指定】 CC0 【利用しているオープンデータ】 Wikipediaのダンプデータを使うことを検討 http://dumps.wikimedia.org 【利用しているパートナーリソース】 なし 【エントリー作品の詳細説明】 (図を用いて分かりやすくしたスライドも作成しましたので、上記スライドもご参照ください) [背景]  現在、インターネット上には膨大なデータが公開されている。しかし、RDF化されており、自由に検索、利用できるデータはほんの一部である。  例えば、Wikipediaにおいても大量のテキストが存在する。しかし、RDF化されDBpediaで検索可能な主要なデータは、Wikipediaの各ページ右上に存在する表infobox等である。DBpediaにおいてWikipedia本文は、ほとんど利用されていない。 [課題]  多様なデータ形式がRDF化できていない理由は、「データ提供者」と「データ利用者(アプリケーション開発者)」の観点で2つあると考える。  データ提供者にとっては、データ利用者が求める適切なデータ形式が分からない問題がある。例えば、文章を形態素解析した結果をRDF化し検索できると、自然言語分野の処理で活用できそうであるが、全てのデータ利用者に適したデータ形式を決めることは困難である。  データ利用者(アプリケーション開発者)にとっては、開発したいアプリケーションに必要なデータをLinked Open Dataから取得できないことがある。またデータを取得できたとしても、ノイズデータが多く各自でクレンジング処理を行って利用する必要がある。 [解決方法(Linked Open処理)]  上記課題は、ボランティア同士でRDF化処理とデータを共有し、データを自由に加工できるサービスで解決できると考える。本サービスのポイントは3つある。  1つ目は、RDF処理プログラムをオープンにする点である。これによってボランティア同士が、プログラムの内容を修正し、より適切なRDFデータに加工できる。またデータを多段階でクレンジングする場合、前の処理仕様が把握できるため、以降の処理で重複した不要な処理をなくせる等の改善ができる。DBpediaではWikipediaのデータをどのようにRDF化しているか定義しているmappingsというプロジェクトがある。1つ目のポイントはmappingsの発想と似ており、元データとRDFデータの対応付け処理は包含している。1つ目のポイントの独自の特徴は、手続き型処理のコードや外部の自然言語処理などのウェブAPIの問い合わせるコードまでもオープンにする点である。これにより、ボランティアによるデータ加工の自由度が広がる。  2つ目は、RDF化処理を実行する環境をオープンにする点である。大量のデータをRDF化するには、個人で所有しているPCでは不可能である。そのため、クラウドサービスとして実行する環境を提供し、大量のデータを加工できるようにする。また、大量のデータをインターネット越しにダウンロードとアップロードを行い、他のユーザと共有することも個人の回線では困難である。クラウドサービスとして提供することで、異なるユーザが行った処理においても同一のデータセンタ内または高速なネットワークでつながれたデータセンタ間内でコピーが行われるため、処理効率が高くなる。  3つ目は、RDF化処理後のデータもオープンにする点である。異なるユーザが同じ処理を行うことはコンピューティングリソース活用効率が悪い。そのため、RDF化処理後のデータも共有することで、ユーザ間で重複した処理をなくすことができる。他者が加工したRDFデータをさらに2次、3次加工するためにもこの特徴は、重要である。もちろん、データ利用者にとっては、公開されているRDFデータを用いることで、自ら加工処理を行う必要なく、アプリケーション開発に用いることができる。 [効果]  本方法はデータ提供者、RDF化処理実施者、データ利用者と役割が分かれていることで、各人が自身の作業に注力できるようになる。従来、データ提供者は、自身のデータを普及させるためにRDF化処理も行必要があったが、本方式では単にデータを提供するのみ(例えば、ウェブをクロールして得た生データをアップロードするのみ)で、自身の作業の価値が認められる。一方、データ利用者は、従来データのクレンジング等の加工処理が必要であったが、本方式では自身のアプリケーションに必要なRDFデータを探すのみでよい。もちろん、アプリケーションに必要なRDFデータがなければ、RDF化処理実施者としてボランティアに参加することもできる。本参加で得たRDFデータの成果を公開することで、他のデータ利用者が再利用できる等、好循環が生まれる。 [実現できる未来]  本サービスを用いることで、人類が持つデータを、人類自身が協力して価値を高めてゆくことができる。現在の大量のウェブデータを持つ主要な組織は、世界でほんの数組織である。このデータを組織内でクローズドな状態にしていては、データの価値を効率よく高めるイノベーションは生まれないと考える。  例えば、コミュニティによる大規模なウェブ検索エンジンを開発することもできると考える。また、大量のテキストデータを活用するアイデアを持つ個人が、PB級のデータを手軽に扱えるようにすることで、自然言語処理分野の技術革新が加速してゆくと考える。 [クラウドサービスで提供する理由]  本サービスは、PaaSやIaaSのクラウドサービスと相性が良いと考える。  1つ目として、データとコンピューティングとのネットワーク上の距離が近い方が、処理効率が良い点が挙げられる。近年のクラウドサービスは、世界中のデータセンタ間を高速なネットワークで接続されている。そのため、純粋なインターネット上のバックボーンを利用するよりも遥かにネットワーク転送効率が良い。これは、大規模なデータを扱うために必須の条件である。また、世界各地に点在するデータ提供者は、自分と近いデータセンタを選択することで、効率よくデータを提供できる。  2つ目は、コンピューティングリソースが豊富な点である。クラウドサービスの様な提供方法は、大量の計算を行う際に有効である。また、一般的な法則として、よく使われるデータや処理は実コンピューティングリソースやストレージリソースのほんの一部であることが多い。自前でサーバを用意するとこのようなケースは、費用がかかるが、クラウドサービスでは費用を最小限にできる。  3つ目はストレージが低価格である点である。料金上はペタバイト級のデータを現実的な費用で(かつ個人によるハードディスクメンテナンス不要で)、利用できる。
Update: Jan 18, 2016 (Kazuhito Yokoi)

Grant Information

Suggested fund information for realizing the idea.

Comments