【エントリー作品の詳細説明】
小倉百人一首LODは、全国各地の図書館に所蔵している古典籍の画像データと翻刻データなど、小倉百人一首に関連する情報を提供するデータセットである。LODチャレンジ2017において、データセット部門最優秀賞を受賞し、以後、IIIF(International Image Interoperability Framework)による画像の改善、英語翻訳資料のデータ追加、音声データの追加等、データを拡充してきている。
小倉百人一首LODは著作権保護期間が満了しているか、オープンなライセンスで提供されているデータをLOD化することを原則として構築してきているが、これらのデータの拡充の過程で、古文で書かれた和歌の現代語訳のデータが無いことが課題となっていた。
そこで、LODチャレンジ2023では、2022年秋以降に急速に普及した生成AIを利用して、和歌の現代語訳を作成し、小倉百人一首LODのデータを拡充しようとしたものである。生成AIの現代語訳の正確性には課題が残るが、和歌の意味を知るための補助として利用できるデータである。
生成AIの生成した作品の著作権については、さまざまな議論を呼んだが、生成AIにもプロンプトを入力した者にも権利は発生しない。したがって、生成AIの作成した現代語をオープンデータとすることに問題はないと考え、小倉百人一首LODのデータを作成した。
データ作成に用いた生成AIはOpenAIのChatGPT3.5、Microsoft BingAI、GoogleのBard、Wrtn(リートン)で提供されているGPT4である。プロンプトには「百人一首を順番に訳していってもらいますので、指示のあった和歌を訳してください。」として、かるたデータの和歌テキストを指示した。
【新規作成データ】
・生成AIによる小倉百人一首の現代語訳 http://linkdata.org/work/rdf1s10050i
【データモデル】
生成AIの作成した現代語訳をリソースとして、かるたマスタデータ(小倉百人一首かるたデータ http://linkdata.org/work/rdf1s6834i)の和歌に対してリンクした。
語彙は以下のとおり、定義した。
[語彙]
karuta:aiTranslationText 和歌の現代語訳
karuta:originalText オリジナルの和歌の本文テキスト
bibo:number 歌番号
karuta:aiContributor 利用した生成AI
schema:dateCreated 生成された年月日
karuta:aiTranslationOf 和歌リソースへのリンク
【本作品の意義と課題】
小倉百人一首LODは、2017年からLODのモデル作成の練習として構築を開始した。IIIFやみんなで翻刻等、その時々の技術動向を取り入れ、データ作成の実践を通じて理解を深める「実験場」のように発展してきた。今年度の作品も、現在、急速に進展してきた生成AIを取り入れようとしたものである。
現時点では、単純に生成AIに質問し、得られた回答を収録しているだけである。生成AIとのやりとりの過程で、BingAIは解説も生成したが誤りが多いため採用していない。Bardは数首まとめて現代語訳だけを生成するように指示すると回答しないという特性があった。いずれの生成AIも、現代語訳の正確性について、保証できるものではない。歌番号も正確に出力することができなかった。
現代語訳の正確性には課題が残るが、利用した生成AIによる違いや誤りの箇所を比較したり、利用した生成AIや日付を入れることで、今後、AIが進化をとげた時の比較対象とすることも可能となるため、現時点での生成AIによる現代語訳データとして公開する。
Update: Oct 5, 2023
(Nanako Takahashi)