logo

森羅 2022

Wikipedia構造化プロジェクト

拡張固有表現理研AIP 言語情報アクセス技術チーム森羅トップページ

2022年度の森羅プロジェクトは?

2022年度の森羅プロジェクト(森羅2022)では、協働による知識の構造化を目指し、Wikipediaの分類、属性値抽出、リンキングタスクを実施します。

タスク参加はこちら

新着情報

  • 森羅2022キックオフミーティングを開催しました。タスク参加はこちらからどうぞ。(2022/5/12)
  • 言語処理学会第28回年次大会(NLP2022)で森羅プロジェクトの発表を行い、委員特別賞を受賞しました。(2022/3/18)
  • 森羅プロジェクトが英国の雑誌Impactの記事として取り上げられました。どうぞご覧ください。(2022/2/24)
  • 森羅2021の最終報告会(12月20日)にご参加いただき、ありがとうございました。資料を最終報告会ページに掲載していますので、どうぞご覧ください。(2021/12/24)
  • LinkJPタスクのテストデータ正解を公開しました。(2021/11/15)
  • MLタスクの実行結果の提出〆切を11月15日に延長しました。ぜひタスク参加をご検討下さい。(2021/10/4)
  • LinkJPタスクのテストデータを公開しました。実行結果提出の締切は9月30日です。(2021/9/10)
  • 森羅プロジェクトの紹介ビデオを公開しました([日本語版][英語版])。(2021/6/30)

森羅チャンネル

今後も動画を公開していきます。チャンネル登録お願いします。

インタビュー

thumbnail-interview
データ形式について評価方法についてデータダウンロードについて結果の提出について

森羅プロジェクト紹介

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報をWikipedia記事にアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。

構造化は3段階のステップにわけられます。

  1. Wikipedia項目のENEへの分類
    (例:「島崎藤村」ページを「人名」に分類)
  2. ENEで定義された属性に対応する属性値を抽出
    (例:「人名」の「作品」という属性に対応する「嵐」を属性値として抽出)
  3. 属性値を、それに対応するWikipediaページに紐づけ
    (例:属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ)

森羅プロジェクトは、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する「Resource by Collaborative Contribution(協働による知識構築)」の考えに基づくプロジェクトです。


タスク概要

shinra2022-fig1

森羅プロジェクトは2017年にスタートしたリソース構築プロジェクトで、人が読むことを想定して書かれたWikipediaの知識を計算機が扱える形に構造化することを目指し、「協働によるリソース構築(Resource by Collaborative Contribution(RbCC))」という枠組みで、評価型タスクとリソース構築を同時に進めています。

shinra2022-fig2

日本語構造化タスクは森羅プロジェクトで2018年から実施している日本語Wikipediaを対象とした情報抽出タスクで、今回が4回目となります。

森羅2022ではこれまでの森羅プロジェクトのタスクを統合したEnd-to-Endタスクと、その構成要素となる3つのサブタスクを開催し、参加者を募集します。

End-to-Endタスクでは、以下の3つのステップを一気に実施することで、分類、属性抽出、リンクの複合タスクを実現し、相乗効果/End-to-Endで精度向上の可能性を探ります。

shinra2022-fig3

End-to-Endタスクの各ステップは過去の森羅プロジェクトと以下の関係にあります。

  • ステップ1(分類)
    • 日本語の分類システム(今回は30言語の分類は実施しません)
  • ステップ2(属性値抽出)
    • 日本語の属性値抽出:森羅2018、2019、2020-JP
    • 全てのカテゴリーを実施(過去の森羅プロジェクトでは81カテゴリーのみ)
  • ステップ3(リンクの紐づけ)
    • 日本語の属性値に対してリンクを実施:森羅2021-LinkJP
    • 7つのカテゴリーに対して

これらの、過去の「森羅データ」を教師として利用することで、以下のように(半)自動的に知識を更新し続ける仕組みが実現できると考えています。

  • 森羅2019を教師としてW2021を(半)自動で構造化
  • 森羅2021を教師としてW2023を(半)自動で構造化
  • 森羅2023を教師としてW2025を(半)自動で構造化

一方で、End-to-Endタスクの各ステップに焦点を当てたタスクとして以下の3つのサブタスクも開催し、サブタスクのみの参加も歓迎いたします。

  • 分類タスク
  • 属性値抽出タスク
  • リンクタスク

多くの方のご参加をお待ちしています。

スケジュール

  • キックオフミーティング&データ公開

    2022年5月12日

  • リーダーボードオープン

    2022年5月12日

  • 実行結果の提出締切

    2022年10月末日(予定)

  • 評価結果の返却

    2022年11月中旬

  • 最終報告会

    2022年12月

コミュニティ/連絡先

メーリングリスト

shinra2022-all参加リンク

Slack

森羅2022:Wikipedia構造化プロジェクト(shinra2022.slack.com)参加リンク

Email(実行委員宛)

shinra2022-info (at) googlegroups.com

実行委員

委員長

関根 聡(理研AIP)

委員

野本昌子(理研AIP)中山功太(理研AIP/筑波大)隅田飛鳥(理研AIP)松田耕史(理研AIP/東北大)後藤美知子(理研AIP)宇佐美佑(Usami LLC)安藤まや(フリー)山田育矢(Studio Ousia/理研AIP)三浦明波(株式会社アティード)門脇一真(株式会社日本総合研究所)阪本浩太郎(株式会社BESNA研究所)渋木英潔(株式会社BESNA研究所)

森羅プロジェクトに関する研究

その他の関連研究

タスク詳細

Categorization1Categorization2AttributeExtraction1AttributeExtraction2Linking1Linking2

FAQ

Q. 企業からの参加ですが、必ず発表しなければならないでしょうか?
A. 発表の義務はありません。

Q. Wikipedia全件を対象にするとのことですが、計算機リソースに不安があります。
A. 計算機リソースなどについては相談に乗ります。Slack(招待リンク)などでお気軽にご相談ください。

Q. リーダーボードへの参加は義務ですか?
A. 義務ではありませんが、ぜひご参加ください。

過去の共有タスク

  • SHINRA2021-MLタスク
    • 30言語のWikipediaページを拡張固有表現に分類するタスクです。SHINRA2020-MLの継続で、さらなる精度向上を目指します。
  • SHINRA2021-LinkJPタスク
    • 森羅2021-LinkJPはエンティティーの属性値を該当するWikipediaページに紐づけるタスクです。
  • SHINRA2020-MLタスク
    • 30言語のWikipediaを拡張固有表現に分類するタスクです。トレーニングデータは分類された日本語Wikipediaの項目と日本語から各言語への言語間リンクを利用して作成します。日本語からの言語間リンクがないWikipediaページを分類するタスクです。
  • 森羅2020-JPタスク
    • 森羅2019に対し新たに施設名、イベント名の47種類の拡張固有表現カテゴリーを加えた82種類のカテゴリーについて、Wikipedia記事中の対応する記述部分にアノテーションを行うタスクです。
  • 森羅2019-JPタスク
    • 森羅2018に対し新たに組織名、地形名の30種類の拡張固有表現カテゴリーを加えた35種類のカテゴリーについて、Wikipedia記事中の対応する記述部分にアノテーションを行うタスクです。
  • 森羅2018-JPタスク
    • 5種類の拡張固有表現カテゴリーについて、それぞれのカテゴリーに分類されたWikipedia記事の文書中から、属性値を抽出する抽出タスクです。