logo

森羅 2022

Wikipedia構造化プロジェクト

拡張固有表現理研AIP 言語情報アクセス技術チーム森羅トップページ

「構造化知識を使った言語処理応用」ワークショップ ~森羅2022最終報告会~

1月18日に「構造化知識を使った言語処理応用」ワークショップ ~森羅2022最終報告会~を開催します。参加申し込みはこちらからどうぞ。

参加申し込みはこちら

2022年度の森羅プロジェクトは?

2022年度の森羅プロジェクト(森羅2022)では、協働による知識の構造化を目指し、Wikipediaの分類、属性値抽出、リンキングタスクを実施します。

タスク参加はこちら

新着情報

森羅チャンネル

今後も動画を公開していきます。チャンネル登録お願いします。

インタビュー

thumbnail-interview
データ形式について評価方法についてデータダウンロードについて結果の提出について

森羅プロジェクト紹介

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報をWikipedia記事にアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。

構造化は3段階のステップにわけられます。

  1. Wikipedia項目のENEへの分類
    (例:「島崎藤村」ページを「人名」に分類)
  2. ENEで定義された属性に対応する属性値を抽出
    (例:「人名」の「作品」という属性に対応する「嵐」を属性値として抽出)
  3. 属性値を、それに対応するWikipediaページに紐づけ
    (例:属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ)

森羅プロジェクトは、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する「Resource by Collaborative Contribution(協働による知識構築)」の考えに基づくプロジェクトです。


タスク概要

shinra2022-fig1

森羅プロジェクトは2017年にスタートしたリソース構築プロジェクトで、人が読むことを想定して書かれたWikipediaの知識を計算機が扱える形に構造化することを目指し、「協働によるリソース構築(Resource by Collaborative Contribution(RbCC))」という枠組みで、評価型タスクとリソース構築を同時に進めています。

shinra2022-fig2

日本語構造化タスクは森羅プロジェクトで2018年から実施している日本語Wikipediaを対象とした情報抽出タスクで、今回が4回目となります。

森羅2022ではこれまでの森羅プロジェクトのタスクを統合したEnd-to-Endタスクと、その構成要素となる3つのサブタスクを開催し、参加者を募集します。

End-to-Endタスクでは、以下の3つのステップを一気に実施することで、分類、属性抽出、リンクの複合タスクを実現し、相乗効果/End-to-Endで精度向上の可能性を探ります。

shinra2022-fig3

End-to-Endタスクの各ステップは過去の森羅プロジェクトと以下の関係にあります。

  • ステップ1(分類)
    • 日本語の分類システム(今回は30言語の分類は実施しません)
  • ステップ2(属性値抽出)
    • 日本語の属性値抽出:森羅2018、2019、2020-JP
    • 全てのカテゴリーを実施(過去の森羅プロジェクトでは81カテゴリーのみ)
  • ステップ3(リンクの紐づけ)
    • 日本語の属性値に対してリンクを実施:森羅2021-LinkJP
    • 7つのカテゴリーに対して

これらの、過去の「森羅データ」を教師として利用することで、以下のように(半)自動的に知識を更新し続ける仕組みが実現できると考えています。

  • 森羅2019を教師としてW2021を(半)自動で構造化
  • 森羅2021を教師としてW2023を(半)自動で構造化
  • 森羅2023を教師としてW2025を(半)自動で構造化

一方で、End-to-Endタスクの各ステップに焦点を当てたタスクとして以下の3つのサブタスクも開催し、サブタスクのみの参加も歓迎いたします。

  • 分類タスク
  • 属性値抽出タスク
  • リンクタスク

多くの方のご参加をお待ちしています。

スケジュール

  • キックオフミーティング&データ公開

    2022年5月12日

  • リーダーボードオープン

    2022年5月12日

  • 学生・若手研究者のためのBERTワークショップ

    2022年8月4日,10日

  • 学生・若手研究者のためのBERTワークショップ2

    2022年9月30日,10月27日

  • 第1回定期交流会

    2022年10月27日

  • 実行結果の提出締切

    2022年11月14日

  • 評価結果の返却

    2022年11月30日

  • 最終報告会

    2022年12月中旬

  • 第2回定期交流会

    2022年12月中旬

コミュニティ/連絡先

メーリングリスト

shinra2022-all参加リンク

Slack

森羅2022:Wikipedia構造化プロジェクト(shinra2022.slack.com)参加リンク

Email(実行委員宛)

shinra2022-info (at) googlegroups.com

実行委員

委員長

関根 聡(理研AIP)

委員

野本昌子(理研AIP)中山功太(理研AIP/筑波大)隅田飛鳥(理研AIP)松田耕史(理研AIP/東北大)後藤美知子(理研AIP)宇佐美佑(Usami LLC)安藤まや(フリー)山田育矢(Studio Ousia/理研AIP)三浦明波(株式会社アティード)門脇一真(株式会社日本総合研究所)阪本浩太郎(株式会社BESNA研究所)渋木英潔(株式会社BESNA研究所)

森羅プロジェクトに関する研究

その他の関連研究

タスク詳細

Categorization1Categorization2分類の対象カテゴリであるかは、拡張固有表現Ver.9.0(森羅タスク用)のchildren_categoryのリストを参照して確認します(リストが空なら末端カテゴリで分類対象となります)。AttributeExtraction1AttributeExtraction2属性値抽出の対象属性であるかは、拡張固有表現Ver.9.0(森羅タスク用)のextraction_taskの値を参照して確認します。 2022年度の属性値抽出の評価について、本評価を行わず、リーダーボード評価のみとしました。Linking1Linking2リンキングの対象属性であるかは、拡張固有表現Ver.9.0(森羅タスク用)のlinking_taskの値を参照して確認します。 2022年度のリンキングの評価について、本評価を行わず、リーダーボード評価のみとしました。

FAQ

  • コミュニティ(Slack, メーリングリスト)について

    Q.プロジェクトのSlackはタスク参加者限定ですか?
    A.森羅のSlackはタスク参加の有無に関わらず、どなたでもご参加いただけます。 データセット、タスク等に関するアナウンスや議論を行い、ご質問も受け付けております。 プロジェクトにご興味のある方は、ぜひご参加ください。
  • プロジェクト/タスクへの参加について

    Q.タスクに参加するかどうか迷っています。いつまでに申し込めば良いですか?
    A.タスク参加について事前の申し込みは不要です。タスクの〆切までに実行結果を提出していただければ、参加とみなします。 プロジェクトのタスク関連のアナウンスはSlackとメーリングリストで行いますので、タスク参加が未定の場合もご参加ください。 タスク参加の流れについてはこちらをご覧ください。
    Q.プロジェクト参加には契約が必要ですか?(副業に該当しますか?)
    A.基本的にはプロジェクトへの参加による報酬はありません(学生の方のアルバイト等を除く)。 副業等には該当せず、特に契約は必要ありません。
    Q.タスクには賞金がありますか?
    A.賞金については予定しておりません。
    Q.個人でタスクに参加することは可能ですか?
    A.企業にお勤めの方が個人として参加を希望される場合、当プロジェクトとしては特に問題ありません。勤務先でご確認ください。
    Q.タスクに参加した場合、参加システムは公開する必要がありますか?
    A.公開は必須ではありませんが、もし可能でしたらご検討いただけるとありがたいです。
    Q.企業からの参加ですが、必ず発表しなければならないでしょうか?
    A.発表の義務はありません。
    Q.Wikipedia全件を対象にするとのことですが、計算機リソースに不安があります。
    A.計算機リソースなどについては相談に乗ります。Slack(招待リンク)などでお気軽にご相談ください。
    Q.リーダーボードへの参加は義務ですか?
    A.義務ではありませんが、ぜひご参加ください。
  • 公開データについて

    Q.公開データを利用するには契約が必要ですか?
    A.プロジェクトとの契約は特に必要ありません。ただし、公開データはWikipediaの二次的著作物であり、クリエイティブ・コモンズ 表示・継承ライセンス(CC BY-SA 3.0)を継承することにご注意ください。
    参考:Wikipedia:Wikipediaを二次利用する
    データ利用による研究成果については森羅2022実行委員までお知らせいただけますよう、お願いいたします。
    実行委員宛メール:shinra2022-info@googlegroups.com
    Q.公開データを利用するにはタスク参加が必要ですか?
    A.タスクに参加されない場合も公開データの利用は可能です。タスク以外の研究等への利用もぜひご検討ください。
    データの利用については「公開データを利用するには契約が必要ですか?」のQAもご確認ください。
    データセット、タスク等に関するアナウンスや議論は森羅のSlackで行います。ご質問も受け付けておりますので、ぜひご参加ください。

過去の共有タスク

  • SHINRA2021-MLタスク
    • 30言語のWikipediaページを拡張固有表現に分類するタスクです。SHINRA2020-MLの継続で、さらなる精度向上を目指します。
  • SHINRA2021-LinkJPタスク
    • 森羅2021-LinkJPはエンティティーの属性値を該当するWikipediaページに紐づけるタスクです。
  • SHINRA2020-MLタスク
    • 30言語のWikipediaを拡張固有表現に分類するタスクです。トレーニングデータは分類された日本語Wikipediaの項目と日本語から各言語への言語間リンクを利用して作成します。日本語からの言語間リンクがないWikipediaページを分類するタスクです。
  • 森羅2020-JPタスク
    • 森羅2019に対し新たに施設名、イベント名の47種類の拡張固有表現カテゴリーを加えた82種類のカテゴリーについて、Wikipedia記事中の対応する記述部分にアノテーションを行うタスクです。
  • 森羅2019-JPタスク
    • 森羅2018に対し新たに組織名、地形名の30種類の拡張固有表現カテゴリーを加えた35種類のカテゴリーについて、Wikipedia記事中の対応する記述部分にアノテーションを行うタスクです。
  • 森羅2018-JPタスク
    • 5種類の拡張固有表現カテゴリーについて、それぞれのカテゴリーに分類されたWikipedia記事の文書中から、属性値を抽出する抽出タスクです。