logo

森羅 2022

Wikipedia構造化プロジェクト

拡張固有表現理研AIP 言語情報アクセス技術チーム森羅トップページ

サブタスク共通データ

  • Wikipedia2019(訓練データ用)

    • CirrusSearchDump(主に分類学習用)
    • WikiDump(主に分類学習用)
    • HTML(主に属性値、リンキング学習用)
  • Wikipedia2021(評価データ用)

    • CirrusSearchDump(主に分類実行用)
    • WikiDump(主に分類実行用)
    • HTML(主に属性値抽出、リンキング実行用)
    • PlainText(主に属性値抽出、リンキング実行用)

サブタスク固有データ