サブタスク固有データ
- 開発データ(tsv)
- 「page_id」と「ENEラベル(日本語)」のタブ区切りのファイルで、複数のENEラベルがあるときの区切り文字は「:」です。「ENEラベル」と「ENE_id」との対応関係はDefinition_v9.0.0(森羅タスク用。属性値抽出タスク及びリンキングタスクの対象属性の情報あり)を参照してください。
サブタスク共通データ
Wikipedia2019(訓練データ用)
- CirrusSearchDump(主に分類学習用)
- WikiDump(主に分類学習用)
- HTML(主に属性値、リンキング学習用)
Wikipedia2021(評価データ用)
- CirrusSearchDump(主に分類実行用)
- WikiDump(主に分類実行用)
- HTML(主に属性値抽出、リンキング実行用)
- PlainText(主に属性値抽出、リンキング実行用)