维基百科问答核心指代消解数据集2021-thedevastator
数据来源:互联网公开数据
标签:问答系统,核心指代,阅读理解,自然语言处理,Wikipedia,教育,科研
数据概述:
本数据集名为Quoref,由AllenAI开发,旨在测试阅读理解系统的指代消解能力。数据集包含来自4,700篇维基百科页面的24,000个问题。系统在回答问题前必须解决复杂的指代关系,然后从段落中选择合适的回答片段。数据集的字段包括问题、上下文、标题、URL和答案,这使得系统不仅能够回答问题,还能够从上下文中提供证据支持答案。
数据用途概述:
该数据集适用于测试阅读理解系统的指代消解能力,研究如何解决复杂的指代关系以提取准确的答案。研究人员可以利用此数据集改进问答系统和阅读理解模型的性能,教育工作者可以将其用于自然语言处理课程的教学示例。此外,该数据集还适合用于评估和比较不同算法在指代消解任务上的表现。
数据字段说明:
- 问题:问题文本。(字符串)
- 上下文:问题对应的段落文本。(字符串)
- 标题:提供上下文的维基百科页面标题。(字符串)
- URL:提供上下文的维基百科页面链接。(字符串)
- 答案:问题的正确答案片段。(字符串列表)