科学论文与新闻稿匹配数据集-chenxinye

科学论文与新闻稿匹配数据集-chenxinye 数据来源:互联网公开数据 标签:科学,论文,新闻,匹配,自然语言处理,文本分析,科研,媒体,标题,摘要 数据概述: 本数据集旨在促进科学论文与新闻稿之间的匹配研究。它包含两类主要数据:科学论文信息和新闻稿信息。数据集由训练集和测试集组成,其中训练集提供了论文与新闻稿之间的匹配关系,测试集则用于评估匹配模型的性能。

训练集包括: * press_train.csv:新闻稿信息,包含以下字段: * press_id:新闻稿的唯一标识符。 * press_headline:新闻稿的标题。 * press_org:发布新闻稿的机构。 * press_text:新闻稿的文本内容。 * paper_train.csv:科学论文信息,包含以下字段: * paper_id:论文的唯一标识符。 * paper_title:论文的标题。 * paper_journal:论文发表的期刊。 * paper_authors:论文作者信息,作者之间用逗号分隔。 * match.csv:匹配结果,包含以下字段: * paper_id:论文的ID。 * press_id:与该论文匹配的新闻稿的ID。

测试集包括: * press_test.csv:测试新闻稿信息,与press_train.csv具有相同的字段。 * paper_test.csv:测试论文信息,与paper_train.csv具有相同的字段。

数据用途概述: 该数据集主要用于以下研究和应用场景: * 自然语言处理(NLP)模型的训练和评估,特别是用于文本匹配、信息检索和摘要生成的模型。 * 研究科学论文与新闻稿之间的关系,探索科学传播的规律。 * 开发自动化的新闻稿生成系统,用于推广科学研究成果。 * 构建科学知识图谱,连接论文与新闻报道,促进知识的传播与理解。 * 参与者需要根据新闻稿,匹配出最相关的三篇论文。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 09:45 (UTC)
创建于 五月 31, 2025, 09:45 (UTC)