科学论文与新闻稿匹配数据集-chenxinye
数据来源:互联网公开数据
标签:科学,论文,新闻,匹配,自然语言处理,文本分析,科研,媒体,标题,摘要
数据概述:
本数据集旨在促进科学论文与新闻稿之间的匹配研究。它包含两类主要数据:科学论文信息和新闻稿信息。数据集由训练集和测试集组成,其中训练集提供了论文与新闻稿之间的匹配关系,测试集则用于评估匹配模型的性能。
训练集包括:
* press_train.csv:新闻稿信息,包含以下字段:
* press_id:新闻稿的唯一标识符。
* press_headline:新闻稿的标题。
* press_org:发布新闻稿的机构。
* press_text:新闻稿的文本内容。
* paper_train.csv:科学论文信息,包含以下字段:
* paper_id:论文的唯一标识符。
* paper_title:论文的标题。
* paper_journal:论文发表的期刊。
* paper_authors:论文作者信息,作者之间用逗号分隔。
* match.csv:匹配结果,包含以下字段:
* paper_id:论文的ID。
* press_id:与该论文匹配的新闻稿的ID。
测试集包括:
* press_test.csv:测试新闻稿信息,与press_train.csv具有相同的字段。
* paper_test.csv:测试论文信息,与paper_train.csv具有相同的字段。
数据用途概述:
该数据集主要用于以下研究和应用场景:
* 自然语言处理(NLP)模型的训练和评估,特别是用于文本匹配、信息检索和摘要生成的模型。
* 研究科学论文与新闻稿之间的关系,探索科学传播的规律。
* 开发自动化的新闻稿生成系统,用于推广科学研究成果。
* 构建科学知识图谱,连接论文与新闻报道,促进知识的传播与理解。
* 参与者需要根据新闻稿,匹配出最相关的三篇论文。