数据集

科学论文与新闻稿匹配数据集-chenxinye

科学论文与新闻稿匹配数据集-chenxinye 数据来源：互联网公开数据标签：科学,论文,新闻,匹配,自然语言处理,文本分析,科研,媒体,标题,摘要数据概述：本数据集旨在促进科学论文与新闻稿之间的匹配研究。它包含两类主要数据：科学论文信息和新闻稿信息。数据集由训练集和测试集组成，其中训练集提供了论文与新闻稿之间的匹配关系，测试集则用于评估匹配模型的性能。

训练集包括： * press_train.csv：新闻稿信息，包含以下字段： * press_id：新闻稿的唯一标识符。 * press_headline：新闻稿的标题。 * press_org：发布新闻稿的机构。 * press_text：新闻稿的文本内容。 * paper_train.csv：科学论文信息，包含以下字段： * paper_id：论文的唯一标识符。 * paper_title：论文的标题。 * paper_journal：论文发表的期刊。 * paper_authors：论文作者信息，作者之间用逗号分隔。 * match.csv：匹配结果，包含以下字段： * paper_id：论文的ID。 * press_id：与该论文匹配的新闻稿的ID。

测试集包括： * press_test.csv：测试新闻稿信息，与press_train.csv具有相同的字段。 * paper_test.csv：测试论文信息，与paper_train.csv具有相同的字段。

数据用途概述：该数据集主要用于以下研究和应用场景： * 自然语言处理（NLP）模型的训练和评估，特别是用于文本匹配、信息检索和摘要生成的模型。 * 研究科学论文与新闻稿之间的关系，探索科学传播的规律。 * 开发自动化的新闻稿生成系统，用于推广科学研究成果。 * 构建科学知识图谱，连接论文与新闻报道，促进知识的传播与理解。 * 参与者需要根据新闻稿，匹配出最相关的三篇论文。

数据与资源

versions_20250410070037.zipZIP
92.61 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	92.61 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

科学论文与新闻稿匹配数据集-chenxinye

数据与资源

附加信息

注册成功！