维基百科人物传记文本生成数据集-thedevastator

维基百科人物传记文本生成数据集-thedevastator

数据来源:互联网公开数据

标签:维基百科,人物传记,文本生成,自然语言处理,机器学习,文本摘要,信息抽取

数据概述: 本数据集包含维基百科人物传记的文本数据,旨在用于文本生成、信息提取等自然语言处理任务。数据集由三个主要文件组成:train.csv、val.csv和test.csv。每个文件都包含“input_text”和“target_text”两列。其中,“input_text”列包含了维基百科人物传记的infobox(信息框)和第一段文本,提供了关于人物的背景、成就和显著特征的关键信息。“target_text”列包含了维基百科页面上完整的传记文本。

数据用途概述: 该数据集主要用于训练文本生成模型,从而根据infobox和第一段文本生成完整的维基百科人物传记。此外,该数据集也可用于信息提取任务,例如训练模型从infobox和第一段文本中提取特定信息(如出生日期、职业、成就等)。该数据集的应用场景包括自动化传记生成、文本摘要、问答系统、语言理解等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 253.44 MiB
最后更新 2025年5月5日
创建于 2025年5月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。