商业新闻文章分类数据集-多种商业事件-2024-arpytanshu

商业新闻文章分类数据集-多种商业事件-2024-arpytanshu

数据来源:互联网公开数据

标签:商业新闻,文本分类,财经,新闻文章,产品,并购,盈利,劳工,法律,合作,投资

数据概述: 本数据集包含从globenewswire和prnewswire两个来源抓取的商业新闻文章,涵盖了八个主要类别:产品/FDA批准、合同、股息、管理层变动、合资/战略联盟、诉讼、盈利和工会。数据结构清晰,适合用于文档分类的机器学习和自然语言处理(NLP)学习。

数据来源于两个不同的网站,每个网站的文章被分别存储在不同的目录下。每个文档都位于一个以其所属类别命名的子目录中。例如,来自来源“Sx”且属于类别“Cx”的文档可以在./business_news_dataset/Sx/Cx/Sx_Cx_yy.txt中找到。

同时,数据集还提供了CSV格式的dataset.csv文件,包含以下字段:

label:文章所属的类别。 headline:文章标题。 situation:文章内容。

数据用途概述: 该数据集适用于文本分类模型的训练和评估,可用于研究不同商业事件的新闻报道特征。研究人员可以使用此数据集来开发和测试各种文本分类算法,例如朴素贝叶斯、支持向量机、深度学习模型等。此外,该数据集也适用于教育目的,帮助学生和研究人员理解文本分类的原理和应用。通过分析不同类别的文章,可以深入了解各种商业事件的特点和新闻报道方式。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 22, 2025, 09:29 (UTC)
创建于 四月 22, 2025, 09:28 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。