维基百科推广文章数据集

维基百科推广文章数据集 数据来源:互联网公开数据
标签:推广文章,维基百科,文本分类,内容分析,数据挖掘,信息质量,自然语言处理

数据概述:
本数据集包含两类文章:一类是被用户标记为“具有推广性语气”的文章(promotional.csv),另一类是被评估为“优质文章”的文章(good.csv)。
- 每篇推广性文章可能带有多个标签,包括但不限于:
- advert:文章内容具有广告性质。
- coi:文章的主要贡献者与文章主题存在密切关系。
- fanpov:文章以粉丝视角撰写,缺乏中立性。
- pr:文章读起来像新闻稿或基于媒体宣传。
- resume:文章以简历形式撰写。
- 优质文章则需符合以下标准:内容撰写良好、包含事实准确且可验证的信息、覆盖范围广泛、观点中立、内容稳定且配有插图。

数据用途概述:
该数据集适用于多种场景,包括但不限于:
1. 推广性内容检测:用于训练和评估文本分类模型,识别具有推广性或广告性质的文章。
2. 内容质量评估:帮助研究人员分析和评估文章的质量标准,提升内容可信度。
3. 学术研究:用于研究推广性内容的特征及其对信息质量的影响,为内容安全和信息真实性提供支持。
4. 自然语言处理:为相关领域的算法开发和模型优化提供高质量的标注数据。
5. 信息真实性鉴别:帮助用户识别潜在的隐蔽广告内容,提升信息获取的准确性和可靠性。

该数据集为研究和实践提供了丰富的素材,适用于学术研究、技术开发和内容安全等领域。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 198.6 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。