数据集

维基百科评论文本毒性分析数据集WikipediaCommentTextToxicityAnalysis-akm121

数据来源：互联网公开数据

标签：文本分类, 毒性检测, 情感分析, 机器学习, 自然语言处理, 恶意评论, 文本挖掘, 数据标注

数据概述：该数据集包含来自维基百科的评论文本，记录了不同评论的文本内容及其毒性标签。主要特征如下：时间跨度：数据未明确标注时间戳，可视为一个静态的评论文本集合。地理范围：数据来源于维基百科，理论上涵盖全球范围内的用户评论。数据维度：数据集包含两个主要文件，train.csv和test.csv。train.csv包含“id”（评论唯一标识符）、“comment_text”（评论文本）以及六个毒性标签：“toxic”（毒性）、“severe_toxic”（严重毒性）、“obscene”（猥亵）、“threat”（威胁）、“insult”（侮辱）、“identity_hate”（身份歧视）。test.csv包含“id”和“comment_text”字段。数据格式：CSV格式，便于进行文本分析和机器学习建模。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘、情感分析等领域的学术研究，如恶意文本检测、情感极性分析、多标签分类等。行业应用：可用于社交媒体、在线论坛、评论区等平台的评论内容审核，以及内容过滤系统的开发，从而改善用户体验，维护社区环境。决策支持：支持平台方对用户评论的风险评估，辅助制定内容管理策略，预防负面内容传播。教育和培训：作为自然语言处理、机器学习课程的实训数据，帮助学生和研究人员理解文本分类、多标签分类等技术。此数据集特别适合用于训练文本分类模型，探索不同毒性类型的关联性，并评估模型的泛化能力，从而提升对恶意评论的识别和处理能力。

数据与资源

维基百科评论文本毒性分析数据集WikipediaCommentTextToxicityAnal...ZIP
49.94 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	49.94 MiB
最后更新	2025年5月18日
创建于	2025年5月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。