维基百科评论文本毒性分析数据集WikipediaCommentTextToxicityAnalysis-akm121
数据来源:互联网公开数据
标签:文本分类, 毒性检测, 情感分析, 机器学习, 自然语言处理, 恶意评论, 文本挖掘, 数据标注
数据概述:
该数据集包含来自维基百科的评论文本,记录了不同评论的文本内容及其毒性标签。主要特征如下:
时间跨度:数据未明确标注时间戳,可视为一个静态的评论文本集合。
地理范围:数据来源于维基百科,理论上涵盖全球范围内的用户评论。
数据维度:数据集包含两个主要文件,train.csv和test.csv。train.csv包含“id”(评论唯一标识符)、“comment_text”(评论文本)以及六个毒性标签:“toxic”(毒性)、“severe_toxic”(严重毒性)、“obscene”(猥亵)、“threat”(威胁)、“insult”(侮辱)、“identity_hate”(身份歧视)。test.csv包含“id”和“comment_text”字段。
数据格式:CSV格式,便于进行文本分析和机器学习建模。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘、情感分析等领域的学术研究,如恶意文本检测、情感极性分析、多标签分类等。
行业应用:可用于社交媒体、在线论坛、评论区等平台的评论内容审核,以及内容过滤系统的开发,从而改善用户体验,维护社区环境。
决策支持:支持平台方对用户评论的风险评估,辅助制定内容管理策略,预防负面内容传播。
教育和培训:作为自然语言处理、机器学习课程的实训数据,帮助学生和研究人员理解文本分类、多标签分类等技术。
此数据集特别适合用于训练文本分类模型,探索不同毒性类型的关联性,并评估模型的泛化能力,从而提升对恶意评论的识别和处理能力。