Jigsaw平台评论内容毒性分析数据集

Jigsaw平台评论内容毒性分析数据集_Jigsaw_Platform_Comment_Toxicity_Analysis

数据来源:互联网公开数据

标签:毒性检测, 文本分类, 情感分析, 评论内容, 自然语言处理, 机器学习, 数据标注, 语义分析

数据概述: 该数据集包含来自Jigsaw平台的评论内容,记录了不同评论的毒性程度评估结果,旨在用于训练和评估毒性检测模型。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态语料数据集。 地理范围:数据来源于Jigsaw平台,涵盖全球范围内的用户评论。 数据维度:数据集包含多个维度,包括: Unnamed: 0:评论的索引。 toxic, severe_toxicity, obscene, identity_attack, insult, threat:分别表示评论的毒性、严重毒性、猥亵、身份攻击、侮辱、威胁等指标,数值为0或1,代表无或有。 funny, wow, sad, sexual_explicit:评论内容的情感标签,数值为0或1,代表无或有。 filtered_comment/comment:评论的文本内容,经过预处理,其中jigsaw_preprocessed.csv文件中的评论已进行过滤处理。 数据格式:CSV格式,包含两个文件:jigsaw_preprocessed.csv和jigsaw_preprocessed_with_stopwords.csv,前者为预处理后的评论数据,后者包含原始评论和停用词。 该数据集适用于训练和评估文本分类模型,特别是在检测和识别在线评论中的有害内容方面。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、情感分析、文本分类等领域的学术研究,如恶意内容检测、情感倾向分析、用户行为分析等。 行业应用:为社交媒体平台、在线论坛、游戏社区等提供数据支持,用于构建内容审核系统、用户行为分析系统、个性化推荐系统等。 决策支持:支持内容审核策略的制定和优化,帮助平台维护积极健康的社区环境。 教育和培训:作为自然语言处理、机器学习等课程的实训材料,帮助学生和研究人员深入理解文本分类和情感分析技术。 此数据集特别适合用于探索在线评论中的毒性表达模式,构建高效的毒性检测模型,从而提升内容审核的准确性和效率。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 348.97 MiB
最后更新 2025年9月27日
创建于 2025年9月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。