社交平台评论文本毒性分析数据集SocialPlatformCommentToxicityAnalysis-mohammedtaharoshan
数据来源:互联网公开数据
标签:文本分类, 毒性检测, 情感分析, 社交媒体, 评论分析, 自然语言处理, 多标签分类, 歧视言论
数据概述:
该数据集包含来自社交平台的用户评论文本,记录了评论内容及其对应的毒性标签。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态文本语料。
地理范围:数据来源未明确,推测为全球社交平台用户评论。
数据维度:数据集包含“comment_text”(评论文本)以及多个毒性相关的标签,包括“mental_health”(心理健康), “Race”(种族), “sex”(性别), “body_image”(身体形象), “disability”(残疾), “religion”(宗教), “physical_abuse”(身体虐待), “politics”(政治)。标签值为0或1,表示评论是否包含对应类型的毒性内容。
数据格式:CSV格式,文件名为final_toxic_sentence_classification.csv,便于文本分析和多标签分类任务。
来源信息:数据来源于公开的社交平台评论数据,并进行了标注。
该数据集适用于社交媒体评论的毒性检测、情感分析和多标签分类研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘、社会计算等领域的学术研究,如恶意评论检测、歧视言论识别、情感分析等。
行业应用:为社交媒体平台、在线论坛、内容审核系统提供数据支持,用于自动化内容过滤、用户行为分析和社区管理。
决策支持:支持内容安全策略的制定,帮助平台识别和处理有害内容,维护健康的网络环境。
教育和培训:作为自然语言处理、机器学习等课程的实训材料,帮助学生理解文本分类、情感分析等技术。
此数据集特别适合用于探索社交媒体评论中不同类型毒性内容的分布规律,评估不同模型的分类效果,并支持构建更智能、更友好的在线社区。