数据集

越南社交媒体仇恨言论识别数据集VietnameseSocialMediaHateSpeechDetection-maphat

数据来源：互联网公开数据

标签：仇恨言论, 越南语, 文本分类, 社交媒体, 自然语言处理, 情感分析, 数据标注, 机器学习

数据概述：该数据集包含来自越南社交媒体平台的数据，记录了用户发布的文本内容及其对应的标签，用于识别和分类仇恨言论。主要特征如下：时间跨度：数据未明确标明具体时间，视作静态语料数据集使用。地理范围：数据主要来源于越南社交媒体平台，侧重于越南语文本。数据维度：包括“Und”（未定义，可能为索引或其他辅助信息）、“content”（文本内容）、“individual”（个人指向）、“groups”（群体指向）、“religion/creed”（宗教/信仰）、“race/ethnicity”（种族/民族）、“politics”（政治）等字段，用于细粒度分析。数据格式：数据集包含CSV和XLSX两种格式，其中CSV文件名为Train_aug.csv，方便文本分析和模型构建。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、社会计算与仇恨言论检测交叉领域的学术研究，如仇恨言论的自动识别、情感分析、社交媒体内容分析等。行业应用：为社交媒体平台、内容审核机构提供数据支持，尤其在自动化内容过滤、用户行为分析、舆情监测等方面具有实用价值。决策支持：支持政府机构、社会组织进行社会舆情分析，辅助制定相关政策，维护社会和谐。教育和培训：作为自然语言处理、情感分析、文本分类等课程的实训材料，帮助学生和研究人员深入理解仇恨言论的特征和检测方法。此数据集特别适合用于探索越南语社交媒体中的仇恨言论模式，帮助用户构建自动化检测模型，提升社交媒体内容管理效率，维护网络社区的健康环境。

数据与资源

versions_1741594598.zipZIP
0.50 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.5 MiB
最后更新	2025年4月29日
创建于	2025年4月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。