突尼斯阿拉伯语方言情感分析训练数据集-2023-kingabzpro

突尼斯阿拉伯语方言情感分析训练数据集-2023-kingabzpro 数据来源:互联网公开数据 标签:阿拉伯语,方言,情感分析,突尼斯,机器学习,自然语言处理,社交媒体,训练数据

数据概述: 本数据集是首个100%突尼斯阿拉伯语方言(Arabizi)的情感分析数据集(TUNIZI),由AI4D的非洲语言自然语言处理项目开发。阿拉伯语方言阿拉伯化(Arabizi)是使用拉丁字母和数字书写突尼斯方言的形式,而非阿拉伯字母。

数据集中的评论是从社交媒体平台收集的,涵盖了公众对热门话题的 sentiment 表达。为了这一目的,我们通过公开的流式API提取了10万个评论。

数据进行了预处理,包括去除链接、表情符号和标点符号。收集的评论被手动标注为三个情感类别:正面(1)、负面(-1)和中性(0)。标注者在性别、年龄和社会背景方面具有多样性。

数据内容包括以下字段定义: - text_id:文本的唯一标识符 - text:文本内容 - label:评论的情感标签(-1表示负面,0表示中性,1表示正面)

可用于下载的文件有: - Train.csv:用于训练模型的文本数据。 - Test.csv:用于模型分类的文本数据。 - SampleSubmission.csv:提交文件的示例格式。行的顺序不重要,但ID名称必须正确。'label'列的值应为-1、0或1。

数据用途概述: 该数据集适用于自然语言处理、情感分析、机器学习模型训练和评估等场景。研究人员和开发者可以利用此数据集训练和验证情感分析模型;教育机构可以将其用于教学和实践;社交媒体平台可以利用其进行用户行为分析和内容推荐。

致谢: 关于AI4D-Africa;人工智能与发展-非洲网络(ai4d.ai)

AI4D-Africa是撒哈拉以南非洲地区的人工智能卓越网络,旨在加强和开发人工智能相关领域的社区、科学和技术卓越性。该网络由非洲的人工智能研究人员、从业人员和政策制定者组成。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.01 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。