突尼斯阿拉伯语方言情感分析训练数据集-2023-kingabzpro
数据来源:互联网公开数据
标签:阿拉伯语,方言,情感分析,突尼斯,机器学习,自然语言处理,社交媒体,训练数据
数据概述:
本数据集是首个100%突尼斯阿拉伯语方言(Arabizi)的情感分析数据集(TUNIZI),由AI4D的非洲语言自然语言处理项目开发。阿拉伯语方言阿拉伯化(Arabizi)是使用拉丁字母和数字书写突尼斯方言的形式,而非阿拉伯字母。
数据集中的评论是从社交媒体平台收集的,涵盖了公众对热门话题的 sentiment 表达。为了这一目的,我们通过公开的流式API提取了10万个评论。
数据进行了预处理,包括去除链接、表情符号和标点符号。收集的评论被手动标注为三个情感类别:正面(1)、负面(-1)和中性(0)。标注者在性别、年龄和社会背景方面具有多样性。
数据内容包括以下字段定义:
- text_id:文本的唯一标识符
- text:文本内容
- label:评论的情感标签(-1表示负面,0表示中性,1表示正面)
可用于下载的文件有:
- Train.csv:用于训练模型的文本数据。
- Test.csv:用于模型分类的文本数据。
- SampleSubmission.csv:提交文件的示例格式。行的顺序不重要,但ID名称必须正确。'label'列的值应为-1、0或1。
数据用途概述:
该数据集适用于自然语言处理、情感分析、机器学习模型训练和评估等场景。研究人员和开发者可以利用此数据集训练和验证情感分析模型;教育机构可以将其用于教学和实践;社交媒体平台可以利用其进行用户行为分析和内容推荐。
致谢:
关于AI4D-Africa;人工智能与发展-非洲网络(ai4d.ai)
AI4D-Africa是撒哈拉以南非洲地区的人工智能卓越网络,旨在加强和开发人工智能相关领域的社区、科学和技术卓越性。该网络由非洲的人工智能研究人员、从业人员和政策制定者组成。