罗马化孟加拉语情感分析数据集-2023-mobassir
数据来源:互联网公开数据
标签:罗马化孟加拉语,情感分析,社交媒体,博客,新闻评论,Sentiment Analysis,数据集
数据概述:
本数据集包含300,000条罗马化孟加拉语(Banglish)句子,例如将“আমার দেশ”写作“amar desh”。目前,该数据集中仅有50,000条句子公开可用,若需获取完整版数据集,请通过电子邮件联系我们。这些句子主要来源于社交媒体、博客和新闻网站的评论部分。该数据集可用于训练情感分析系统,并可用于训练无监督学习算法。
数据格式:
该语料库以Excel和CSV格式发布。
如何获取完整版数据集:
如果您需要完整版数据集,请发送邮件至contact@socian.ai,我们将安排发送数据集。
许可证:
该语料库采用GNU GPLv3许可证,允许任何人自由使用该数据用于任何目的。
数据集包含的内容:
- 数据集中共有300,000条罗马化孟加拉语句子。
- 目前公开50,000条句子。
- 手动标注了前4,999条样本的情感标签,具体如下:
- 正向情感(Positive):1.0
- 负向情感(Negative):2.0
- 中性情感(Neutral):0.0
数据用途概述:
该数据集适用于情感分析系统的训练、无监督学习算法的研究、社交媒体和新闻评论的情感分析等场景。研究人员可以利用此数据集进行情感分类模型的训练和验证;教育机构可以利用该数据集进行情感分析的教学;企业可以利用该数据集进行产品或服务的情感监测。