普拉查泰伊新闻文章语料库67k-2004至2018年-ratthachat
数据来源:互联网公开数据
标签:普拉查泰伊,新闻文章,语料库,泰语,文本分类,多标签分类,政治,人权,生活质量,国际,社会,环境,经济,文化,劳工,国家安全,ICT,教育
数据概述:
本数据集来源于普拉查泰伊新闻网站(Prachathai),共包含67,889篇文章,51,797个标签,文章发布时间从2004年8月24日至2018年11月15日。数据集经过筛选,去除了正文少于500字符的文章,主要为图片和漫画。该数据集最初由@lukkiddd抓取,并由@cstorm125进行清洗。数据集适用于自然语言处理领域的文本分类研究。
数据用途概述:
该数据集适用于泰语新闻文章的多标签分类研究,特别适合用于训练和评估文本分类模型。研究者可以利用此数据集进行模型的训练、验证和测试,以评估模型在不同类别文章上的分类性能。数据集也适合用于教育和研究目的,帮助学习者理解新闻文章的分类方法和技巧。
数据集字段定义:
- 文章正文:新闻文章的内容文本。
- 标签:文章所属的类别标签,包括政治、人权、生活质量、国际、社会、环境、经济、文化、劳工、国家安全、ICT和教育等12个类别。
数据集包含的多标签分类基准模型及其性能指标:
1. fastText
- 宏平均准确率(macro-accuracy): 0.9302
- 宏平均F1分数(macro-F1): 0.5529
- LinearSVC
- 宏平均准确率(macro-accuracy): 0.513277
-
宏平均F1分数(macro-F1): 0.552801
-
ULMFit
- 宏平均准确率(macro-accuracy): 0.948737
-
宏平均F1分数(macro-F1): 0.744875
-
USE (Multilingual Universal Sentence Encoder)
- 宏平均准确率(macro-accuracy): 0.856091
- 宏平均F1分数(macro-F1): 0.696172
注释:
普拉查泰伊新闻网站(Prachathai)是一家左倾、以人权为中心的新闻网站,因此其新闻标签可能包含一些不常见的类别,如人权和生活质量。
许可协议:
Apache-2.0