普拉查泰伊新闻文章语料库67k-2004至2018年-ratthachat

普拉查泰伊新闻文章语料库67k-2004至2018年-ratthachat 数据来源:互联网公开数据 标签:普拉查泰伊,新闻文章,语料库,泰语,文本分类,多标签分类,政治,人权,生活质量,国际,社会,环境,经济,文化,劳工,国家安全,ICT,教育

数据概述: 本数据集来源于普拉查泰伊新闻网站(Prachathai),共包含67,889篇文章,51,797个标签,文章发布时间从2004年8月24日至2018年11月15日。数据集经过筛选,去除了正文少于500字符的文章,主要为图片和漫画。该数据集最初由@lukkiddd抓取,并由@cstorm125进行清洗。数据集适用于自然语言处理领域的文本分类研究。

数据用途概述: 该数据集适用于泰语新闻文章的多标签分类研究,特别适合用于训练和评估文本分类模型。研究者可以利用此数据集进行模型的训练、验证和测试,以评估模型在不同类别文章上的分类性能。数据集也适合用于教育和研究目的,帮助学习者理解新闻文章的分类方法和技巧。

数据集字段定义: - 文章正文:新闻文章的内容文本。 - 标签:文章所属的类别标签,包括政治、人权、生活质量、国际、社会、环境、经济、文化、劳工、国家安全、ICT和教育等12个类别。

数据集包含的多标签分类基准模型及其性能指标: 1. fastText - 宏平均准确率(macro-accuracy): 0.9302 - 宏平均F1分数(macro-F1): 0.5529

  1. LinearSVC
  2. 宏平均准确率(macro-accuracy): 0.513277
  3. 宏平均F1分数(macro-F1): 0.552801

  4. ULMFit

  5. 宏平均准确率(macro-accuracy): 0.948737
  6. 宏平均F1分数(macro-F1): 0.744875

  7. USE (Multilingual Universal Sentence Encoder)

  8. 宏平均准确率(macro-accuracy): 0.856091
  9. 宏平均F1分数(macro-F1): 0.696172

注释: 普拉查泰伊新闻网站(Prachathai)是一家左倾、以人权为中心的新闻网站,因此其新闻标签可能包含一些不常见的类别,如人权和生活质量。

许可协议: Apache-2.0

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 06:11 (UTC)
创建于 五月 31, 2025, 06:10 (UTC)