找到4个数据集

标签: NLP训练

过滤结果
  • 巴西中等教育考试问题数据集2010_2022

    2025年12月23日 30 59 35

    数据集概述 该数据集提取自巴西国家教育研究所(INEP)网站公开的ENEM考试试题,覆盖2010至2022年。数据包含考试题目文本、选项列表、年份、学科领域及正确答案,通过脚本处理PDF文件生成,为研究巴西中等教育考试内容提供结构化数据支持。 文件详解 文件名称: enem_questions.zip 文件格式: ZIP压缩包 核心字段映射:...
    packageimg
  • COVID_19新闻发布会语料库

    2025年12月16日 30 138 49

    数据集概述 该数据集是一个机器可读的文本语料库,收集了全球各国政府及世界卫生组织在新冠疫情期间的每日新闻发布会内容,涵盖疫情状态更新、政策决策等信息,目前包含英国、苏格兰、威尔士、北爱尔兰及世界卫生组织的多场发布会记录。 文件详解 文件名称: Covid19_Press_Briefings_Corpus.zip 文件格式: ZIP(压缩包格式)...
    packageimg
  • 风险识别混合模型数据集与源码_BERT_IndoBERT与随机森林

    2025年12月10日 30 195 41

    数据集概述 本数据集包含2024年3月4日至15日从Google Play Store爬取的用户反馈评论数据,仅包含1至3星评级的评论,由ISP管理方手动标注,用于支持基于BERT-IndoBERT与随机森林混合模型的风险识别研究。 文件详解 文件名称: BERT.zip:压缩文件,可能包含与BERT模型相关的数据集或源码文件 文件名称:...
    packageimg
  • 加泰罗尼亚通用网络爬取语料库2020

    2025年12月4日 30 140 45

    数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
    packageimg