找到4个数据集

格式: ZIP 标签: 多语言文本处理

过滤结果
  • RepLab_Based实体导向摘要数据集_V1_0

    2026年1月31日 30 204 76

    数据集概述 本数据集基于RepLab 2013数据集构建,包含汽车和银行两个领域共31个实体的71,303条英西双语推特数据。数据按实体主题聚类,每个主题对应人工生成的英文抽象摘要、西班牙文抽象摘要和抽取式摘要,主题标注有优先级(Alert、Midly_important、unimportant),用于实体声誉管理相关研究。 文件详解 压缩包文件...
    packageimg
  • Kremlin_Based_俄罗斯政府网站爬取总统讲话记录_1999_2019

    2026年1月19日 30 98 7

    数据集概述 本数据集为1999年12月31日至2019年12月31日期间从俄罗斯政府网站kremlin.ru爬取的文档集合,包含10,723份文档,覆盖总统讲话记录等内容,支持政府信息研究与文档分析。 文件详解 主要数据文件 文件名称:Kremlin.json、Kremlin.rds 文件格式:JSON、RDS...
    packageimg
  • 保护现状_抵御_绿色病毒_荷兰人民党_PVV_与自由党_VB_政治主张文档汇编

    2026年1月19日 30 28 8

    数据集概述 本数据集包含荷兰政治语境下的文档集合,核心围绕“保护现状对抗绿色病毒”主题,涉及PVV和Vlaams Belang(VB)政党相关的93份文档,涵盖能源政策、政治主张等内容,文件类型统一为DOCX格式,无目录层级结构。 文件详解 文档文件 文件名称:遵循PVV_XX.docx、VB_XX.docx或含日期/标题的命名模式(例如PVV_25...
    packageimg
  • ICDAR2019后OCR文本校正竞赛数据集

    2025年12月19日 30 146 144

    数据集概述 该数据集为ICDAR2019后OCR文本校正竞赛的语料库,包含约2200万字符的OCR文本及对应标准文本(GS),源自法国国家图书馆、大英图书馆等机构的数字馆藏,用于训练和评估后OCR文本校正方法。 文件详解...
    packageimg