找到5个数据集

分类: 公开数据 标签: 关键词提取

过滤结果
  • 乌兹别克语停用词列表数据集

    2025年12月23日 30 121 115

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • 新皮塔瓦尔刑事案例集1842_1890

    2025年12月22日 30 192 150

    数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
    packageimg
  • 构建日志分析数据集LogChunks

    2025年12月11日 30 179 49

    数据集概述 该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。 文件详解 该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP...
    packageimg
  • 农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集

    2025年12月11日 30 198 37

    数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
    packageimg
  • 催化反应词汇数据集

    2025年12月4日 30 164 36

    数据集概述 该数据集围绕催化反应领域的专业词汇构建,核心内容为一个压缩格式的词汇文件,未提供进一步的描述信息。 文件详解 文件名称: vocabulary.zip 文件格式: ZIP压缩包 文件内容: 压缩包内包含催化反应领域的词汇数据,具体内容需解压后查看。 适用场景 化学工程研究: 可用于催化反应领域的术语标准化或专业词典构建。 自然语言处理:...
    packageimg