找到276个数据集

格式: ZIP 标签: 文本匹配

过滤结果
  • JDT_Based_bug定位研究数据集

    2026年2月9日 30 29 5

    数据集概述 本数据集包含JDT项目的bug定位相关数据,由两个文件组成,分别为包含bug基础信息的电子表格和包含详细提交信息的XML文件。数据记录了bug报告与代码提交的关联信息,支持bug定位研究中对文本匹配与代码关联的分析。 文件详解 JDT.xlsx 文件格式:XLSX...
    packageimg
  • Hindawi_Based_19_20世纪阿拉伯文学计量风格测试语料库_数据集

    2026年1月20日 30 162 98

    数据集概述 本数据集包含19世纪至20世纪初的三类阿拉伯文学文本语料库,用于计量风格测试。涵盖Jurji Zaydan的22部编年历史小说、8位作者的65部作品、28位作者的300部作品。文本经标准化处理,适配R stylo工具,原始来源为Hindawi平台,压缩包内为UTF8编码的清洁文本文件。 文件详解 主文件...
    packageimg
  • EMDrep99_Martin_Mueller语料库_近代早期戏剧短语重复研究数据

    2026年1月15日 30 18 7

    数据集概述 本数据集源自Martin Mueller的“Shakespeare His Contemporaries”语料库,包含近代早期戏剧中剧作对的短语重复分析结果,通过多种n-gram加权指标展示剧作间的重复特征,涉及创作时间、作者、文本长度及重复计数等核心信息,共包含2个文件。 文件详解...
    packageimg
  • 附录_基于皮科_德拉_米兰多拉的图书馆莫德纳目录_卡洛里_切西斯_转录错误数据_2024

    2026年1月13日 30 17 0

    数据集概述 本数据集为论文附录,呈现Ferdinando Calori Cesis在转录Pico della Mirandola图书馆摩德纳目录时的完整错误列表,包含错误的标识符、原文与转录文本对照、错误类型分类等信息,是研究拉丁手稿转录中母语迁移现象的结构化参考资料。 文件详解 文件名称:Appendix.xlsx 文件格式:XLSX...
    packageimg
  • Flemish_Archaeological_Texts_佛兰芒地区考古文献量化研究数据_2017

    2026年1月7日 30 157 17

    数据集概述 本数据集对1945-2017年比利时佛兰芒地区的荷兰语考古文献进行量化分析,涵盖专著、期刊文章、发掘报告等4500余份文献,共5100余万字。为避免版权问题,去除连词、冠词及4字母以下词汇,包含元数据、文本匹配结果、停用词表及处理后数据压缩包,支持研究复现。 文件详解 METADATA.xlsx 文件格式:XLSX...
    packageimg
  • 核质掩码数据集_莱茵衣藻冷冻电子断层扫描

    2025年12月23日 30 11 4

    数据集概述 该数据集包含用于莱茵衣藻冷冻电子断层扫描研究的核质掩码文件,核心为一百二十六张MRC格式的二进制掩码,用于核小体颗粒的定向模板匹配,相关研究成果对应EMD-19906。 文件详解 文件名称: nuclear_masks.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含一个文件夹,文件夹中有126个MRC格式(mode...
    packageimg
  • 武器样本数据集

    2025年12月22日 30 177 71

    数据集概述 该数据集包含十二份武器样本相关文件,涵盖文本描述和图片资料两类内容,无分层目录结构及数据划分,为武器样本的分析与研究提供基础资料支持。 文件详解 该数据集包含两类文件,具体说明如下: - 文件总量:12个文件,无目录结构 - 文件类型分布: - 文本文件(.txt):6个,占比百分之五十,内容示例为数字与小数组合(如“1 0.646667...
    packageimg
  • 大英图书馆残片Or_8210_S_9498与དབའབཞ_ད_版本1_1_比对数据集

    2025年12月18日 30 51 42

    数据集概述 本数据集为大英图书馆残片Or.8210/S.9498与དབའབཞེད་(版本1.1)的比对资料,核心围绕残片与DBA' BZHED手稿的文本内容匹配展开,旨在解决残片原页布局重建、特定人物名称空间验证及缺失文字位置推断三个问题。 文件详解 文件名称: BL S9498 + S13683.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 不同磁毯上悬浮的不同PyC圆盘受力数据集

    2025年12月7日 30 53 33

    数据集概述 该数据集包含二十一张图片文件,记录了不同尺寸的PyC圆盘在不同类型磁毯上悬浮时的受力相关情况,为研究磁悬浮中圆盘与磁毯的相互作用提供直观的图像数据支持。 文件详解 图片文件集(共21个): 文件格式:JPG(.jpg)...
    packageimg
  • 金融新闻文本挖掘平行语料库数据集2007_2020

    2025年12月15日 30 175 79

    数据集概述 本数据集为金融领域的英汉平行新闻语料库,包含2007至2020年的60,473篇双语文档,涵盖新闻的标题、正文等核心内容,可用于金融领域的平行双语文本挖掘研究。 文件详解 文件名称:FT-en-zh.rar 文件格式:RAR压缩包...
    packageimg
  • Objaverse_Courthouse_Side_Based_建筑侧景三维数字化完整数据

    2025年12月15日 30 1 0

    数据集概述 本数据集包含与“Courthouse Side”相关的三维模型文件和图片文件,由Polycam.ai创建,文件类型涵盖GLB三维模型与JPEG图片,为相关场景的三维可视化或模型分析提供数据支持。 文件详解 文件名称与格式: 4d12900470704423b615edf8aa152225.glb:GLB格式三维模型文件...
    packageimg
  • ORB算法图像相似度检测数据集

    2025年12月8日 30 10 9

    数据集概述 该数据集包含印刷电路板(PCB)、汽车保险丝盒、真实及过滤处理的人脸图片,共48张JPG格式图像和1个说明文档,用于支持基于ORB算法的图像相似度检测Julia代码运行,需通过调整汉明距离和关键点数量优化检测效果。 文件详解 图像文件(共48个,.jpg格式):...
    packageimg
  • ENwikIR1k_维基百科检索开发数据完整集合

    2025年12月7日 30 15 5

    数据集概述 该数据集是通过wikIR工具获取的开发数据集,包含一个压缩文件,未进行训练/测试、数据/标签或原始/处理的拆分,为相关研究提供基础数据支持。 文件详解 文件名称: wikIR1k.zip 文件格式: ZIP (.zip) 内容说明: 压缩包内包含通过wikIR工具获取的开发数据集内容,具体字段及结构未提供预览信息 适用场景...
    packageimg
  • Objaverse_Nazario_poste160_Based_三维模型与图像关联完整数据

    2025年12月6日 30 50 18

    数据集概述 本数据集包含与"Nazario_poste160"相关的文件集合,由图片文件和三维模型文件组成,未进行训练测试、数据标签或原始/处理数据的拆分,无说明文档或内容预览,可用于相关三维模型与图片的关联分析。 文件详解...
    packageimg
  • ARASAAC黑白象形图数据集_第十部分_共十四部分

    2025年12月6日 30 110 2

    数据集概述 本数据集为ARASAAC项目的第十四部分中的第十部分,包含一千张由Sergio Palao创建的黑白象形图,涵盖医疗、图像视觉、音频等语义主题,以PNG格式存储。 文件详解 核心文件组: 包含一千个PNG格式文件,无目录结构...
    packageimg
  • 词汇释义与上下文一致性数据集

    2025年11月29日 30 35 4

    数据集概述 该数据集包含基于俄语大解释词典的词汇释义、词汇使用上下文及释义与上下文一致性标注的三元组数据,用于验证词汇释义与实际使用场景的匹配关系。 文件详解 文件名称:Gloss-Context Consistency/gloss_context.csv 文件格式:CSV(逗号分隔值) 字段映射: Gloss:俄语大解释词典中词汇的释义文本...
    packageimg
  • 社交媒体宗教信仰数据集_基于Tumblr宗教标签的帖子与博主数据

    2025年11月29日 30 10 8

    数据集概述 该数据集包含2007年以来Tumblr平台上8类含宗教标签的帖子及博主的语言与上下文元数据,涵盖帖子、博主、标签、互动笔记等多维度信息,为研究社交媒体中的宗教信仰表达提供支持。 文件详解 文件名称: Tumblr_Religious_Conflicts.sql 文件格式: SQL (.sql) 核心数据模块: Tumblr Posts...
    packageimg
  • 知识问答推理数据集

    2025年11月23日 30 150 50

    知识问答推理数据集_Knowledge_Question_Answering_Reasoning_Dataset 数据来源:互联网公开数据 标签:知识推理, 问答系统, 自然语言处理, 关系抽取, 机器学习, 文本匹配, 语义理解, 知识图谱 数据概述:...
    packageimg
  • 科研论文引用关系数据集

    2025年11月22日 30 169 37

    科研论文引用关系数据集_Research_Paper_Citation_Relation 数据来源:互联网公开数据 标签:论文引用, 学术研究, 文本分析, 自然语言处理, 知识图谱, 数据挖掘, 文本匹配, 数据集构建 数据概述: 该数据集包含来自学术研究领域的文本数据,记录了科研论文的标题、摘要以及它们之间的引用关系。主要特征如下:...
    packageimg
  • 商品文本描述分类数据集

    2025年11月22日 30 150 76

    商品文本描述分类数据集_Product_Text_Description_Classification_Dataset 数据来源:互联网公开数据 标签:商品描述, 文本分类, 商品识别, 文本清洗, 自然语言处理, 机器学习, 电商, 产品信息 数据概述:...
    packageimg