-
NewsEye_READ_AS_19世纪芬兰报纸训练数据集
2025年12月24日 30 54 12
数据集概述 该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。 文件详解 文件名称: Article GT guidelines for...
-
DevScholar_Based_医学CT半结构化文档分析完整数据
2025年12月11日 30 186 145
数据集概述 本数据集包含与DevScholar相关的文档及压缩文件,涉及医学CT相关内容,提供半结构化PDF文档和压缩包形式的资料,为相关研究或应用提供数据支持。 文件详解 文件名称: semi-structured.pdf,文件格式: PDF,含医学CT相关的半结构化文档内容 文件名称: DevScholar.zip,文件格式:...
-
CEX项目_黄金标准全文数据集
2025年12月9日 30 158 81
数据集概述 本数据集为CEX项目的黄金标准全文集合,包含来自27个学科的107篇学术文章。针对每篇文章提供PDF、TEI XML、引文注释JSON、JSON-LD四种互补文件,全面捕获文献内容、结构与引文信息,为文档处理、引文分析等研究提供支持。 文件详解 基础信息文件:...
-
专家特征数据集
2025年12月6日 30 167 8
数据集概述 本数据集包含一份关于专家特征的PDF文档,未提供具体描述信息,整体结构简洁,仅含单个文档文件。 文件详解 文件名称: Expert_Features.pdf 文件格式: PDF (.pdf) 文件内容: 文档类型文件,具体内容未提供详细描述,推测与专家特征相关 适用场景 专家特征研究: 可用于分析专家相关特征的内容梳理与总结 文档内容挖掘:...
-
TranscriboQuest古希腊团队数据集2024
2025年12月5日 30 29 8
数据集概述 本数据集是2024年九月十一日至十三日在里昂举办的TranscriboQuest活动期间,由古希腊团队生成的数据集,包含活动相关的文档、配置文件和数据压缩包,具体信息可参考README文件。 文件详解 README.md: MD格式文件,包含项目介绍、团队信息、数据描述、指南和致谢等内容 Guidelines.pdf:...
-
政府PDF文档元数据分析数据集
2025年10月30日 30 17 16
政府PDF文档元数据分析数据集_Government_PDF_Document_Metadata_Analysis_Dataset 数据来源:互联网公开数据 标签:PDF文档, 元数据分析, 政府文件, 数据挖掘, 文件分析, 文档处理, 文本信息提取, 信息检索 数据概述:...
-
希拉里克林顿电子邮件数据集-2009至2013年-robroseknows
2025年6月4日 30 96 61
希拉里克林顿电子邮件数据集-2009至2013年-robroseknows 数据来源:互联网公开数据 标签:希拉里克林顿,电子邮件,外交,国家安全,数据隐私,政府通信,文档处理 数据概述:...
-
BKAI文档数据集BKAIDocumentDataset-phucnguyenlamp
2025年5月28日 30 120 11
BKAI文档数据集BKAIDocumentDataset-phucnguyenlamp 数据来源:互联网公开数据 标签:BKAI,文档处理,数据集,自然语言处理,机器学习,文本分析,信息检索,人工智能 数据概述:该数据集包含来自BKAI的文档数据,记录了多种类型的文档信息,适用于自然语言处理和机器学习任务。主要特征如下:...
-
公司文档信息分析数据集CompanyDocumentInformationAnalysis-hachemsfar
2025年4月29日 30 163 56
公司文档信息分析数据集CompanyDocumentInformationAnalysis-hachemsfar 数据来源:互联网公开数据 标签:公司信息, 文本分析, 文档处理, 市场调研, 文本挖掘, 数据清洗, 商业情报, 监管文件 数据概述: 该数据集包含来自hachemsfar-...
-
文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava
2025年4月25日 30 93 48
文档过滤与分类数据集FilteredDocumentsDataset-pragunsrivastava 数据来源:互联网公开数据 标签:文档处理,数据集,文本分类,自然语言处理,机器学习,信息检索,文本分析,数据挖掘 数据概述: 该数据集包含经过过滤和分类的文档数据,记录了各类文档的文本内容和分类标签。主要特征如下: 时间跨度:...
-
Kaggle文档合成数据集KaggleDocsSyntheticDataset-zohadev
2025年4月23日 30 29 15
Kaggle文档合成数据集KaggleDocsSyntheticDataset-zohadev 数据来源:互联网公开数据 标签:数据集,合成数据,文本分析,机器学习,自然语言处理,数据挖掘,文档处理,人工智能 数据概述: 该数据集包含来自Kaggle平台文档的合成数据,记录了文档内容的结构化信息。主要特征如下:...
-
项目文件数据集-justingrima
2025年4月23日 30 55 20
项目文件数据集-justingrima 数据来源:互联网公开数据 标签:项目管理,文件分析,数据集,文档处理,数据挖掘,文本分析,信息检索,版本控制 数据概述: 该数据集包含了一系列项目文件的相关数据,记录了项目中各种类型文件的详细信息。主要特征如下: 时间跨度:数据记录的时间范围涵盖了项目文件的创建,修改和版本控制时间。...
-
签名检测数据集
2025年4月14日 30 16 4
签名检测数据集 数据来源:互联网公开数据 标签:签名检测,文档处理,目标检测,图像标注,计算机视觉,深度学习 数据概述: 本数据集包含带签名的文档照片,每张照片中标注了签名的边界框位置信息。数据集分为训练集和测试集两部分,适用于签名检测任务。 数据用途概述:...



