找到53个数据集

格式: ZIP 标签: 文本转录

过滤结果
  • 阿拉伯语有声内容标注数据集

    2026年3月1日 30 82 59

    阿拉伯语有声内容标注数据集_Arabic_Audio_Content_Annotation_Dataset 数据来源:互联网公开数据 标签:语音识别, 阿拉伯语, 语音情感分析, 文本转录, 声音分类, 多模态数据, 数据标注, 声学特征 数据概述:...
    packageimg
  • NARRATIVAS_DE_ENTERRO_丧葬叙事文本转录数据

    2026年1月28日 30 205 91

    数据集概述 本数据集为丧葬叙事文本的转录数据,包含一份文档文件,记录了与丧葬相关的叙事内容,为研究丧葬叙事的文本特征、文化内涵等提供基础资料。 文件详解 文件名称:NARRATIVAS DE ENTERRO (1).docx 文件格式:DOCX 字段映射介绍:文档为丧葬叙事文本的转录内容,具体字段因无预览无法详细说明,推测包含叙事文本主体内容。...
    packageimg
  • ORIFLAMMS_Based中世纪日期标注手稿转录数据集2022

    2026年1月27日 30 209 24

    数据集概述 本数据集包含101份中世纪日期标注手稿的数字图像转录内容,源自ANR ORIFLAMMS项目。数据以TEI-XML格式记录手稿文本的缩写与扩展形式,经修订后于2022年3月更新,包含文本、坐标、链接等多类型文件,支持中世纪手稿的文本与图像对齐研究。 文件详解 img文件夹 内容:含101张手稿扫描图像,图像标注有手稿 shelfmark...
    packageimg
  • is24_Interspeech2024_欧洲议会录音多语言测试集

    2026年1月27日 30 159 71

    数据集概述 本数据集是从欧洲议会会议录音中提取的多语言测试集,用于语言识别和语音识别任务。包含15个多语言音频文件,总时长约2小时56分34秒,覆盖19种语言,经人工核对语言标签时间戳并补充官方文本转录,可支持多语言语音技术的模型测试与评估。 文件详解 文件名称:tst_is24.zip 文件格式:ZIP...
    packageimg
  • Sferamundi_Based_意大利骑士文学13_2卷数字化版本数据

    2026年1月21日 30 207 50

    数据集概述 本数据集为意大利骑士文学作品《13/2 Sferamundi di Grecia》第二部分的数字化学术版本,包含转录与评注的XML-TEI文件、多格式电子书及用于计算分析的纯文本文件,是Mambrino数字图书馆项目的一部分。 文件详解 转录与评注文件 文件名称:SM2_source.xml、SM2_commentary.xml...
    packageimg
  • 国家版旧地理地图_瑞典1630_1655年几何地图数字化项目数据_V1_0

    2026年1月21日 30 27 3

    数据集概述 本数据集源自瑞典“国家版最古老几何地图”项目,包含1630-1655年瑞典大比例尺几何地图的数字化成果,涵盖地图对象空间数据、聚落与土地利用单元聚合数据及文本转录档案,总计40个文件,为研究17世纪瑞典地理与社会提供结构化资源。 文件详解 空间对象CSV文件(39个)...
    packageimg
  • TikTok_Pregnancy_Vape_社交平台内容筛查数据采集脚本集

    2026年1月21日 30 34 24

    数据集概述 本数据集存储了用于从TikTok平台采集数据的脚本集合,包含视频、元数据及视觉洞察的采集流程。数据采集分为元数据提取、去重、视频下载、转录生成、目标与文本检测五个步骤,需按顺序运行对应脚本,同时需配置Python环境、相关库及Oracle Cloud Vision API等第三方服务。 文件详解 文件名称:GPT-Vape-and-...
    packageimg
  • Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新

    2026年1月20日 30 90 77

    数据集概述 本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据,包含PNG和XML文件,将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建,用于训练Transkribus平台的PyLaia模型,涵盖16至19世纪的梵语与纽瓦语手稿,支持古文字OCR模型的开发与优化。 文件详解...
    packageimg
  • IN02069_Draft_Epidoc_Tebahal石刻铭文梵语XML数据

    2026年1月19日 30 36 5

    数据集概述 本数据集包含IN02069 Tebahal石刻铭文的梵语XML文件,为Epidoc格式的草稿版本,无元数据,将纳入"Siddham"档案。数据集仅含1个文件,用于石刻铭文的数字化保存与研究。 文件详解 文件名称:IN02069.xml 文件格式:XML...
    packageimg
  • 曼布里诺数字图书馆_意大利骑士文学第13卷第1章_希腊的斯费拉蒙迪_数字学术版数据集

    2026年1月18日 30 170 153

    数据集概述 本数据集为意大利骑士文学作品《13/1 Sferamundi di Grecia. Prima parte》的数字学术版本,包含转录与评注XML-TEI文件、多格式电子书及计算分析用纯文本文件,是Mambrino数字图书馆项目成果,用于支持骑士文学的数字化研究与文本分析。 文件详解 转录与评注文件...
    packageimg
  • Wangerooge_Frisian_Based_已灭绝东弗里斯兰语录音转录数据集

    2026年1月15日 30 179 55

    数据集概述 本数据集包含已灭绝的东弗里斯兰语——Wangerooge弗里斯兰语的转录录音资料,总时长34分钟。录音于1924-1927年采集,涉及4位母语使用者,2024-25年完成转录,提供音频及对应的文本转录与英文翻译,是该濒危语言研究的重要资料。 文件详解 压缩包文件(Archive files) 文件名称:包括rec-br-...
    packageimg
  • 曼布里诺数字图书馆_意大利骑士文学第13卷第3章_希腊的斯费拉蒙迪_第三部分数字化版本数据

    2026年1月12日 30 168 116

    数据集概述 本数据集为意大利骑士文学作品《13/3 Sferamundi di Grecia. Terza parte》的数字化学术版本,包含转录与评注的XML-TEI文件、多格式电子书及用于计算分析的纯文本文件,是Mambrino数字图书馆项目的一部分,支持意大利骑士文学的数字化研究。 文件详解 转录与评注文件...
    packageimg
  • Gemein_Nachrichten_Based_1805年利夫兰地区摩拉维亚教会传教报告转录数据

    2026年1月7日 30 24 11

    数据集概述 本数据集包含1805年利夫兰地区(今拉脱维亚)摩拉维亚教会传教士Freytag夫妇的报告转录内容,源自Unitätsarchiv Herrnhut提供的《Gemein-Nachrichten》文献。数据集涵盖XML-TEI格式的多版本转录文件及标准化文本文件,用于宗教历史研究与文本分析。 文件详解 文件名称:00404_01.xml...
    packageimg
  • 曼布里诺数字图书馆_意大利骑士文学系列第13卷第5册_希腊的斯法拉蒙迪_第五部分数字学术版数据资料

    2026年1月7日 30 137 6

    数据集概述 本数据集是意大利骑士文学作品《13/5 Sferamundi di Grecia. Quinta parte》的数字学术版本,包含转录及评注的XML-TEI文件、多格式电子书和用于计算分析的纯文本文件,属于Mambrino数字图书馆项目,由维罗纳大学开发,支持古典文学的数字化研究。 文件详解 转录及评注文件...
    packageimg
  • 阿坎语特维方言阿桑特变体短语动词使用数据集2018

    2025年12月10日 30 95 94

    数据集概述 本数据集是2018年柏林洪堡大学“城市田野调查”研讨会的项目成果,聚焦加纳阿坎语特维方言阿桑特变体中(emu)ye den、(emu)ye duru和(emu)ye hare三个短语动词的使用情况,包含相关注释语句、斯瓦迪士核心词表词汇及配套调查材料。 文件详解 该数据集包含16个文件,具体说明如下: - 文档类文件(PDF格式): -...
    packageimg
  • 巴黎与耶路撒冷地图文本数据集

    2025年12月16日 30 210 46

    数据集概述 本数据集包含八十二份来自巴黎与耶路撒冷历史城市地图的标注样本,以JSON和PKL格式存储地图文本的多边形坐标、转录内容及质量标签(如是否截断、难以辨认),适用于地图文本检测、识别与序列分析任务。 文件详解 核心标注文件:...
    packageimg
  • 圣维森特岛佛得角克里奥尔语数据集2019

    2025年12月13日 30 35 5

    数据集概述 本数据集为“2019年科隆城市田野调查”项目成果,包含圣维森特岛佛得角克里奥尔语的语言录音、文本转录及社会语言学分析资料,涵盖原始音频、标注文件、参与者信息与研究说明,为克里奥尔语研究提供多类型数据支持。 文件详解 该数据集包含11个文件,按类型分类说明如下: - PDF文档类(共4个): -...
    packageimg
  • 巴黎圣母院教务会议登记册数字化协作项目中世纪手稿手写文本识别基准数据集1326_1504

    2025年12月5日 30 40 19

    数据集概述 本数据集为e-NDP项目产出的中世纪手稿手写文本识别(HTR)基准数据,包含1326-1504年巴黎圣母院教务会议登记册的512页标注内容,涵盖文本转录与版面分割信息,支持中世纪草书手写文本识别模型训练与评估。 文件详解 主压缩文件: e-NDP_dataset.zip: ZIP格式压缩包,包含数据集所有内容...
    packageimg
  • TranscriboQuest古希腊团队数据集2024

    2025年12月5日 30 138 110

    数据集概述 本数据集是2024年九月十一日至十三日在里昂举办的TranscriboQuest活动期间,由古希腊团队生成的数据集,包含活动相关的文档、配置文件和数据压缩包,具体信息可参考README文件。 文件详解 README.md: MD格式文件,包含项目介绍、团队信息、数据描述、指南和致谢等内容 Guidelines.pdf:...
    packageimg
  • 卡拉布里亚发声物体研究_访谈与田野笔记_皮塔节

    2025年12月4日 30 58 11

    数据集概述 该数据集包含卡拉布里亚地区传统发声物体研究的民族音乐学数据,源于欧盟资助的LoMus项目(Local Sound for a New Musicality)。数据涵盖访谈录音、田野笔记、视频、图片及文本转录文件,为研究当地声学实践与音乐参与提供多维度资料支持。 文件详解 音频文件:...
    packageimg