找到32个数据集

标签: 语言特征分析

过滤结果
  • 闪米特语分类补充数据集_2011年版

    2026年2月15日 30 52 51

    数据集概述 本数据集为Semitic语言分类研究的补充数据,旨在扩展可用于Semitic语言分类的语法特征列表,与Faber 1997和Gai 1994的数据集规模可比,满足平衡性要求。数据集最初于2011年都灵会议发布,后用于2017年Zemánek的文章研究。 文件详解 文件名称:SemiticClassificationCompl-...
    packageimg
  • BSARD_Based_比利时法定条款检索数据集_v1

    2026年1月30日 30 70 36

    数据集概述 本数据集为比利时法定条款检索数据集(BSARD),是法语原生语料库,包含比利时法律的22600余条法定条款,以及比利时公民提出的约1100个法律问题,由资深法学家标注相关条款,用于研究法定条款检索。 文件详解 文件名称:bsard_v1.zip 文件格式:ZIP...
    packageimg
  • IN02065_Siddham_梵语铭文XML数据_草稿版

    2026年1月29日 30 103 18

    数据集概述 本数据集包含IN02065号Candesvara柱铭文的梵语文本,以XML格式存储。这是一个草稿版Epidoc格式文件,将被整合到“Siddham”档案中。数据未包含元数据,仅聚焦于铭文文本内容,为古文字研究提供数字化文本资源。 文件详解 文件名称:IN02065.xml 文件格式:XML...
    packageimg
  • S6_Data_Swahili焦点小组讨论转录本匿名化数据

    2026年1月29日 30 26 20

    数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
    packageimg
  • eWAVE_Based_英语变体电子世界地图集数据集2013

    2026年1月29日 30 171 3

    数据集概述 本数据集为《英语变体电子世界地图集》(eWAVE 2.0)的归档文件,由Kortmann与Lunkenheimer主编,2013年发布于马克斯·普朗克进化人类学研究所。数据包含英语变体相关内容,以压缩包形式提供,支持语言研究领域对全球英语变体的分析与参考。 文件详解 文件名称:ewave-v2013.zip 文件格式:ZIP(压缩归档文件)...
    packageimg
  • DH_RSE_2024年夏季学校研讨会第三组_莎士比亚作品文本分析数据压缩包

    2026年1月20日 30 107 77

    数据集概述 本数据集为基于文本分析的莎士比亚作品语言特征研究相关数据,以压缩包形式提供,包含1个文件,无目录结构,未区分训练/测试、数据/标签或原始/处理数据,可用于莎士比亚作品语言特征的分析研究。 文件详解 文件名称:DH-RSE-Summer-School-2024-Workshop-Team3-main.zip 文件格式:ZIP...
    packageimg
  • IN01010_Sanskrit_Pīparḍūlā特许状梵语文本XML数据

    2026年1月20日 30 122 70

    数据集概述 本数据集包含IN01010号Pīparḍūlā特许状(Narendra颁布)的梵语文本XML文件,无元数据,仅含一份核心文件。数据聚焦于古梵语特许状的数字化文本内容,为梵语文献研究提供结构化的文本资源。 文件详解 文件名称:IN01010.xml 文件格式:XML...
    packageimg
  • IN01034_VisnuvarmanBirurGrant梵语铭文XML数据

    2026年1月20日 30 44 1

    数据集概述 本数据集包含IN01034号铭文——Visnuvarman王第3年Birur敕令(存疑)的梵语XML文件,无元数据。数据集仅含1个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试集、数据/标签或原始/处理数据。 文件详解 文件名称:IN01034.xml 文件格式:XML...
    packageimg
  • IN01048_Based_Mrgesavarman_Banavasi碑铭梵语XML文本数据

    2026年1月17日 30 148 53

    数据集概述 本数据集包含IN01048号Banavasi碑铭(Mrgesavarman时期)的梵语文本XML文件,无附加元数据。数据为单一文件,直接记录碑铭的梵语内容,是研究古代印度碑铭文献、梵语语言及历史文化的基础数字化资源。 文件详解 文件名称:IN01048.xml 文件格式:XML...
    packageimg
  • 数据521_english_robinson_crusoe_英文鲁宾逊漂流记文档

    2026年1月15日 30 26 12

    数据集概述 本数据集包含一份英文版本的《鲁宾逊漂流记》文档,文件名称为521_english_robinson_crusoe.docx,无其他关联文件或目录结构,未检测到命名模式、训练测试/数据标签/原始处理数据等分割,文档内容无预览信息。 文件详解 文件名称:521_english_robinson_crusoe.docx 文件格式:DOCX...
    packageimg
  • Open_Research_Europe_2022_Bangime接触层检测研究CLDF数据集

    2026年1月11日 30 100 20

    数据集概述 本数据集是研究论文“First steps towards the detection of contact layers in Bangime: a multi-disciplinary, computer-assisted approach”的CLDF格式支撑数据,聚焦Bangime语言接触层检测,为多学科计算机辅助研究提供结构化资源。...
    packageimg
  • 教父文本档案_古代基督教文本开放获取档案

    2025年12月23日 30 105 103

    数据集概述 该数据集为“教父文本档案”开放获取资源,包含古代基督教文本的原文及译文,以.zip格式压缩包存储,提供一站式的文本资源集合。 文件详解 该数据集包含一个压缩包文件,具体说明如下: - 文件名称: PatristicTextArchive/pta_data-1.1.12315518284.zip - 文件格式: ZIP (.zip) -...
    packageimg
  • 乌兹别克语交流主题PDF文档

    2025年12月21日 30 124 100

    数据集概述 本数据集包含一份以乌兹别克语撰写的PDF文档,标题为“IJTIMOIY TARMOQLARDA AXBOROT ALMASHISH”,主题围绕社交网络中的信息交流展开,未提供具体内容描述。 文件详解 文件名称: Sharafatdinova Malika Berdaq qizi.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 听觉与运动皮层中语音跟踪的感知相关性数据集2018

    2025年12月20日 30 91 14

    数据集概述 本数据集包含语音跟踪研究的相关文件,聚焦听觉与运动皮层中不同语言特征(短语、词、音节、音素)对应的语音跟踪现象,分析其感知相关性及跨频率耦合机制,为语音处理神经机制研究提供数据支持。 文件详解...
    packageimg
  • 数字时代变异社会语言学在线交流分析挑战数据集

    2025年12月20日 30 180 28

    数据集概述 本数据集为一篇学术文章,探讨数字时代将变异社会语言学应用于在线交流分析的挑战与机遇,分析传统方法如何适应数字平台独特语言特征,涉及数据收集、身份流动性及数字语言对变异的影响等内容。 文件详解 文件名称: 1-112-116-Yuldashev Doniyor.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 哥廷根印度语言电子文本注册库_佛教文献

    2025年12月20日 30 33 22

    数据集概述 该数据集为哥廷根印度语言电子文本注册库(GRETIL)中的佛教文献部分,包含一百零一个HTML格式文件,无目录层级,未划分训练/测试集、数据/标签或原始/处理数据。 文件详解 该数据集由一百零一个文件组成,具体说明如下: - 文件类型: - 所有文件均为HTML格式(.htm),占比百分之百 - 文件命名示例:...
    packageimg
  • 在线虚假信息分类体系TAXODIS

    2025年12月20日 30 203 185

    数据集概述 本数据集为在线虚假信息分类体系(TAXODIS),结构化定义并分析了在线虚假信息话语的语言特征,旨在帮助标注训练数据,为机器学习和计算模型提供支持。 文件详解 文件名称:TAXODISv1.0_Alphabetical_Display.pdf,文件格式:PDF,为分类体系的字母顺序展示文档...
    packageimg
  • 欧洲文学文本集_法国小说语料库2021

    2025年12月20日 30 150 125

    数据集概述 本数据集是欧洲文学文本集(ELTeC)的法国小说语料库,由COST Action“欧洲文学史的远读”项目制作,版本为v1.0.1。包含法国小说文本及元数据,所有文本均属于公有领域,为文学研究提供标准化语料支持。 文件详解 该数据集包含三个文件,具体说明如下: - 文件名称: ELTeC-fra_metadata.tsv - 文件格式:...
    packageimg
  • 以_ain结尾的地名列表数据集

    2025年12月19日 30 203 124

    数据集概述 本数据集是一份关于以后缀-ain结尾的地名(Toponyms)的列表,以PDF文档形式呈现,为研究特定语言或地理区域的地名命名规律提供基础数据支持。 文件详解 文件名称: Sufijo_ain.DatosDoc.pdf 文件格式: PDF (.pdf) 文件内容: 包含所有以-ain为后缀的地名列表,具体字段及内容需通过PDF文档查阅。...
    packageimg
  • 斯拉夫语昼夜划分术语汇总数据集

    2025年12月14日 30 98 73

    数据集概述 该数据集是斯拉夫语中昼夜划分相关术语的汇总资料,以PDF文件形式呈现,为研究斯拉夫语语言特征及昼夜时间划分的术语体系提供基础数据支持。 文件详解 文件名称:Samlade data - ljus period.pdf 文件格式:PDF (.pdf)...
    packageimg