找到257个数据集

标签: 语言特征

过滤结果
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 30 143 33

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • IN01006_Based_梵语Rawan宪章XML文献数据

    2026年2月9日 30 57 40

    数据集概述 本数据集包含IN01006编号的Narendra的Rawan宪章梵语文献,以XML格式存储,无附加元数据。数据集仅含一个文件,用于提供结构化的梵语历史文献内容,支持梵语文献研究与文本分析。 文件详解 文件名称:IN01006.xml 文件格式:XML...
    packageimg
  • IN01026_Devagiri_Grant梵语XML铭文数据

    2026年2月9日 30 186 59

    数据集概述 本数据集包含IN01026号梵语铭文《Devagiri Grant of Devavarman》的XML文件,无元数据。数据核心为该梵语铭文的数字化文本内容,共1个文件,用于梵语铭文文献的数字化保存与研究。 文件详解 文件名称:IN01026.xml 文件格式:XML 字段映射介绍:包含Devavarman的Devagiri...
    packageimg
  • CONTRAST_IT_Based_西班牙语报纸文章语料库数据

    2026年1月28日 30 148 57

    数据集概述 本数据集是CONTRAST-IT多语言语料库的西班牙语部分,包含2011-2012年来自西班牙《国家报》(elpais.com)和《世界报》(elmundo.es)的476篇完整新闻文章,总字数约30万字,文本具有当代西班牙语报纸语言代表性,用于构建对比语言学研究用的语料库。 文件详解 文件组:CONTRAST-IT西班牙语新闻文章集...
    packageimg
  • swadesh_Source_库尔曼吉语斯瓦迪士核心词表数据

    2026年2月8日 30 136 11

    数据集概述 本数据集为库尔曼吉语(Kurmanji)的斯瓦迪士核心词表数据,包含一个压缩文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于语言学领域的词汇研究与分析。 文件详解 压缩文件 文件名称:swadesh-V1.1.zip 文件格式:ZIP...
    packageimg
  • C_SSRS_Based_Reddit用户自杀风险标注数据集

    2026年2月8日 30 182 174

    数据集概述 本数据集包含Reddit平台r/SuicideWatch等心理健康相关子版块用户的自杀风险评估数据。通过哥伦比亚自杀严重程度评定量表(C-SSRS),由领域专家对448名用户标注为支持性、自杀意念、自杀行为、自杀尝试四类标签,标注者间一致性达0.76。数据集含7个文件,覆盖匿名用户帖子及标注信息,为社交媒体自杀风险分析提供支撑。 文件详解...
    packageimg
  • Youtube_API_Based_社交媒体历史场景标题数据集

    2026年2月8日 30 6 5

    数据集概述 本数据集通过Youtube API获取,包含多种历史场景下的社交媒体标题数据。数据集结构简单,仅含一个JSON格式文件,无目录层级划分,未提供训练/测试、数据/标签或原始/处理数据的划分,也无README或内容预览文件。 文件详解 文件名称:youtube_collection.json 文件格式:JSON...
    packageimg
  • Telugu_Suicide_Based心理健康检测泰卢固语文本数据集

    2026年2月6日 30 15 8

    数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • 赫恩胡特兄弟会通讯文献资料_1765_1941年

    2026年2月1日 30 151 4

    数据集概述 本数据集是赫恩胡特合一档案馆(Unitätsarchiv Herrnhut)提供的“Gemein-Nachrichten”数字文献,包含1765年至1941年间弟兄会的社区报告、传教与散居工作内容、演讲及生平记录。数据集采用XML-TEI转录和标准化文本格式,提供多版本文件,适用于宗教历史研究与文本分析。 文件详解...
    packageimg
  • S5_Data_Swahili匿名IDI转录本数据

    2026年1月31日 30 53 52

    数据集概述 本数据集为S5 Data,包含斯瓦希里语中所有IDI(个体深度访谈)转录本的匿名版本,这些转录本基于S4 Data进行分析,并选择性翻译用于结果部分的引用。数据集仅包含一个文件。 文件详解 文件名称:S5 Data. IDIs transcripts.docx 文件格式:DOCX...
    packageimg
  • BES_Based_新闻腐败叙事知识图谱构建分析数据

    2026年1月31日 30 75 3

    数据集概述 本数据集围绕BES案例,对新闻文章中腐败故事的叙事进行分析,用于构建知识图谱。包含2个文件,涵盖DCTAP格式数据和XML编码文件,为研究新闻叙事与知识图谱构建提供基础数据支持。 文件详解 DCTAP.xlsx 文件格式:XLSX 字段映射介绍:包含DCTAP(DC Tabular Application...
    packageimg
  • 硕士论文_美国总统大选副总统辩论会的性别影响研究数据

    2026年1月31日 30 1 0

    数据集概述 本数据集包含硕士论文《Does She Talk Differently?》的原始数据、分析生成的表格图表及七场美国总统和副总统辩论的编码转录文本,共10个文件。核心内容为辩论文本及性别相关编码数据,用于探究政治辩论中的性别差异及其影响。 文件详解 辩论转录文件(共7个) 文件名称:如September 26, 2016_ Clinton...
    packageimg
  • ILR_RAS_新约多谓词原因结构语境数据库_1_1版

    2026年1月31日 30 14 4

    数据集概述 本数据集为新约文本中含多谓词原因结构的语境数据库,包含1630个原因语境(来自1504个经文),通过俄、英、法三种语言新约译本的原因连词自动提取并人工编辑生成,可用于单语言及类型学研究。另含86个语境的试点标注子样本,标注内容包括语义语用类型与信息结构。 文件详解 主数据库文件...
    packageimg
  • OffensiveLang_Based攻击性语言数据集

    2026年1月31日 30 62 28

    数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
    packageimg
  • Kam_kdx_Lesage非洲语言词汇表数据2019

    2026年1月31日 30 160 100

    数据集概述 本数据集包含Kam语言(ISO 639-3: kdx;Glottocode: kamm1249)的词汇表,该语言属于尼日尔-刚果语系,主要分布在尼日利亚中东部,分类较困难。数据可作为RefLex资源的引用来源,当前仅提供词形、释义和词类信息,未来将发布包含音系和语法介绍的完整版词典。 文件详解...
    packageimg
  • NICKLE_Based_韩国英语学习者中介语语料库数据

    2026年1月30日 30 189 166

    数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
    packageimg
  • La_Pola_Siero_西班牙地图_问题4_语料数据

    2026年1月30日 30 75 58

    数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
    packageimg
  • TACO_Source_Twitter对话论点开源发布数据

    2026年1月30日 30 90 87

    数据集概述 本数据集为TACO(Twitter Arguments from COnversations)的开源发布数据,包含Twitter对话中的论点内容,以压缩包形式提供,无训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:TomatenMarc/TACO-Public-Data.zip 文件格式:.zip...
    packageimg
  • S6_Data_Swahili焦点小组讨论转录本匿名化数据

    2026年1月29日 30 62 24

    数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
    packageimg
  • APOSCRIPTA_Based_教皇书信统一语料库研究数据

    2026年1月29日 30 105 66

    数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
    packageimg