-
基于Lieberherr和Bodt_科博瓦语比较词表_的CLDF数据集2017
2025年12月21日 30 180 41
数据集概述 该数据集是基于2017年Lieberherr和Bodt研究的"科博瓦语比较词表"转换的CLDF格式数据集,包含科博瓦语核心词汇数据,支持语言比较与分类研究。 文件详解 文件名称:lexibank/lieberherrkhobwa-v2.1.zip 文件格式:ZIP压缩包...
-
Transformer与扩散模型协同集成的统一理论框架
2025年12月16日 30 95 82
数据集概述 本数据集为一篇学术论文,提出了一种用于Transformer与扩散模型协同集成的统一理论框架。通过统一表示和广义动力学方程建立两者的对应关系,包含数学公式、注意力机制创新及理论分析,为结合两种范式优势的新型AI模型奠定基础。 文件详解 文件名称: Transformer_and_diffusion.pdf 文件格式: PDF (.pdf)...
-
提格利尼亚语语言建模数据集TLMD_v1_0_0
2025年12月13日 30 150 28
数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
-
印欧语系内部语言快速辐射补充材料数据集
2025年12月13日 30 55 19
数据集概述 本数据集是论文《印欧语系内部语言的快速辐射:印欧语词汇统计的先进方法》的补充材料,包含词汇表、语言学注释文档及系统发育树相关技术文件,支持实验可重复性。 文件详解 数据集包含3个文件,具体说明如下: - Kassian-et-al_2021_IE_phylogeny_Supplement-...
-
Wichmann_2025_ASJP_Database_Based_语言比较研究CLDF完整数据
2025年12月11日 30 101 88
数据集概述 本数据集是基于Wichmann等人2025年发布的"ASJP Database"第21版转换而来的CLDF格式数据集,为语言比较研究提供标准化数据支持。 文件详解 文件名称: lexibank/asjp-v21.zip 文件格式: ZIP压缩包(.zip) 内容说明: 包含ASJP...
-
Skirgård_Grambank_Based_语言语法特征分析完整数据
2025年12月7日 30 201 90
数据集概述 本数据集为Grambank v1.0版本,是一个与语言语法特征相关的数据库。相关研究论文将发表于《Science Advances》,旨在揭示谱系约束对语言多样性的重要性,并强调语言流失的影响。 文件详解 文件名称: grambank/grambank-v1.0.3.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
尼泊尔语文本语料库数据集
2025年11月7日 30 17 6
尼泊尔语文本语料库数据集_Nepali_Text_Corpus 数据来源:互联网公开数据 标签:尼泊尔语, 文本语料库, 自然语言处理, 语言学, 文本分析, 语料库构建, 文本挖掘, 语言建模 数据概述: 该数据集包含来自尼泊尔语文本的语料库,记录了尼泊尔语文本的数据。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态语料库。...
-
自然语言处理预训练模型评估数据集
2025年8月21日 30 89 42
自然语言处理预训练模型评估数据集_Natural_Language_Processing_Pre_training_Model_Evaluation_Dataset 数据来源:互联网公开数据 标签:自然语言处理, 预训练模型, 文本评估, 语言建模, 文本分类, 模型训练, 机器翻译, 情感分析 数据概述:...
-
孟加拉语新闻分类数据集1963-2021
2025年4月14日 60 138 64
孟加拉语新闻分类数据集1963-2021 数据来源:互联网公开数据 标签:孟加拉语,新闻分类,NLP,机器学习,文本分析,情感分析,信息检索,语言建模 数据概述: 本数据集收录了来自Jamuna...
-
英语文本BERT基础模型未分词双字母组合数据集-2019
2025年6月4日 30 26 20
英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:...
-
奥里亚语新闻与维基百科数据集-2021-arnavs19
2025年5月31日 30 71 5
奥里亚语新闻与维基百科数据集-2021-arnavs19 数据来源:互联网公开数据 标签:奥里亚语,新闻,维基百科,语言模型,情感分析,主题建模,数据集 数据概述: 本数据集包含奥里亚语文本样本,来源包括新闻网站、维基百科和新闻语料库。数据集分为三个主要部分: 奥里亚语新闻文章:收集了19000篇近期奥里亚语新闻文章,涵盖政治、体育、娱乐等多个主题。...
-
古兰经圣训注释问答语言建模数据集QuranHadithTafseerQAforLanguageModelling-omarrelsayeed
2025年5月28日 30 99 39
古兰经圣训注释问答语言建模数据集QuranHadithTafseerQAforLanguageModelling-omarrelsayeed 数据来源:互联网公开数据 标签:古兰经,圣训,注释,问答数据集,语言建模,自然语言处理,宗教研究,数据科学 数据概述:该数据集包含古兰经、圣训及其注释的问答数据,适用于语言建模、自然语言处理等任务。主要特征如下:...
-
语音识别与语言建模基准测试数据集SLURP-LB-SpeechRecognitionandLanguageModelingBenchmarkDataset-mrhakk
2025年4月26日 30 46 32
语音识别与语言建模基准测试数据集SLURP-LB-SpeechRecognitionandLanguageModelingBenchmarkDataset-mrhakk 数据来源:互联网公开数据 标签:语音识别,语言建模,数据集,自然语言处理,深度学习,人工智能,基准测试,语音技术 数据概述: 该数据集包含来自SLURP-...
-
词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Se...
2025年4月25日 30 95 37
词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Senses-shreyswan 数据来源:互联网公开数据 标签:自然语言处理,词汇意义消歧,数据集,语言建模,文本分析,语义理解,机器学习,语言学 数据概述:...
-
爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan
2025年4月22日 30 88 33
爱尔兰古语与中古爱尔兰语语料库数据集-noahsullivan 数据来源:互联网公开数据 标签:语料库,古语,中古爱尔兰语,自然语言处理,词典,语言学,历史,文化,文本分析 数据概述: 本数据集为《爱尔兰古语与中古爱尔兰语语料库》(Corpus PalaeoHibernicum,...
-
英文电影字幕数据集
2025年4月22日 30 29 9
英文电影字幕数据集 数据来源:互联网公开数据 标签:电影字幕,英文电影,自然语言处理,语言建模,情感分析,机器学习,文本分类 数据概述: 本数据集包含了多部英文电影的字幕内容,涵盖广泛的主题和类型。数据集中的字幕以文本形式呈现,记录了电影中的对话、背景音及其他音频信息,为自然语言处理和机器学习提供丰富的语料支持。 数据用途概述:...
-
BBC印地语新闻文章数据集
2025年4月14日 30 54 29
BBC印地语新闻文章数据集 数据来源:互联网公开数据 标签:印地语新闻,新闻文本,自然语言处理,NLP,情感分析,语言模型,新闻分类 数据概述: 本数据集包含通过Python网络爬虫技术从BBC印地语新闻网站采集的大量新闻文章,涵盖了多个新闻类别。每个新闻条目包含以下三个核心字段: 标题(Headline):新闻文章的标题,用于概括新闻的主要内容。...



