-
Amazon_MT_Based手机多语言评论数据
2026年2月9日 30 119 6
数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
-
IDS_Based_Kalamang语言词典数据_存档
2026年2月9日 30 188 152
数据集概述 本数据集为Kalamang语言的IDS(Intercontinental Dictionary Series)词表,由Eline Visser于2021年编纂,收录于《洲际词典系列》。数据以压缩包形式提供,包含Kalamang语言的词汇资源,是研究该语言及相关语言学领域的基础资料。 文件详解 文件名称:intercontinental-...
-
Wikidata_dump1_Based_RDF格式转储数据
2026年2月8日 30 37 29
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF格式转储数据(dump1),包含实体、声明、三元组等语义网络信息,共4个文件,涵盖JSON配置文件、预览文件及压缩数据文件。 文件详解 info.json 文件格式:JSON...
-
人类语言资源库_基于博罗罗语的词汇数据库存档文件
2026年2月1日 30 47 45
数据集概述 本数据集为Bororoan词汇数据库,包含一个压缩文件,属于tupian-language-resources目录下的语言资源,未提供具体描述,文件类型单一为压缩包。 文件详解 文件名称:bororo-v0.9.5.zip 文件格式:ZIP 字段映射介绍:压缩包文件,包含Bororoan词汇数据库相关内容,具体内部结构及字段信息未提供预览。...
-
LIM_SOAS_Based藏语动词配价可视化词典数据
2026年1月31日 30 163 82
数据集概述 本数据集包含支撑《藏语动词配价可视化词典》的JSON格式数据及其说明文档,由英国研究与创新署(UKRI)资助、伦敦大学亚非学院(SOAS)开展的“动态词典学:藏语动词史”(LIM)项目产出,总计包含两个文件。 文件详解 数据文件 文件名称:LIM_TibetanVerbValencyDictionary_data.json...
-
CAT_Q_Based_北欧自闭症患者语言伪装文本数据
2026年1月30日 30 63 50
数据集概述 本数据集包含北欧地区113名自闭症参与者的语言伪装相关文本数据,基于CAT-Q调查(Hull et al, 2020)收集。为保护隐私,CAT-Q评分、健康数据及性别、年龄等变量已排除,仅保留语言能力伪装饱和度的文本内容,排除纯行为描述类回答。 文件详解 瑞典数据文件 文件名称:sweden.docx 文件格式:DOCX...
-
CafeteriaFCD_Based_食品消费数据语义标注资源
2026年1月28日 30 47 10
数据集概述 本数据集为CafeteriaFCD语料库的FoodBase精选版本,包含一千份经手动评估的食谱,标注了来自Hansard分类法、FoodON和SNOMED-CT三种食品语义资源的标签。数据共包含三个文件,均为XML格式,可用于食品语义标注相关的研究与分析。 文件详解 CafeteriaFCD_foodon.xml 文件格式:XML...
-
CLDF_Derived_声音象征类型学语义与语音特征数据集2020
2026年1月23日 30 199 175
数据集概述 本数据集是基于Johansson等人2020年发表的《声音象征类型学》研究生成的CLDF格式数据集,核心内容为通过语义和语音特征定义宏观概念的声音象征类型学研究数据,包含一个压缩文件,便于语言类型学领域的研究与分析。 文件详解 压缩文件 文件名称:lexibank/johanssonsoundsymbolic-v1.3.zip...
-
Kannada_Based情态意义故事板录音与ELAN标注数据集2023
2026年1月21日 30 92 49
数据集概述 本数据集包含达罗毗荼语系Kannada语言的录音资料,聚焦情态表达,基于《Tom and Mittens》和《Chore Girl》两个故事板制作。数据由音频文件及ELAN格式的转录、部分翻译和注释组成,是2023年杜塞尔多夫大学"城市语言田野调查"课程的成果,可用于Kannada情态语义及类型学研究。 文件详解...
-
ICPC2025_程序理解_Jupyter_笔记本方法名称探索性研究数据集
2026年1月21日 30 70 41
数据集概述 本数据集是论文《Method Names in Jupyter Notebooks: An Exploratory Study》的配套数据,用于支持对Jupyter Notebooks中方法名称的探索性研究。该论文已被第33届IEEE/ACM国际程序理解会议(ICPC 2025)研究轨道接收,数据集包含1个压缩文件。 文件详解...
-
Mondzish_Based_中国采集词汇录音转录数据库_2012_2015
2026年1月20日 30 41 32
数据集概述 本数据集为Mondzish(Mangish)词汇数据库,包含2012-2015年在中国采集的音频录音转录内容,是单一文件的词汇资源,可用于Mondzish语言的词汇研究与分析。 文件详解 文件名称:Mondzish_lexical_database.xlsx 文件格式:XLSX...
-
Human_labeled_Based_政治新闻议题与博弈框架人工标注语料库
2026年1月20日 30 39 33
数据集概述 本数据集是包含议题与博弈框架的人工标注新闻文章语料库,源自《纽约时报》和《洛杉矶时报》的在线政治新闻,涵盖2020年美国大选、特朗普弹劾等五个主题。语料库标注了句法、语义、语用等多层面语言特征,包含100篇新闻文章及相关标题、图片描述,总计一个文件。 文件详解 文件名称:Manual annotation.xlsx 文件格式:XLSX...
-
Shared_Research_Repository_BL报纸样本纯文本数据集
2026年1月19日 30 98 87
数据集概述 本数据集包含Shared Research Repository发布的报纸文章纯文本数据,以压缩包形式提供,可用于自然语言处理相关的文本分析任务,总计包含一个文件。 文件详解 压缩文件 文件名称:newspaper_text.zip 文件格式:ZIP...
-
Wikimedia_Commons_Based_动物单标签分类语义感知图像数据集
2026年1月15日 30 142 28
数据集概述 本数据集是基于Wikimedia Commons构建的动物单标签分类语义感知图像数据集,包含不同语义粒度的动物图像分类数据,分为Class1、Class2、Class3三个层级,各层级类别数量和图像数量按语义粒度递增/递减,用于评估语义特征对单标签图像分类算法效率的影响。 文件详解 文件名称:Description.txt 文件格式:TXT...
-
Annexe_7_Corpus_Based_法国媒体文章与公民评论完整语料库数据
2026年1月15日 30 64 23
数据集概述 本数据集为Annexe 7法国媒体文章与公民评论完整语料库,包含法国媒体发布的文章及公民对其的评论内容,以压缩包形式提供,是用于自然语言处理研究的文本语料资源。 文件详解 文件名称:7. Annexe 7 Corpus version complète articles médias et commentaires citoyens...
-
dictionaria_palula_Based_Palula语言词典数据2019
2026年1月15日 30 47 18
数据集概述 本数据集为Palula语言词典,由Henrik Liljegren于2019年发布,收录于Dictionaria第3卷,共1-2700页。数据以压缩包形式提供,包含Palula语言的词典内容,是研究Palula语言的重要资源。 文件详解 文件名称:dictionaria/palula-v1.2.zip 文件格式:ZIP...
-
Dicionário_Bororo_Portugûes_Based_双语词典数据_在线版本
2026年1月13日 30 75 42
数据集概述 本数据集为Bororo-Portugûes双语词典数据,包含在线版本的修正内容、新增条目及音频资源,提供Bororo语与葡萄牙语的翻译及相关语言资料,可用于语言研究与翻译参考,数据集含一个文件。 文件详解 文件名称:dicionario_bororo.xml 文件格式:XML...
-
Multi_CAST_Based_Multi_CAST_Teop多语言医疗CT标注语音文本数据集_V1905
2025年12月29日 30 197 131
数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布,版本为1905,包含1个压缩文件,无训练测试或数据标签拆分,核心语义关键词为医疗CT,是研究多语言医疗语音文本标注的基础语料。 文件详解 压缩文件 文件名称:Multi-CAST/mcteop-v1905.zip...
-
单义与多义词典_本质_特征及其在语言中的地位
2025年12月22日 30 36 22
数据集概述 本数据集包含一份关于单义与多义词典的PDF文档,核心内容围绕单义与多义的本质、特征及其在语言中的地位展开,为语言研究提供基础资料。 文件详解 文件名称: Rixsiboyeva Sevinch Farxod qizi.pdf 文件格式: PDF (.pdf) 文件内容:...
-
民族性语言学研究_乌兹别克语与英语词汇语义对比分析
2025年12月23日 30 50 27
数据集概述 本数据集聚焦乌兹别克语与英语中民族性相关词汇的语义研究,分析其词汇语义范畴、构成结构及语义特征,对比两种语言的共性与特性,为语言学领域的跨语言语义分析提供支持。 文件详解 文件名称: Akramova Guljakhon.pdf 文件格式: PDF (.pdf) 文件内容:...



