-
日本虚假新闻数据集
2025年12月24日 30 134 98
数据集概述 该数据集为日本虚假新闻相关数据,包含一个压缩文件,未提供具体内容预览,可通过项目页面获取更多细节。 文件详解 文件名称: J-fakenews_v1.zip 文件格式: ZIP (.zip) 文件内容: 未提供具体内容预览,为压缩格式的数据集文件 适用场景 虚假新闻检测研究: 可用于训练和测试针对日语文本的虚假新闻识别模型...
-
政治辩论中的多模态谬误分类数据集
2025年12月18日 30 44 3
数据集概述 本数据集为政治辩论中的多模态谬误分类研究提供补充文件,核心内容围绕政治辩论场景下的谬误分类任务展开,以压缩包形式存储相关数据,为多模态分析领域的研究提供支持。 文件详解 文件名称: MMUSED-fallacy.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
-
句法同义词的语言学特征认知方面数据集
2025年12月24日 30 132 96
数据集概述 该数据集聚焦于句法同义词的语言学特征,从认知视角展开研究,以单篇PDF文档形式呈现相关研究内容,为探索句法同义词的认知语言学属性提供资料支持。 文件详解 文件名称: Сайидирахимова Насиба Сайидмахамадовна.pdf 文件格式: PDF (.pdf) 文件内容:...
-
乌兹别克语停用词列表数据集
2025年12月23日 30 30 29
数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
-
西班牙临床过敏笔记语料库
2025年12月23日 30 29 23
数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
-
BiodivTab语义表格标注任务基准数据集
2025年12月22日 30 66 2
数据集概述 本数据集是针对语义表格标注任务的基准数据集BiodivTab,以表格形式组织生物多样性相关数据,为评估语义表格标注算法性能提供标准测试资源。 文件详解 文件名称: BiodivTab_DBpedia.zip:压缩文件格式,内容未提供预览,推测包含与DBpedia关联的生物多样性表格数据。 文件名称:...
-
KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据
2025年12月21日 30 127 97
数据集概述 该数据集是一份包含500个名词的Biya Mungbam语言词表,Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据,记录了声调、前缀、词根及名词短语等方面的个体差异。 文件详解 文件名称:KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...
-
Twitter气候变化标签与关键词数据集
2025年12月20日 30 196 130
数据集概述 该数据集收集了Twitter平台上与气候变化相关的标签和关键词,分为支持与意识类、批判与怀疑类、两党气候类三大类别,覆盖带标签和无标签关键词,经清洗后确保数据准确性,为社交媒体话语分析提供结构化数据支持。 文件详解 文件名称:Climate Change Hashtags and Keywords on Twitter.pdf...
-
新冠演讲小型语料库2020
2025年12月19日 30 32 4
数据集概述 该数据集为新冠演讲小型语料库,包含伊曼纽尔·马克龙、佩德罗·桑切斯和安格拉·默克尔三位领导人的十五篇演讲,每位五篇。十四篇演讲时间为2020年3月至6月,每人均有一篇为同年10月或11月,内容和意图具有相似性。 文件详解 演讲文件(共15个): 文件格式:DOCX(.docx)...
-
在线购物术语词汇语义分类数据集
2025年12月14日 30 16 15
数据集概述 该数据集包含1份关于在线购物术语词汇语义分类的PDF文档,核心围绕在线购物相关术语的词汇语义分类展开,为理解电商领域术语体系提供参考资料。 文件详解 文件名称: To'xtasinova Zarina.pdf 文件格式: PDF 内容说明: 包含在线购物术语词汇语义分类的研究内容,具体字段或章节需查阅文档内容 适用场景 电商术语体系研究...
-
印尼人权紧急状态推特标签推文数据集2020
2025年12月14日 30 70 36
数据集概述 本数据集是通过Twint工具采集的、包含2020年12月18日至19日期间,带#IndonesiaHumanRightsSOS标签的推特数据,共约十万六千九百零三条记录,涵盖用户ID、用户名、推文内容等基础信息,还附带词云、高频词等分析样例,为研究该标签相关讨论提供支持。 文件详解 原始数据文件:...
-
东京都立大学在线学习系统日语FAQ数据集
2025年12月13日 30 152 70
数据集概述 该数据集包含东京都立大学在线学习系统的FAQ数据及其分类,用于训练专用聊天机器人。数据基于2015年4月至2018年7月师生使用系统时的真实问答记录,提供日语原版及英文翻译版数据,支持学术研究。 文件详解 该数据集包含两类文件,具体说明如下: - FAQ数据文件(CSV格式): - Answer2Category.csv:答案分类对应关系...
-
COVID接触追踪应用用户评论挖掘项目实证数据集
2025年12月13日 30 29 20
数据集概述 该数据集为COVID接触追踪应用用户评论挖掘项目的实证数据,包含应用URL信息、评论分析的原始及处理数据、评论趋势与情感可视化图表等,支持对相关应用用户反馈的分析研究。 文件详解 文本文件: apps country URLs.txt:TXT格式,记录不同国家COVID接触追踪应用的名称及对应Google Play、App...
-
fauna_bororo_v0_1_Based_语言结构研究完整数据集
2025年12月12日 30 15 11
数据集概述 本数据集包含与语言结构相关的压缩文件,核心围绕LanguageStructure/fauna_bororo-v0.1.zip展开,未提供具体内容描述,文件类型单一,为压缩格式,无额外目录结构或数据划分信息。 文件详解 文件名称:LanguageStructure/fauna_bororo-v0.1.zip 文件格式:ZIP压缩包(.zip)...
-
同形异义词与同音异义词关联数据集
2025年12月11日 30 80 18
数据集概述 本数据集聚焦于同形异义词与同音异义词的关联研究,包含一份PDF格式的相关文档,为语言文字领域中词汇语义与语音关系的分析提供基础资料。 文件详解 文件名称: Jurayeva Zulayxo Shamsiddinovna.pdf 文件格式: PDF(.pdf) 内容说明:...
-
MESINESP2西班牙语生物医学语义索引标注语料库
2025年12月11日 30 138 131
数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
-
比尔肯特土耳其语写作数据集2014_2025
2025年12月10日 30 140 124
数据集概述 该数据集是比尔肯特大学2014-2025年土耳其语101和102课程的学生创意写作汇编,包含九千一百一十九篇原创文本,聚焦创造力、内容、语法等维度。2.0版本较初始版扩充约百分之三十三内容,是学术研究用公开土耳其语创意写作语料库之一。 文件详解 文本数据文件:...
-
数学与哲学相关两篇短文
2025年12月9日 30 42 8
数据集概述 该数据集包含两篇关于数学与哲学的短文,分别介绍数学哲学中的形式主义观点(认为数学和逻辑陈述是符号串按规则操作的结果)和柏拉图主义观点(数学断言的真值依赖于时空外的柏拉图实体)。 文件详解 文件名称:...
-
SemEval_2020任务1拉丁语词汇语义变化检测数据集
2025年12月8日 30 123 86
数据集概述 本数据集包含SemEval 2020任务1(无监督词汇语义变化检测)的拉丁语测试数据,涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分,还提供语料库的原始词形版本,支持词汇语义变化研究。 文件详解 文件名称: semeval2020_ulscd_lat.zip 文件格式: ZIP压缩包 压缩包内包含内容:...
-
量子技术叙事跨领域分析数据集
2025年12月8日 30 14 1
数据集概述 本数据集为《量子技术叙事:媒体、商业与政策话语的跨领域分析》手稿的配套数据,包含分析所用的文本语料库和主题建模输出,覆盖媒体、商业、政策三个领域的文本数据及对应BERTopic分析结果。 文件详解 Media Articles.zip: ZIP格式压缩文件,包含拆分至单句的媒体文章CSV文件,附带标题、报纸等元数据。 Business...



