数据集 - 海数据

Chinese_Speech_to_Text_Based中文学习者语音样本与转录数据

2026年1月18日 30 45 13

数据集概述本数据集包含31名学习者的中文语音样本（单词语音），以及对应的转录文本和准确率评分，用于支持中文语音转文字相关的研究与应用。数据集仅包含一个文件，无训练/测试、数据/标签或原始/处理数据的划分。文件详解文件名称：Dataset Chinese Speech to Text.xlsx 文件格式：XLSX...

ZIP

Islamophobic_Hate_Speech_Based社交媒体强弱仇恨言论检测数据2019

2026年1月11日 30 29 16

数据集概述本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据，包含数据、代码及标注指南，共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源，可用于分析不同强度仇恨言论的特征与识别方法。文件详解文档文件...

ZIP

Fraud_Detection_Based_NLP与AI驱动欺诈检测整合研究数据

2026年1月15日 30 144 106

数据集概述本数据集对应研究主题“整合NLP、AI驱动数据分析、风险评估与电子举报系统的欺诈检测”，包含一份Excel格式文件，记录相关研究的响应数据，可用于欺诈检测领域的技术整合研究参考。文件详解文件名称：Integration of NLP, AI-Driven Data Analysis, Risk Assessment, and...

ZIP

Annexe_7_Corpus_Based_法国媒体文章与公民评论完整语料库数据

2026年1月15日 30 72 69

数据集概述本数据集为Annexe 7法国媒体文章与公民评论完整语料库，包含法国媒体发布的文章及公民对其的评论内容，以压缩包形式提供，是用于自然语言处理研究的文本语料资源。文件详解文件名称：7. Annexe 7 Corpus version complète articles médias et commentaires citoyens...

ZIP

CLEF_Shared_Task_2024_议会辩论意识形态与权力识别测试数据集

2026年1月15日 30 111 62

数据集概述本数据集为2024年CLEF议会辩论意识形态与权力识别共享任务的测试集，内容选自ParlaMint语料库（4.0版）的议会演讲文本。数据格式与训练集一致，但未包含标签信息，仅用于任务测试阶段的模型评估，包含1个压缩文件。文件详解文件名称：ideology-power-st-testset.zip 文件格式：ZIP...

ZIP

Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

2026年1月15日 30 194 93

数据集概述本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据，包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型，适用于低资源语言情感分析研究。文件详解情感标注数据文件文件名称：sentiment_eval_data.json 文件格式：JSON...

ZIP

RefWUG_Based_德语历时参考词使用图数据_Version1_1_0_2021

2026年1月14日 30 191 6

数据集概述本数据集包含通过参考使用采样创建的德语历时词使用图（WUGs），版本为1.1.0，发布于2021年12月15日。数据用于分析德语词汇在不同时间语境下的语义变化，可通过WUGsite获取数据格式说明、处理代码及更多相关数据集，核心文件为压缩包形式。文件详解文件名称：refwug.zip 文件格式：ZIP（压缩包）...

ZIP

Costa_Rican_News_Sources_Based_假新闻检测数据集_Beta

2026年1月13日 30 11 2

数据集概述本数据集为哥斯达黎加新闻源假新闻检测Beta版数据集，包含预处理后的西班牙语和英语新闻文本，以及通过LIWC词典分析的结果。数据用于评估数据挖掘模型对哥斯达黎加新闻网站生成的真实或潜在假新闻的分类能力，以验证模型可靠性并为后续研究扩展奠定基础。文件详解数据源文件（datasource_clasificado_webhose.xls）...

ZIP

DBpedia_Conversation_Question_Answering_Dataset

2026年1月12日 30 59 12

数据集概述本数据集基于DBpedia构建，包含一百一十五个问题及五十组对话内容，用于支持对话式问答相关研究。数据集以单一JSON文件形式存储，未划分训练/测试集、数据/标签集或原始/处理集，可直接用于对话式问答模型的训练或评估。文件详解文件名称：context_questions_benchmark.json 文件格式：JSON...

ZIP

Lexical_Complexity_Russian_Based多领域俄语词汇复杂度估计研究数据

2026年1月8日 30 166 54

数据集概述本数据集围绕俄语多领域场景下的词汇复杂度估计研究构建，包含一份压缩文件。数据聚焦俄语词汇复杂度评估的多领域应用场景，为相关自然语言处理任务提供基础数据支持。文件详解压缩文件文件名称：data.zip 文件格式：ZIP...

ZIP

Salience_In_News_And_Tweets_Based_新闻与推文显著性数据集v2_0

2026年1月7日 30 123 75

数据集概述本数据集为“Salience in News and Tweets”的新版本，聚焦新闻与推文内容中的显著性分析，包含一份压缩文件，可用于文本显著性相关的研究与分析。文件详解文件名称：Salience-In-News-And-Tweets-v2.0.zip 文件格式：ZIP...

ZIP

dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

2026年1月3日 30 103 76

数据集概述本数据集是IR/ML/NLP领域的数据集提及标注语料库，基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注，新增了源文献中开发的新数据集标注，并将复合数据集标注拆分为单独条目，以JSON格式重新打包，含标注偏移量信息。文件详解文件名称：ner_dataset_recognition_sentences.json...

ZIP

TEI_XML_Moravian_See_Voyages_Travel_Diaries_Text_Data

2025年12月31日 30 116 22

数据集概述本数据集包含六份摩拉维亚海航行日记的TEI/XML格式文件，记录了不同年份的航行文本内容，可用于历史航行记录的文本分析与研究，支持自然语言处理相关任务。文件详解数据文件文件名称：1753Text.xml、1742Text.xml、1749Text.xml、1761Text.xml、1746Text.xml、1752Text.xml...

ZIP

爱尔兰民间传说与格雷戈里夫人改编文本语料库

2025年12月23日 30 192 44

数据集概述该数据集包含十四篇英文爱尔兰民间传说原文及十四篇格雷戈里夫人的英文改编文本，支持原文与文学改写的比较分析，可用于研究编辑风格、改编实践及通过重述塑造爱尔兰文化遗产的过程。文件详解 metadata.xlsx：Excel格式，可能包含语料库的元数据信息 README.txt：纯文本格式，提供数据集的基本说明和使用指引 original-...

ZIP

多语言多领域文本属性数据集

2025年12月22日 30 43 30

数据集概述该数据集专为真实文档中的词级文本属性识别设计，包含1623张真实文档图像（涵盖法律通知、土地记录等多领域），覆盖8种语言，提供1117716个词级标注，标注类型包括粗体、斜体等文本属性及正常文本。文件详解测试集文件：MMTAD-TESTSET.zip，格式为ZIP，包含测试集数据模型文件：TEXTAR-...

ZIP

关键词_susu_情感数据

2025年12月20日 30 188 183

数据集概述本数据集围绕关键词“susu”（印尼语“牛奶”）的情感分析主题构建，包含相关的情感数据内容，以单一PDF文档形式呈现，为研究“susu”相关文本的情感倾向提供数据支持。文件详解文件名称: Open Data Sentimen Milk.pdf 文件格式: PDF (.pdf) 内容说明:...

ZIP

自然语言处理大型语言模型蜕变测试数据集2025

2025年12月19日 30 85 62

数据集概述本数据集是ICSME 2025会议论文相关研究的配套数据，围绕自然语言处理（NLP）任务中大型语言模型（LLM）的蜕变测试展开，包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据，所有文件以JSON格式存储，为LLM蜕变测试研究提供支撑。文件详解该数据集以ZIP压缩包形式组织，内部包含多个JSON文件和目录，具体说明如下： -...

ZIP

古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

2025年12月18日 30 165 37

数据集概述本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据，基于古希腊语-英语对齐指南改编，由领域专家使用Ugarit工具完成对齐，可支持相关文本对齐任务、数据集构建或自动化模型训练。文件详解文件名称：grc.txt 文件格式：.txt 内容说明：原始古希腊语文本文件文件名称：por.txt 文件格式：.txt...

ZIP

BigGrams半监督HTML信息提取系统数据集

2025年12月15日 30 64 24

数据集概述该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集，包含从真实网站抓取的网页数据，以及对应网站的人工标注参考实例数据，用于支持半监督信息提取方法的研究与验证。文件详解数据集包含一个ZIP压缩文件，解压后包含两个主要文件夹，具体说明如下： - 压缩文件: bigrams-reference-data-...

ZIP

Umsuka英语_祖鲁语平行语料库

2025年12月8日 30 8 0

数据集概述该数据集是开源高质量英语-祖鲁语平行语料库，涵盖南非本土及国际英语语境，由专业译者翻译构建。包含10000组平行句对（各5000组双向翻译），并从每组中分离1000组作为评估集，祖鲁语评估集经双重翻译以计算人类水平BLEU分数。文件详解训练数据文件（CSV格式）： zu-en.training.csv：祖鲁语-...

ZIP

找到578个数据集

注册成功！