数据集 - 海数据

罗兴亚新闻报道语料库数据集2016_2020

2025年11月29日

数据集概述本数据集收录了二零一六年至二零二零年间国际及孟加拉国媒体关于罗兴亚难民危机的新闻报道语料，包含新闻来源链接、媒体清单及编译后的纯文本语料，为多领域研究人员分析危机报道特征提供数据支持。文件详解该数据集按阶段划分文件，具体说明如下： - 阶段一（NOW语料库）文件： - Hyperlinks from NOW Corpus...

ZIP

AraSTEM_阿拉伯语STEM学科大语言模型能力评估完整数据

2025年11月29日

数据集概述 AraSTEM数据集专为评估大语言模型在阿拉伯语STEM（科学、技术、工程和数学）学科领域的知识水平而设计。该数据集包含涵盖多个主题和难度级别的选择题，要求模型展示对阿拉伯语科学内容的深度理解能力。数据集包含问题、选项、正确答案、学科分类、难度级别以及资源链接等信息，总计包含一个数据文件。文件详解 AraSTEM.json...

ZIP

巴西联邦公共部门公共价值金字塔与综合报告模型数据集

2025年11月29日

数据集概述本数据集是关于巴西联邦公共部门公共价值金字塔与综合报告模型的学位论文数据，包含基于特定研究目标的文本语料库、数据分析结果及可视化图表，覆盖CIPFA、IIRC、TCU等机构相关文本的处理与分析成果。文件详解该数据集按研究目标和分析工具分类组织，具体说明如下： - 目标一（Objetivo Específico 1）相关文件： -...

ZIP

社交媒体文本标准化可定制流程数据集

2025年11月29日

数据集概述该数据集是与2017年发表的研究论文相关的资源首次发布，包含一个压缩文件夹，提供了用于社交媒体文本标准化的可定制流程相关资源，具体内容需参考压缩包内的README文件。文件详解文件名称：resources.zip 文件格式：ZIP（.zip）...

ZIP

巴西葡萄牙语与巴西手语标注平行语料库

2025年11月29日

数据集概述该数据集包含127,349条巴西葡萄牙语与巴西手语（LIBRAS）标注的平行句子对，以CSV格式存储。核心为双语对齐内容，附加政府来源标识及葡萄牙语的英文自动翻译，支持手语处理与机器翻译研究。文件详解文件名称：pt_br2libras_gloss.csv 文件格式：CSV 字段映射： pt-br：巴西葡萄牙语原句 libras-...

ZIP

基于LSTM的用户情感分析新方法数据集

2025年11月29日

数据集概述本数据集围绕基于LSTM的用户情感分析新方法展开，包含用于分析社交网络用户情感的代码文件、数据集压缩包及相关文档，为自然语言处理领域中情感分析任务提供实践资源。文件详解文档文件: ReadMe.pdf: PDF格式，包含项目相关说明文档 code refrences.txt:...

ZIP

豪萨语多标签情感分类语料库

2025年11月29日

数据集概述该数据集包含一万二千七百六十一条豪萨语推特文本，每条标注愤怒、悲伤等十一种情感标签，适用于多标签文本分类任务。数据聚焦文化事件，由母语者人工标注，仅开放文本与标注内容，助力低资源语言情感分类研究。文件详解文件名称：HaEmoC_MLTC.csv 文件格式：CSV 字段映射： ID：数据唯一标识符 Original...

ZIP

大学生与研究生英语单词难度分级数据集

2025年11月29日

数据集概述本数据集包含五千三百六十八个英语单词，记录了单词的频率、长度、词性，以及被印度查谟和克什米尔地区大学生、研究生标记为困难的学生数量，为英语单词难度分级研究提供基础数据。文件详解原始数据文件: dataset_english.csv:...

ZIP

秘鲁监察专员办公室社会冲突状况监测数据集2019年3月

2025年11月29日

数据集概述该数据集基于秘鲁监察专员办公室2019年3月的公开信息，经作者加工处理而成，包含社会冲突状况监测相关数据，曾用于自然语言处理的机器学习与神经网络实验。文件详解文件名称：2019_03_RMCS_tablas_v4.xlsx 文件格式：Excel（.xlsx）内容说明：未提供具体字段映射信息，文件为数据集唯一数据文件数据来源...

ZIP

英语时态文本分类数据集

2025年11月29日

数据集概述该数据集是大规模英语文本分类数据集，包含按过去、现在、未来三种时态分类的英语句子。共收录一万三千三百一十六个标注句子，其中现在时态四千六百二十一句、过去时态三千八百五十一句、未来时态四千八百四十四句，为自然语言处理研究提供支持。文件详解文件名称: EnglishTenseUniqueDataset.xlsx 文件格式: XLSX...

ZIP

阿拉伯语谣言与非谣言推文数据集

2025年11月29日

数据集概述该数据集包含针对特定主题的阿拉伯语谣言与非谣言推文相关数据，共4个表格，涵盖推文特征、原始数据及主题特征（基于新闻推文提取），并附带8个用于特征提取、数据处理和分类的Python源代码文件，为阿拉伯语社交媒体内容的谣言检测研究提供支持。文件详解该数据集由“Dataset/”和“Source-Code/”两个目录组成，具体说明如下： -...

ZIP

利什曼原虫HU3株鞭毛内转运蛋白52数据集

2025年11月29日

数据集概述该数据集包含利什曼原虫HU3株（Leishmania donovani HU3 strain）的鞭毛内转运蛋白52（IFT52）相关信息，存储为单一文本文件，记录了蛋白质名称、物种等基础数据。文件详解文件名称: LDHU3_19.0370.txt 文件格式: TXT 字段映射: Wikidata:...

ZIP

HASSANIYA_DTCD豪萨尼亚方言文本分类基准数据集

2025年11月29日

数据集概述该数据集是首个豪萨尼亚方言文本分类基准数据集，包含一千八百五十一条记录，分为正面、负面、中性三类。数据通过网络爬虫从Facebook评论收集，使用Label Studio标注，为豪萨尼亚方言文本分类任务提供基准数据支持。文件详解目录：HASSANIYA-DTCD A new Dataset for Benchmarking Text...

ZIP

PROSHNO_BINNASH孟加拉语多标签问题分类与翻译数据集

2025年11月29日

数据集概述本数据集为孟加拉语PROSHNO BINNASH（问题分类）数据集，主要用于支持孟加拉语的多标签问题分类和问答任务。数据集包含两个Excel文件，分别存储原始孟加拉语问题及其英文翻译版本，为自然语言处理研究提供结构化的孟加拉语问题标注数据。文件详解原始孟加拉语问题文件文件名称：PROSHNO BINNASH/Proshno_...

ZIP

词汇释义与上下文一致性数据集

2025年11月29日

数据集概述该数据集包含基于俄语大解释词典的词汇释义、词汇使用上下文及释义与上下文一致性标注的三元组数据，用于验证词汇释义与实际使用场景的匹配关系。文件详解文件名称：Gloss-Context Consistency/gloss_context.csv 文件格式：CSV（逗号分隔值）字段映射： Gloss：俄语大解释词典中词汇的释义文本...

ZIP

葡萄牙语作者归属分析语料库

2025年11月29日

数据集概述该数据集是用于作者归属分析的葡萄牙语语料库，包含三位不同作者的作品，每位作者各三部，共计九部书籍文本，为研究文本特征与作者风格关联提供数据支持。文件详解文件类型：所有文件均为TXT格式（.txt），共9个文件，占比百分之百文件示例： MC_O Outro Pe da Sereia.txt MC_Jesusalem.txt JS_A...

ZIP

多语言UVigoMED生物医学文档分类数据集

2025年11月29日

数据集概述该数据集为多语言单标签语料库，包含一万一千一百二十六篇英文生物医学文档（源自维基百科人类医学内容）及一万二千五百二十一篇西班牙语、法语等八种语言的文档，所有文档被分类至二十二个医学类别中。文件详解文件名称: ML-UVigoMED/ML-UVigoMED.zip 文件格式: ZIP (.zip) 内容说明:...

ZIP

环境科学文章摘要慷慨度评估数据集

2025年11月29日

数据集概述该数据集包含36,237篇环境科学领域文章的摘要慷慨度评估数据，核心指标为GEM分数（Generosity Measure），并整合了文章基础信息、被引数据、学科分类及开放获取状态等维度。文件详解文件名称：dataset_generosity_abstract_GEMScore.csv 文件格式：CSV 核心字段： ISTEX...