数据集 - 海数据

Tigrinya_Analogy_Test_词嵌入模型评估数据集

2026年2月13日 30 194 25

数据集概述本数据集是提格利尼亚语版的谷歌类比测试集，用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证，剔除了不适用的条目，最终包含一万八千四百六十五条语义和句法类比条目，分为首都、货币、家庭、时态等九个测试小节。文件详解文件名称：TigrinyaAnalogyTest.zip 文件格式：ZIP...

ZIP

Urdu_Based乌尔都语攻击性内容数据集及实现代码

2026年1月30日 30 65 11

数据集概述本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件，用于复现研究论文结果并扩展相关发现。数据集共含5个文件，无目录层级，主要分为数据文件和代码文件两类，支持乌尔都语文本的攻击性内容分析任务。文件详解数据文件（.xlsx格式，共3个） dataset-unigram.xlsx：乌尔都语攻击性内容的单字词特征数据...

ZIP

UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

2026年1月29日 30 180 167

数据集概述本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容，主要用于训练抽象式文本摘要模型。数据集仅含一个文件，无目录结构，未划分训练/测试集、数据/标签集或原始/处理数据集，便于集中使用。文件详解文件名称：UCS-Dataset.xlsx 文件格式：XLSX...

ZIP

deLearyous_Based_人际环模型荷兰语情感分类数据集

2026年1月28日 30 202 31

数据集概述本数据集为基于Leary's Rose（人际环模型）的荷兰弗拉芒语情感分类数据集，包含11段对话的句子级标注。标注涵盖"支配性"和"亲和性"两个维度，提供8个象限离散类别标签、中性类别标签，以及连续值细粒度标注，用于情感分类研究。文件详解文件名称：deLearyous.zip 文件格式：ZIP...

ZIP

African_News_Corpus_非洲19种语言新闻语料数据

2026年1月27日 30 51 34

数据集概述本数据集为非洲19种语言的单语种新闻语料库，来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成，涉及多种非洲本土语言，总计包含20个文件，均为压缩格式，无目录层级结构。文件详解压缩文件包...

ZIP

Deep_learning_Based_孟加拉语深度学习问答系统数据集

2026年1月26日 30 136 4

数据集概述本数据集是论文《Deep learning based question answering system in Bengali》的配套数据，为SQuAD 2.0数据集的孟加拉语翻译版本，包含训练、验证及预处理翻译结果三类文件，共3个JSON格式文件，可用于孟加拉语问答系统的深度学习研究。文件详解...

ZIP

Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

2026年1月23日 30 33 17

数据集概述本数据集是针对孟加拉语关系抽取任务构建的专用数据集，基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库（KB）、90,441条带命名实体识别（NER）和词性标注（POS）的文本语料，以及440个孟加拉语地点助记符，可直接用于关系抽取任务。文件详解 location_mnemonics.xlsx...

ZIP

ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

2026年1月21日 30 156 79

数据集概述本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA，通过大语言模型自动化框架构建，包含181,976条标注为支持、反驳或信息不足的主张-证据对，可用于阿拉伯语自动事实核查模型训练与评估。文件详解文件名称：ARAFA.json 文件格式：JSON...

ZIP

Biografischportaal_nl_荷兰传记文本命名实体识别数据集

2026年1月21日 30 17 5

数据集概述本数据集用于荷兰传记文本的命名实体识别，包含六种实体类型（PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC）的标注。原始数据来源于荷兰传记门户网站，标注文件经人工检查分词和句子拆分，总计包含六个文件。文件详解...

ZIP

BanglaAbuseMeme_Based_孟加拉语辱骂表情包分类标注数据集

2026年1月20日 30 93 27

数据集概述本数据集为针对孟加拉语辱骂表情包分类任务构建的标注数据集，包含从网络获取的4000个数据点。旨在解决低资源语言环境下孟加拉语辱骂表情包检测模型缺乏基准数据的问题，支持相关AI模型的训练与评估，助力社交媒体平台的在线安全治理。文件详解文件名称：BanglaAbuseMeme.zip 文件格式：ZIP（压缩包）...

ZIP

MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集

2026年1月20日 30 197 144

数据集概述本数据集为用于文本分类的马拉雅拉姆语（混合代码）数据，来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区，通过YouTube API抓取整合。包含“text”（评论内容）和“label”（分类标签）两个属性，标签分为感恩、食谱相关、视频相关等七类，总计含多类标注实例。文件详解...

ZIP

Dzongkha_Handwritten_Digit_Dataset_NLP任务数据集

2026年1月13日 30 30 7

数据集概述本数据集为宗喀语手写数字图像数据，包含1000张JPG格式图像，涵盖0至9共10类宗喀语数字字符，由不丹100名不同背景人员手写采集，旨在填补宗喀语手写字符识别基准数据集的空白，支持自然语言处理相关研究。文件详解文件名称：Dataset.zip 文件格式：ZIP...

ZIP

Lower_Fungom_Ngun_Based_喀麦隆Ngun语言词汇资源数据集

2025年12月22日 30 77 17

数据集概述该数据集为Ngun语言的225词表，Ngun是蒙巴姆语的一种变体，属于也门-金比语族，使用于喀麦隆西北部Menchum省Fungom分区的Lower Fungom地区，语言具有声调及名词前缀特征，记录了两位顾问间的词汇变异。文件详解文件名称:...

ZIP

KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据

2025年12月21日 30 12 1

数据集概述该数据集是一份包含500个名词的Biya Mungbam语言词表，Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据，记录了声调、前缀、词根及名词短语等方面的个体差异。文件详解文件名称：KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...

ZIP

捷克波西米亚历史文献转录超级模型数据集2024

2025年12月14日 30 113 59

数据集概述该数据集记录了2024年学生资助竞赛（SGS）项目中，学生团队基于Transkribus平台开发的捷克历史文献转录模型成果。包含训练集、验证集的错误率数据，多个学生开发的转录模型（如Finale 2.0、Agreg-8）及其字符错误率（CER），以及最终聚合模型CZECH...

ZIP

找到15个数据集

注册成功！