数据集 - 海数据

音乐歌词与元数据数据集1950_2019

2025年11月29日

数据集概述该数据集包含1950年至2019年的音乐歌词及元数据，涵盖悲伤度、舞蹈性、响度、声学特性等音乐属性，同时提供歌词文本，可用于自然语言处理相关研究。文件详解文件名称: tcc_ceds_music.csv 文件格式: CSV 字段映射: artist_name: 艺术家名称 track_name: 歌曲名称 release_date:...

ZIP

Tumblr帖子与博主的语义分析元数据

2025年11月29日

数据集概述本数据集是首个公开的Tumblr平台数据，包含通过自举法收集的帖子与博主元数据，以及对文本帖子进行语义分析后提取的各类特征，为研究Tumblr内容生态提供支持。文件详解该数据集包含两个ZIP压缩文件，具体说明如下： - 核心数据文件: - Tumblr.zip: 包含Tumblr.sql、semtags.txt和README文件。 -...

ZIP

垃圾短信与钓鱼短信检测平衡数据集

2025年11月29日

数据集概述本数据集包含一万零一百九十一条带标签的短信，用于训练和测试垃圾短信与钓鱼短信检测模型。数据集通过大语言模型生成，包含标签、短信内容及URL、邮箱、手机号存在与否等字段，且三类标签样本数量均衡，可有效避免分类任务中的偏差。文件详解文件名称: A Balanced Dataset for Spam and Smishing...

ZIP

基于大语言模型的生命周期清单与环境影响数据检索框架数据集

2025年11月29日

数据集概述本数据集围绕Sustain-LLaMA框架构建，该框架通过分类、预训练、问答三阶段微调大语言模型，实现从科学文献中自动化检索生命周期清单（LCI）和环境影响数据，提升化工与塑料行业向净零排放转型的数据获取效率。文件详解该数据集按研究主题和任务阶段分类，包含以下核心文件类型： -...

ZIP

奥兰阿拉伯方言形态标注数据集

2025年11月29日

数据集概述该数据集是奥兰阿拉伯方言的形态标注数据集，含三万三千个单词，覆盖书面（约百分之十二）与口语（约百分之八十八）两类来源，书面涉及校园生活等主题，口语含故事等场景。每个单词经人工标注，含词性、词根等信息，标注遵循阿拉伯贝拉语料库指南并适配方言语境。文件详解该数据集由多个文件和目录组成，具体说明如下： - 根目录文件： -...

ZIP

医疗健康领域英阿句子对齐平行语料库PEACH

2025年11月29日

数据集概述该数据集是医疗健康领域的英阿句子对齐平行语料库（PEACH），包含患者教育材料和患者信息手册的相关数据文件，以Excel格式存储，为医疗领域的自然语言处理研究提供多语言文本数据支持。文件详解元数据文件（根目录下）: Patient-educational-materials-metadata.xlsx:...

ZIP

Dataset_4H_9_翻译后修饰系统鲁棒性与参数地理解决方案文件_sigma_1_5_第9部分

2025年11月29日

数据集概述该数据集包含2个文件，为Paramotopy运行的解决方案文件，参数sigma=1.5，用于关联参数点。文件无明确命名模式，主要涉及翻译后修饰系统的鲁棒性与参数地理研究相关的解决方案数据。文件详解目录结构: Dataset 4H.9 Solutions files, sigma = 1.5, part 9 (Nam et al.,...

ZIP

AI辅助系统文献综述信任度初步研究数据集

2025年11月29日

数据集概述本数据集为AI辅助系统文献综述信任度研究的配套数据，聚焦GPT-4 Turbo、Gemini 2.5 Pro、Copilot三类AI工具在系统文献综述数据提取阶段的应用可行性，包含评估表单与结果汇总两类文件。文件详解...

ZIP

阿拉伯新闻文章单标签文本分类数据集_SANAD

2025年11月29日

数据集概述该数据集是大规模阿拉伯语新闻文章集合，适用于文本分类、词嵌入等阿拉伯语自然语言处理任务。包含来自三个新闻网站的文章，分为七个类别，总数量超十九万篇，并提供一个平衡的子集用于训练和测试。文件详解文件名称:...

ZIP

帕哈里语词性标注语料库数据集

2025年11月29日

数据集概述该数据集包含帕哈里语（巴基斯坦和印度部分地区使用的低资源印欧语系语言）的人工标注词性（POS）语料库，涵盖名词、动词等主要语法类别，采用基于乌尔都语标签集调整的自定义标签系统，提供词性标注及文本处理相关文件。文件详解文本数据文件（共6个.txt格式文件）：包括Pahari Dataset/File 9 COMPLETE CLEANED...

ZIP

移民与教育文献检索数据集20250625

2025年11月29日

数据集概述该数据集为围绕“移民与教育”主题的文献检索结果，包含五篇PDF格式的相关文献，涉及教育机构多元文化、教师能力培养等内容，为移民与教育领域的研究提供文献资料支持。文件详解该数据集包含一个目录下的五篇PDF文献，具体说明如下： - 目录: Primera búsqueda junio 25/ - 文件列表: - 文件名称:...

ZIP

索拉尼库尔德语高质量自动命名实体识别数据集2024

2025年11月29日

数据集概述该数据集是针对低资源语言索拉尼库尔德语的自动标注命名实体识别（NER）资源，包含二零二四年发布的两千三百余篇新闻文章，覆盖政治、经济等六个领域，采用BIO标注方案，含六十五万余词元及十二类实体类型，用于支持库尔德语自然语言处理研究。文件详解主目录文件： Adyan_metadata.txt：TXT格式，可能包含数据集元信息...

ZIP

DBpedia_v3_9纪念碑知识图谱完整数据

2025年11月29日

数据集概述本数据集包含DBpedia 3.9知识库中所有dbo:Monument类实例的RDF三元组数据，采用NTriples格式存储。数据通过RDFSlice软件生成，采用简洁有界描述方式组织，为每个纪念碑实体提供完整的语义描述。数据集包含一个主文件，是研究文化遗产知识图谱和语义网应用的重要基础资源。文件详解纪念碑RDF数据文件文件名称：...

ZIP

推文标注样本数据集

2025年11月29日

数据集概述本数据集包含推文标注样本相关的文档，主要以实验样本为核心内容，提供与推文标注任务相关的参考材料，为推文标注工作或相关研究提供样本支持。文件详解文件名称：Table and Figure Legend.docx 文件格式：docx 内容说明：该文档位于Samples of Tweets...

ZIP

汉语Callhome与Callfriend语料库非完成体结构标注数据集

2025年11月29日

数据集概述本数据集是对汉语Callhome和Callfriend口语语料库中的非完成体结构进行标注的数据集，包含标注后的口语对话文本及相关语言学特征信息，为研究汉语口语中非完成体的使用规律提供数据支持。文件详解文件名称：Imperfectives in Chinese Callhome and Chinese...

ZIP

欧洲大学跨语言文本复用检测结果数据集

2025年11月29日

数据集概述该数据集包含欧洲大学跨语言文本复用检测实验结果，基于学术论文《Cross-language plagiarism detection: a case study of European languages academic works》构建，含OATD许可文档、开源来源及检测报告，文档与来源名称以URL的MD5哈希表示。文件详解...

ZIP

基于情感标注的词库词典数据集

2025年11月29日

数据集概述该数据集为营销专家构建的词库词典，用于提升文本情感分析准确性（尤其针对生僻词）。数据采用二元情感标注体系，将积极情感标记为"1"，消极情感标记为"2"，为情感分析任务提供标准化的词汇情感标签参考。文件详解文件名称: Lexicon Dictionary/lexicon-dictionary.csv 文件格式: CSV (.csv)...

ZIP

SOMADHAN_基于推理的孟加拉语数学应用题数据集

2025年11月29日

数据集概述该数据集为针对孟加拉语数学应用题的推理数据集，包含八千七百九十二个复杂数学应用题及对应的分步解题过程，模拟人类解题逻辑。数据集基于GSM8K数据集结构构建，用于多语言及低资源自然语言处理任务中的数学推理研究。文件详解文件名称：SOMADHAN.csv 文件格式：CSV 字段映射： question：孟加拉语数学应用题题干...

ZIP

泌乳性能_血清指标及转录组结果补充数据集

2025年11月29日

数据集概述本数据集为补充数据，包含泌乳性能、血清指标的相关信息及完整转录组结果，用于辅助相关研究的数据分析与验证，提供实验或研究的补充支撑材料。文件详解文档文件： Supplementary materials.docx：DOCX格式文档，可能包含泌乳性能、血清指标的补充说明、实验方法或结果描述等内容压缩文件： Transcriptomic...

ZIP

Dataset_4R_9_翻译后修饰系统鲁棒性与参数地理_Sigma_50_第9部分

2025年11月29日

数据集概述该数据集包含Sigma=50条件下，用于计算10倍可见性比率的参数点Paramotopy运行的所有正确解文件，与Nam等人关于翻译后修饰系统鲁棒性和参数地理的研究相关。文件详解文件名称: sigma50_convexity_solutions_run0 文件格式: 无扩展名（no_ext）内容说明:...

ZIP

找到16,243个数据集

注册成功！