找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 跨项目需求可追溯性自然语言工件数据集

    2025年11月27日   

    数据集概述 本数据集聚焦跨项目需求可追溯性,基于自然语言工件构建,整合5个领域52个项目的约1100+条需求,涵盖开源仓库、工业数据集、基准数据集及非功能需求数据集,支持软件工程与自然语言处理领域的跨项目可追溯性研究与知识复用。 文件详解 文件名称:...
    packageimg
  • 古吉拉特语故事情感数据集

    2025年11月27日   

    数据集概述 本数据集包含五百篇分属九种情感类别(Navrasa)的不同体裁古吉拉特语故事,由古吉拉特语专家基于Navrasa情感模型完成标注,为情感分析研究提供数据支持。 文件详解 该数据集包含一个Excel格式文件,具体说明如下: - 文件名称: gujarati emotion stories final 1 .xlsx - 文件格式:...
    packageimg
  • 新闻摘要数据集

    2025年11月27日   

    数据集概述 本数据集专为文本摘要任务设计,包含用于新闻内容摘要分析的结构化数据。数据集由单一文件构成,专注于提供新闻文本及其摘要信息,适用于自然语言处理领域的文本摘要模型训练与分析。数据以标准电子表格格式存储,便于直接用于文本处理和分析任务。 文件详解 文件名称:news.xlsx 文件格式:XLSX...
    packageimg
  • GPT与Deepseek提示词词典开发数据集

    2025年11月27日   

    数据集概述 本数据集围绕GPT与Deepseek模型的提示词词典开发展开,参考Silhadi等人(2025)的方法,设计了简单提示(含定义和任务指令)与复杂提示(含角色分配、定义和任务指令)两类提示词,为模型提示词设计研究提供基础数据。 文件详解 文件名称: Dictionary development cue words for GPT and...
    packageimg
  • 高温钢目标与前驱体命名实体识别数据集

    2025年11月27日   

    数据集概述 该数据集包含高温钢相关文本中的目标与前驱体命名实体数据,采用IOB格式标注,由领域专家验证。数据集共249304行3列,覆盖25篇文献中的5篇,为高温钢领域的命名实体识别任务提供标注数据支持。 文件详解 文件名称: target-precursor-iob.csv 文件格式: CSV (.csv) 字段映射: SentenceID:...
    packageimg
  • 学术写作中短语动词使用跨语料库研究数据集

    2025年11月27日   

    数据集概述 该数据集围绕母语(L1)与非母语(L2)英语学者学术写作中的短语动词使用展开跨语料库研究,包含从BDC和TDC语料库中提取的所有短语动词及其定义和使用频率,为分析不同语言背景学者的学术写作语言特征提供数据支持。 文件详解 文件名称: ALL PVS (with definitions).xlsx 文件格式: .xlsx(Excel表格)...
    packageimg
  • PyVulDet_NER_Python源代码漏洞命名实体识别完整数据

    2025年11月27日   

    数据集概述 本数据集为支持Python源代码漏洞检测的命名实体识别(NER)研究而创建,包含用于训练和评估NER模型的标注数据。数据集针对Python源代码中的六种漏洞类型进行实体标注,支持多种预训练语言模型(如RoBERTa、CodeBERT、DistilBERT)的输入格式。数据来源于相关学术研究,共包含九个CSV格式文件,涵盖训练、验证和测试集。...
    packageimg
  • 科学技术与哲学研究文献集

    2025年11月27日   

    数据集概述 本数据集汇集了以科学、技术与哲学为主题的研究文献,涵盖英语、法语、罗马尼亚语三种语言,包含完整著作及书籍章节等多种形式,为跨语言的相关领域研究提供文献资源支持。 文件详解 该数据集按语言分类组织文件,具体说明如下: - 目录结构: - 主目录: Books/ - 语言子目录: Books/English...
    packageimg
  • 活化WT与TCox10_T细胞稳定同位素数据集

    2025年11月27日   

    数据集概述 本数据集记录了活化后的野生型(WT)小鼠T细胞与Cox10缺陷型(TCox10-/-)T细胞的稳定同位素代谢数据,通过13C-葡萄糖或13C-谷氨酰胺标记,分别分析糖酵解与三羧酸循环途径。 文件详解 文件名称: Stable isotope data for activate WT and TCox10-- T-cells/Copy of...
    packageimg
  • SM01_制造业多语言网络知识抽取初步调查结果与结构图表

    2025年11月27日   

    数据集概述 本数据集为SM01研究项目的初步调查成果,包含制造业多语言网络知识抽取相关的调查表格、样本网站抓取报告及链接路径结构图表,覆盖样本抓取、人工审核及筛选分析等核心内容。 文件详解 ManualReviewOf37DomainsInSample.xlsx:Excel格式文件,记录对样本集中37个网站的人工审核数据...
    packageimg
  • 印尼产品评论情感分类任务数据集

    2025年11月27日   

    数据集概述 该数据集是印尼语产品评论数据集合,标注了情感和情绪标签,数据来源于印尼电商平台Tokopedia的29个产品类别,每个评论标注爱、快乐、愤怒、恐惧或悲伤单一情绪,还包含位置、价格等属性。 文件详解 Category,Product Name,Location,Price,Overall Rating,Number Sold,Total...
    packageimg
  • 基于女性主义的孟加拉语辱骂性语言数据集

    2025年11月27日   

    数据集概述 该数据集包含从Facebook、Instagram、Twitter等社交媒体平台收集的6830条孟加拉语评论,聚焦女性主义议题与性别相关讨论,由母语者手动标注为正面、负面(辱骂性)或中性,用于低资源语言的仇恨言论分析、辱骂语言识别等研究。 文件详解 文件名称:Bengali Abusive Language Based on...
    packageimg
  • 波斯语心理状态与情感需求文本挖掘数据集2025

    2025年11月27日   

    数据集概述 该数据集包含九百九十三条经波斯语心理学专家人工标注的有效文本样本,内容为用户生成的表达情绪困扰、心理健康问题或存在反思的自由文本,标注涵盖心理状态与情感需求维度,适用于心理文本挖掘研究。 文件详解 该数据集包含一个CSV格式文件,具体说明如下: - 文件名称: result.csv - 文件格式: CSV(UTF-8编码) -...
    packageimg
  • 基于英国国家语料库的英语词元替换数据集

    2025年11月27日   

    数据集概述 该数据集提供基于英国国家语料库的英语词元替换规则,适用于wReplace软件。数据按词长从长到短排序,每行包含搜索词与替换词,用于将英语词汇批量替换为词元形式,支持翻译或文本处理场景。 文件详解 文件名称: lemma_replacetext_replacetext-format.txt 文件格式: TXT(.txt) 内容结构:...
    packageimg
  • 孟加拉国宪法问答数据集

    2025年11月27日   

    数据集概述 该数据集专为自然语言处理(NLP)模型的开发与评估设计,聚焦问答任务。核心内容为基于孟加拉国宪法的问题及对应答案,旨在推动法律与政府文本相关NLP机器学习模型的研究进展。 文件详解 该数据集包含2个Excel文件,具体说明如下: - 文件名称: Songbidan datasets Bangla version.xlsx - 文件格式:...
    packageimg
  • 孟加拉语多标签情感与情绪分类数据集

    2025年11月27日   

    数据集概述 该数据集旨在推进孟加拉语自然语言处理(NLP)研究,聚焦情感分析与情绪检测领域。包含四万零八百一十一条孟加拉语社交媒体及评论区的用户生成文本,每条文本标注情感与情绪两类标签,为相关模型训练提供标注数据支持。 文件详解 文件名称: Multilabeled sentiment and emotion detection...
    packageimg
  • 尼日利亚Nsukka大学本科生性话语俚语数据集

    2025年11月27日   

    数据集概述 该数据集收录了尼日利亚Nsukka大学本科生使用的性话语俚语,核心内容为学生通过使用文雅术语掩盖性相关词汇粗俗性的表达方式,为研究特定群体性话语的语言特征提供数据支持。 文件详解 文件名称: Sex Discourse Slang/Data for Sex Discourse Slang.docx 文件格式: DOCX (.docx)...
    packageimg
  • 小鼠温度饲养条件描述语句训练数据集

    2025年11月27日   

    数据集概述 该数据集是用于描述小鼠温度饲养条件的语句训练集,包含四百八十条相关语句,为自然语言处理任务提供训练数据支持。 文件详解 文件名称: relevant_temperature_480_sentences_full_lstm.txt 文件格式: TXT 内容说明: 包含四百八十条与小鼠温度饲养条件相关的语句,每行以编号开头,后跟具体描述文本...
    packageimg
  • 阿拉伯语_英语双语者皮博迪词汇测试主观频率估计数据集

    2025年11月27日   

    数据集概述 本数据集包含阿拉伯语-英语双语者对皮博迪词汇测试(PPVT)单词的主观频率估计数据,涉及词汇的语言形式、主观频率评分、词汇特征等信息,为双语词汇认知及心理语言学研究提供数据支持。 文件详解 文件名称: DATA_SET.sav 文件格式: SAV(SPSS数据格式) 字段映射:...
    packageimg
  • Zomato_PT_EN双语餐厅评论完整数据集2014_2022

    2025年11月27日   

    数据集概述 本数据集包含Zomato葡萄牙平台(现为Dig-In)从2014年4月1日至2022年9月2日期间收集的餐厅评论数据。总计约119万条记录,其中包含约50万条葡萄牙语评论和2.4万条英语评论。数据涵盖餐厅基本信息、用户评分(1-5星)及评论内容,部分条目提供文本评论。数据集还包含通过Google Translate Python...
    packageimg