找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 数据2019年1月17日至21日女性大游行推文数据集

    2025年11月28日   

    数据集概述 本数据集收集了2019年1月17日至21日期间含#WomensMarch标签的推文,共109,511条,使用Twarc工具获取,关联2019年女性大游行相关事件,为研究该活动的社交媒体讨论提供数据支持。 文件详解 文件名称: WomensMarch-search-2019.01.17-2019.01.21-ids.txt 文件格式: TXT...
    packageimg
  • Foursquare场馆及场馆评论数据集

    2025年11月28日   

    数据集概述 本数据集包含Foursquare社交网络平台上一百二十八家场馆的土耳其语评论数据,涵盖二元、三元分类评论,土耳其语形容词及极性、餐饮名称,未标记评论,以及场馆与用户喜爱餐饮信息,为分析场馆评论特征提供数据支持。 文件详解 该数据集按目录分类存储,包含六个Excel文件,具体如下: - Adjectives目录: -...
    packageimg
  • Dataset_4T_9_σ_200_翻译后修饰系统稳健性与参数地理解决方案文件_第9部分

    2025年11月28日   

    数据集概述 该数据集包含σ=200条件下Paramotopy运行的所有正确解决方案文件,基于计算10倍可见性比率的采样参数点生成,用于研究翻译后修饰系统的稳健性与参数地理特征,支持相关生物系统动态的分析。 文件详解 目录结构:数据集包含1个目录,目录深度为1,目录名称为Dataset 4T.9 Solutions files, sigma = 200,...
    packageimg
  • 火星人类探索科学仪器博士论文音频数据集

    2025年11月28日   

    数据集概述 本数据集包含Miracle Israel Nazarious所著博士论文《Scientific instruments to facilitate the human exploration of...
    packageimg
  • 英国议会辩论情感标签数据集

    2025年11月28日   

    数据集概述 该数据集为英国议会辩论情感标签数据集,包含1997-2017年英国下议院129场辩论的1251个动议-演讲单元,涵盖国内外事务等多主题,每个单元含演讲文本、动议及情感极性标签、元数据,支持情感分析系统评估。 文件详解 文档文件:...
    packageimg
  • 婴儿利什曼原虫半胱氨酸肽酶数据集

    2025年11月28日   

    数据集概述 该数据集包含婴儿利什曼原虫(JPCM5株)中属于CD家族C50亚家族的半胱氨酸肽酶(Separase)的相关信息,为研究该寄生虫的蛋白酶结构与功能提供基础数据。 文件详解 文件名称: LINF_200021300.txt 文件格式: TXT(.txt) 字段内容:...
    packageimg
  • 自动视频生成中的对齐与验证数据集

    2025年11月28日   

    数据集概述 该数据集围绕自动视频生成的对齐与验证方法构建,包含文本处理、实体识别、媒体检索、时间线分析等核心步骤的代码与数据文件,覆盖从文本输入到视频合成的全流程,为研究自动视频生成技术提供结构化资源。 文件详解 该数据集包含代码与数据两类文件,具体说明如下: - 代码文件 (位于 Code/Time Alignment/ 目录下): -...
    packageimg
  • 肯尼亚卢希亚语卢马拉奇方言问答数据集

    2025年11月28日   

    数据集概述 该数据集基于肯尼亚语言语料库Kencorpus项目中的137篇卢希亚语卢马拉奇方言文本,标注生成1000组问答对,是人工标注的低资源语言问答数据集,支持该方言的机器学习问答系统开发与测试。 文件详解 文件名称: KenLumachiQuAD.csv 文件格式: CSV 字段说明: Story_ID:...
    packageimg
  • 佛手散改善血管性痴呆大鼠认知功能数据集

    2025年11月28日   

    数据集概述 本数据集围绕佛手散(FSS)对血管性痴呆(VaD)大鼠认知功能的改善作用展开,包含通过行为学实验、组织染色、分子生物学检测及分子对接等方法获得的原始实验数据,为研究其抑制神经炎症和焦亡的机制提供支持。 文件详解 该数据集包含多个目录和文件,具体说明如下: - 根目录: Fo-Shou-San improves cognitive...
    packageimg
  • 孟加拉语有毒语言精选数据集_ToxLex_bn

    2025年11月28日   

    数据集概述 该数据集是从Facebook用户评论中提取的孟加拉语有毒语言精选数据集,包含社交媒体中使用的攻击性和辱骂性词汇。数据经过去重、匿名化处理,涵盖孟加拉语社交媒体有毒语言的人口统计和主题分布,用于有毒语言检测系统分类器的定义。 文件详解 文件名称: ToxLex_bn output v1 29 January...
    packageimg
  • 巴西教育工作者人工智能社会表征数据集

    2025年11月28日   

    数据集概述 本数据集基于自由词汇联想技术,收集了一百九十一名巴西教育工作者对人工智能的社会表征数据,包含联想词汇、重要性排序、文本解释及人口统计学变量,采用核心理论分析,适用于教育技术与人工智能相关研究。 文件详解 该数据集包含六个文件,具体说明如下: - Excel数据文件(共五个): -...
    packageimg
  • 科学图书馆员职位数据集2009

    2025年11月28日   

    数据集概述 本数据集包含2009年获取的25条科学图书馆员职位招聘信息,通过关键词短语拆分出各职位的具体职责,并统计任务数量用于比较分析,为研究该岗位的职责要求提供数据支持。 文件详解 该数据集包含两个Excel格式文件,具体说明如下: - 文件名称: Task Counts.xlsx - 文件格式: Excel (.xlsx) - 内容概述:...
    packageimg
  • 隐私政策本体数据集

    2025年11月28日   

    数据集概述 本数据集围绕隐私政策中的信息类型术语构建,通过语法驱动方法解析术语构成并推断语义关系,形成可减少术语歧义的知识图谱(本体)。包含构建本体的词汇表、实验评估数据及相关文档,为隐私政策术语标准化、需求撰写指导等研究提供支持。 文件详解 该数据集包含多个目录和文件,具体说明如下: - 词汇表文件(Lexicons/ 目录): - Lexicon-...
    packageimg
  • 历史问答生成数据集

    2025年11月28日   

    数据集概述 本数据集基于多视角对话历史生成问答对,核心内容是从Ubuntu对话语料库中提取多轮对话,通过对话ID合并为上下文后生成问题与答案,并标注答案在上下文中的起止位置,支持问答模型训练与评估。 文件详解 该数据集包含4个数据文件,具体说明如下: - 训练集文件: - train_data.csv:...
    packageimg
  • 孟加拉语仇恨与非仇恨语音音频数据集

    2025年11月28日   

    数据集概述 该数据集包含三千条孟加拉语语音音频样本,分为仇恨、非仇恨和测试用非仇恨三类。仇恨类含两千条样本,涉及宗教歧视、性别骚扰等多种仇恨内容,并标注严重程度;非仇恨类含一千条中性内容样本;测试用非仇恨文件夹含额外测试样本,覆盖方言变体,由母语者人工标注。 文件详解 该数据集包含三个压缩文件,均位于data目录下,具体说明如下: - 文件名称:...
    packageimg
  • 阿姆哈拉语Facebook仇恨言论检测数据集

    2025年11月28日   

    数据集概述 本数据集从使用吉兹字母的活动家Facebook主页及其关注者评论中人工收集,经筛选规则(粉丝超5万、单帖评论超300、主语言为阿姆哈拉语)获取3万条数据,由不同背景的十位标注者按联合国及埃塞俄比亚相关定义标注为仇恨/非仇恨两类,进行字符清洗归一化处理。 文件详解 目录: Posts and Labels/ 文件名称:...
    packageimg
  • 马来语_英语双语社交媒体仇恨言论检测数据集

    2025年11月28日   

    数据集概述 本数据集包含两万六千九百八十五条马来语和英语的社交媒体帖子,用于二元仇恨言论检测任务。数据来自五个公开来源,经预处理后标注为仇恨或非仇恨类别,语言分布均衡,适用于多语言及低资源仇恨言论检测模型的训练与评估。 文件详解 说明文档: README.txt:TXT格式,介绍数据集的基本信息、来源及文件结构。 数据文件:...
    packageimg
  • 规范性文档交互式问答数据集

    2025年11月28日   

    数据集概述 该数据集包含基于十二份不同机构(大学与银行)规范性文档的问答对,由十五名标注者手动生成一千七百六十七个问题。文档平均十四页,每页约十二点八个问题,每段一点一个问题,段落覆盖率约百分之三十三。问答对含文档标题、路径、问题及原文答案,部分问题提供优化版本,支持交互式问答系统测试。 文件详解 该数据集包含文档文件与数据文件两类,具体说明如下: -...
    packageimg
  • 中上新世脂质生物标志物记录数据集_Lido_Rosello与Punta_di_Maiata

    2025年11月28日   

    数据集概述 该数据集包含意大利西西里岛西南部两个露头序列(Lido Rosello和Punta di Maiata)的中上新世脂质生物标志物记录,时间跨度为约四千七百万至四千六百万年前的三个受岁差驱动的气候旋回,是相关有机地球化学研究的补充数据。 文件详解 文件名称: Cutmore et al., 2024- OG.xlsx 文件格式:...
    packageimg
  • 印尼语大学入学问答数据集

    2025年11月27日   

    数据集概述 本数据集包含2020至2022年申请某大学的学生相关问答信息,聚焦入学流程相关内容,以印尼语呈现,主要用于自然语言处理领域的研究支持。 文件详解 该数据集包含两个CSV格式文件,具体说明如下: - 文件名称: Admission Dataset/eval.csv - 文件格式: CSV (.csv) - 字段映射: - id:...
    packageimg