找到36个数据集

标签: JSONL

过滤结果
  • Critical_Race_Theory_Based_极化政治模因在线知识生产研究数据集2024

    2026年1月9日 30 165 152

    数据集概述 本数据集是论文《Online Knowledge Production in Polarized Political Memes: The Case of Critical Race...
    packageimg
  • AMOR_Corpus_Spanish_Morality_Corpus_西班牙语在线评论道德标注数据集

    2026年1月3日 30 105 11

    数据集概述 本数据集是AMOR项目产出的首个可发布版本西班牙语在线评论道德基础标注语料库,包含从西班牙语Reddit社区提取并经人工筛选的评论,由训练后的标注者通过Qualtrics平台完成标注。数据涵盖标注文本及标注者档案两部分,适用于计算语言学和社会科学领域关于西班牙语在线话语中道德语言与价值表达的研究。 文件详解 语料库文件(Corpus...
    packageimg
  • Natural_Language_Guided_Programming_Onward_2021_用户研究数据集

    2025年12月28日 30 81 78

    数据集概述 本数据集为论文《Natural Language-Guided Programming》(Onward! 2021收录)的用户研究数据,包含测试用例、模型预测及标注、训练与评估项目索引四类文件,用于评估自然语言引导的代码预测模型性能,支持相关研究的验证与复现。 文件详解 文件名称:benchmark.json 文件格式:JSON...
    packageimg
  • 全球200万SARS_CoV_2基因组数据集_Viridian_Maple0_6_11处理

    2025年12月24日 30 87 16

    数据集概述 该数据集包含经MAPLE0.6.11处理的全球200万条SARS-CoV-2基因组数据,源自Viridian平台。涵盖基因组比对、变异信息、进化树及元数据等多类型文件,为新冠病毒基因组研究提供基础数据支持。 文件详解 元数据文件:...
    packageimg
  • 西班牙临床过敏笔记语料库

    2025年12月23日 30 119 50

    数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
    packageimg
  • Touché22比较问题的论点检索数据集

    2025年12月22日 0 135 23

    数据集概述 该数据集为2022年Touché会议“比较问题的论点检索”任务的专用数据,包含问题主题、检索段落、评估结果等文件,覆盖相关性、立场、质量三类评估维度,支持论点检索算法的开发与评测。 文件详解 该数据集包含15个文件,按类型分为以下几类: - 问题与段落数据文件: - topics-...
    packageimg
  • LLM一致性测试组合测试用例数据集

    2025年12月18日 30 194 114

    数据集概述 该数据集是用于大语言模型(LLM)一致性测试的组合测试用例集合,包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果,支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。 文件详解 核心问题文件:...
    packageimg
  • 法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

    2025年12月15日 30 141 67

    数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
    packageimg
  • 俄罗斯姓名性别识别数据库

    2025年12月14日 30 18 12

    数据集概述 该数据集包含俄罗斯联邦范围内的姓名、姓氏及父称信息,用于训练基于全名的性别识别算法。数据以MongoDB数据库格式准备,包含BSON和JSONL格式的压缩文件,为性别识别和全名解析软件提供数据支持。 文件详解 文件名称:russiannames_db_bson.zip 文件格式:ZIP压缩包...
    packageimg
  • 意大利语动词情感推理词典

    2025年12月14日 30 185 39

    数据集概述 本数据集是用于情感推理的意大利语动词词典,包含动词的句法框架、极性、语义效果、关系及示例等信息,部分动词通过同义词框架引用关联,为意大利语文本的情感分析提供结构化动词语义标注支持。 文件详解 文件名称: clicl.pdf 文件格式: PDF 内容说明: 提供数据集理论背景与构建方法的相关论文,解释动词规范的理论基础。 文件名称:...
    packageimg
  • Reddit叙事中的道德判断数据集

    2025年12月13日 30 31 15

    数据集概述 该数据集聚焦Reddit平台叙事内容中的道德判断研究,通过社交常识与语言信号识别道德触发点。包含标注道德触发点的帖子实例数据,以及研究使用的事件聚类、语言特征参数等补充文档,为分析在线社区道德判断机制提供支持。 文件详解 post_instances.jsonl:JSON...
    packageimg
  • 政策文件引用学术出版物开放数据集_POLIDOC_SCHOLAR

    2025年12月11日 30 61 40

    数据集概述 该数据集收录了精选政策文件中引用的学术出版物,通过"集合"和"集合参考文献"两类文件组织数据,包含IPCC第六次评估周期、IPBES评估报告等2个集合的文献引用信息,支持与外部数据库的关联分析。 文件详解 集合元数据文件: collections.jsonl:JSON...
    packageimg
  • 基于物联网的活动检测服务生成器原型与评估数据集

    2025年12月10日 30 25 6

    数据集概述 该数据集是物联网活动检测服务生成器原型的配套数据,包含智能工厂与智慧医疗两个场景的服务生成及评估文件。按功能分为服务生成与应用评估子文件夹,提供生成服务的Python脚本、物联网输入数据、专家标注、评估用物联网日志、真值数据及检测结果等,支持复现论文中的服务生成与评估流程。 文件详解...
    packageimg
  • Webis标题党破解语料库2022

    2025年12月9日 30 8 1

    数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...
    packageimg
  • 技术手册问答基准数据集2025_TechManualQA_350

    2025年12月8日 30 93 51

    数据集概述 该数据集为技术手册问答基准数据集,包含来自10类技术手册的350个验证问答对,覆盖通用事实、流程指导、不可回答三类问题类型,用于评估大语言模型处理技术文档的性能,数据经自动化过滤与人工验证,确保质量可靠。 文件详解 主数据集文件:...
    packageimg
  • 住宅室内照片建筑垃圾估算大语言模型解决方案数据集

    2025年11月26日 30 177 38

    数据集概述 本数据集为论文“Estimating Demolition Waste from Residential Interior Photos: A Large Language Model Solution”的配套数据与代码,包含不同大语言模型及提示词设置下的分类结果、样本房间建筑垃圾预测数据及原始图像处理代码,原始图像需申请获取。 文件详解...
    packageimg
  • 代码后门攻击Python程序数据集

    2025年10月5日 30 67 29

    代码后门攻击Python程序数据集_Backdoor_Attack_Python_Code_Dataset 数据来源:互联网公开数据 标签:代码安全, 后门攻击, 机器学习, 恶意代码, 源代码, Python, 软件安全, 对抗样本 数据概述: 该数据集包含来自代码安全研究的数据,记录了Python程序中用于后门攻击的源代码样本。主要特征如下:...
    packageimg
  • 越南语问答文本数据集

    2025年9月23日 30 164 3

    越南语问答文本数据集_Vietnamese_Question_Answering_Text_Dataset 数据来源:互联网公开数据 标签:问答系统, 文本匹配, 自然语言处理, 机器阅读理解, 文本分类, 越南语, 数据集, 信息检索 数据概述: 该数据集包含来自越南语文本的问答对,旨在用于训练和评估越南语问答系统。主要特征如下:...
    packageimg
  • 越南语文本语义相似度数据集

    2025年8月30日 30 208 95

    越南语文本语义相似度数据集_Vietnamese_Text_Semantic_Similarity_Dataset 数据来源:互联网公开数据 标签:语义相似度, 文本匹配, 自然语言处理, 越南语, 文本数据, 机器学习, 语料库, 文本分析 数据概述: 该数据集包含来自越南语文本的多种类型数据,主要用于训练和评估语义相似度模型。主要特征如下:...
    packageimg
  • 家用电器用户评价与商品信息数据集

    2025年7月30日 30 139 61

    家用电器用户评价与商品信息数据集_Appliances_User_Reviews_and_Product_Information 数据来源:互联网公开数据 标签:用户评价, 商品信息, 亚马逊, 家用电器, 评分, 时间序列, 文本分析, 数据挖掘 数据概述:...
    packageimg