-
LAYA_问答系统训练验证数据集
2026年2月12日 30 57 29
数据集概述 本数据集为LAYA问答系统相关数据集,包含训练和验证两类数据文件,文件总数为3个,涵盖JSONL和XLSX两种格式,主要用于问答系统的训练与验证场景,无目录结构,未提供文件内容预览及说明文档。 文件详解 文件1 文件名称:validation.jsonl 文件格式:JSONL...
-
CREMSA_Based多序列比对压缩索引论文支持数据
2026年1月31日 30 139 90
数据集概述 本数据集为论文“CREMSA: Compressed Indexing of (Ultra) Large Multiple Sequence...
-
CoderEval_Based_代码生成基准评估数据集
2026年1月31日 30 183 11
数据集概述 本数据集为CoderEval代码生成基准数据集,包含四十二个文件,无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据,涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包,支持超越独立函数的实用代码生成能力评估。 文件详解 数据文件(.json)...
-
Twitter_FakeNews_Based虚假新闻传播实证研究数据集
2026年1月23日 30 110 89
数据集概述 本数据集包含Twitter平台上5个新建虚假新闻传播过程的实证研究结果,涵盖虚假新闻及其对应的真相传播内容。数据集分为传播数据集(DD)和图数据集(DG)两类,记录了虚假新闻相关推文、转发的用户信息、传播路径及用户网络关系,共15个文件。 文件详解 传播数据集(DD) 文件名称:遵循FNx_DD.xlsx模式(x为虚假新闻编号1-5)...
-
AffRoDB_Based_机构字符串到ROR标识符映射数据集2024
2026年1月26日 30 56 3
数据集概述 本数据集是AffRoDB,包含从Crossref提取的原始机构隶属关系字符串与Research Organization Registry(ROR)标识符的人工整理映射。每条记录经专家评估,包含出版物DOI、原始机构字符串、专家判断及最终ROR ID,基于2024年1月ROR数据库版本构建,用于机构隶属关系消歧方法的评估与基准测试。...
-
RACGSecurity_Based_IEEE软件工程论文提交工件数据
2026年1月26日 30 12 6
数据集概述 本数据集是提交至《IEEE Transactions on Software Engineering》论文的配套工件,包含复现论文结果所需的源代码、数据集及环境配置说明。提供了环境搭建、依赖安装、结果复现的完整流程,支持使用GPT-4o等大语言模型及本地模型开展代码生成与安全评估实验。 文件详解 文件名称:RACGSecurity.zip...
-
Frictionless_Data_Test_多文件类型兼容性测试数据集
2026年1月22日 30 174 127
数据集概述 本数据集为Frictionless Data的测试数据集,包含8个不同格式的文件,覆盖表格数据、JSON配置等类型,无目录结构,无训练/测试、数据/标签或原始/处理数据的拆分,用于验证多文件格式的兼容性和数据处理能力。 文件详解 数据文件...
-
NSF_OAC1948066_佛罗里达车载GPS_IMU_OBD多传感数据集
2026年1月20日 30 131 5
数据集概述 本数据集包含美国佛罗里达州采集的车载传感数据,由NSF OAC-1948066项目支持。共涵盖497条轨迹、总里程2404公里,包含GPS、6DOF IMU和OBD三类传感器数据,采用异步采样技术,各传感器数据独立存储于不同文件中,可通过时间戳进行多源数据融合。 文件详解 文件名称:NSF_OAC1948066.zip 文件格式:ZIP...
-
Weibo_Covid_19_Source_微博平台新冠相关内容及用户关系数据_脱敏版
2026年1月14日 30 12 11
数据集概述 本数据集为2021年4月29日至5月18日期间,微博平台上含指定新冠相关关键词(如疫苗、核酸检测等)的内容数据,包含105万+用户的原创帖、评论、转发及384万+关注关系,所有ID以UUID形式脱敏,仅保留构建内容与关系的必要变量。 文件详解 tweet_spider_by_tweet_id_uuid.json 文件格式:JSON...
-
Func_Non_Func_words_separated_功能词与非功能词分离数据集
2026年1月14日 30 67 50
数据集概述 本数据集包含100个文件,主题为功能词与非功能词分离的文本内容数据,覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主,各占50个,无目录层级结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件类型及分布...
-
编程谜题源代码_Python实现_程序语义推理_自然语言标注数据_2023年10月22日
2026年1月13日 30 95 69
数据集概述 本数据集包含用于程序语义推理的Python语句自然语言标注,由共享文件名前缀的文件对组成。数据源自Programming Puzzles项目,以压缩包形式提供,包含标注文件和参考源代码文件两类,可支持程序语义理解相关的研究与应用。 文件详解 压缩包文件 文件名称:archive_22102023.zip 文件格式:ZIP...
-
Critical_Race_Theory_Based_极化政治模因在线知识生产研究数据集2024
2026年1月9日 30 58 54
数据集概述 本数据集是论文《Online Knowledge Production in Polarized Political Memes: The Case of Critical Race...
-
AMOR_Corpus_Spanish_Morality_Corpus_西班牙语在线评论道德标注数据集
2026年1月3日 30 41 29
数据集概述 本数据集是AMOR项目产出的首个可发布版本西班牙语在线评论道德基础标注语料库,包含从西班牙语Reddit社区提取并经人工筛选的评论,由训练后的标注者通过Qualtrics平台完成标注。数据涵盖标注文本及标注者档案两部分,适用于计算语言学和社会科学领域关于西班牙语在线话语中道德语言与价值表达的研究。 文件详解 语料库文件(Corpus...
-
Natural_Language_Guided_Programming_Onward_2021_用户研究数据集
2025年12月28日 30 56 31
数据集概述 本数据集为论文《Natural Language-Guided Programming》(Onward! 2021收录)的用户研究数据,包含测试用例、模型预测及标注、训练与评估项目索引四类文件,用于评估自然语言引导的代码预测模型性能,支持相关研究的验证与复现。 文件详解 文件名称:benchmark.json 文件格式:JSON...
-
全球200万SARS_CoV_2基因组数据集_Viridian_Maple0_6_11处理
2025年12月24日 30 4 0
数据集概述 该数据集包含经MAPLE0.6.11处理的全球200万条SARS-CoV-2基因组数据,源自Viridian平台。涵盖基因组比对、变异信息、进化树及元数据等多类型文件,为新冠病毒基因组研究提供基础数据支持。 文件详解 元数据文件:...
-
西班牙临床过敏笔记语料库
2025年12月23日 30 31 16
数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
-
Touché22比较问题的论点检索数据集
2025年12月22日 0 61 32
数据集概述 该数据集为2022年Touché会议“比较问题的论点检索”任务的专用数据,包含问题主题、检索段落、评估结果等文件,覆盖相关性、立场、质量三类评估维度,支持论点检索算法的开发与评测。 文件详解 该数据集包含15个文件,按类型分为以下几类: - 问题与段落数据文件: - topics-...
-
LLM一致性测试组合测试用例数据集
2025年12月18日 30 148 82
数据集概述 该数据集是用于大语言模型(LLM)一致性测试的组合测试用例集合,包含问题、同义词列表、覆盖数组、测试运行记录、模型输出及性能评估结果,支持分析Starling-LM、Llama系列等6个模型的响应一致性与准确性。 文件详解 核心问题文件:...
-
法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集
2025年12月15日 30 94 41
数据集概述 本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。 文件详解...
-
俄罗斯姓名性别识别数据库
2025年12月14日 30 123 63
数据集概述 该数据集包含俄罗斯联邦范围内的姓名、姓氏及父称信息,用于训练基于全名的性别识别算法。数据以MongoDB数据库格式准备,包含BSON和JSONL格式的压缩文件,为性别识别和全名解析软件提供数据支持。 文件详解 文件名称:russiannames_db_bson.zip 文件格式:ZIP压缩包...



