-
Reddit_Based_实体链接数据集_多标注文本语义分析完整数据
数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
-
PAN14文本对齐原创性测试语料库2014
数据集概述 本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。 文件详解 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包 内容说明:...
-
GLOVE_全球词向量表示数据集
数据集概述 本数据集围绕“GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION”主题,包含一份PDF文档,核心内容与全球词向量表示相关,为词向量技术研究提供基础资料支持。 文件详解 文件名称: Abdulatif Meyliev Rakhmatillayevich.pdf 文件格式: PDF 内容说明:...
-
Twitter仇恨言论检测与分析数据集
数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
-
Stack_Overflow代码片段生成问题标题论文数据集
数据集概述 该数据集是论文《Generating Question Titles for Stack Overflow from Mined Code Snippets》的配套数据,内容为从Stack Overflow数据转储中提取的代码片段及相关信息,用于支持代码片段生成问题标题的研究。 文件详解 文件名称: Code2Que-data.zip...
-
基于LLM的编码助手澄清问题设计数据集及模型权重
数据集概述 本数据集包含用于研究“通过设计激发好奇心:基于LLM的编码助手询问澄清问题”的实验数据与模型权重,涵盖用户研究样本文档、分类器训练数据、测试管道数据、合成数据集及训练后的模型权重文件,为编码助手交互机制研究提供支持。 文件详解 文档文件: Sample of User Study RQ1_ name of...
-
ChatGPT自然语言需求不一致检测初步评估补充材料
数据集概述 本数据集为"ChatGPT自然语言需求不一致检测初步评估"的补充材料,包含数据与标注内容。主要呈现每份文档中ChatGPT回答的标注结果、人工分析的标注结果,以及需求和真实值对,其中原始需求与变体需求通过第三列标识区分。 文件详解 文件名称: Inconsistencies-chatGPT.pdf 文件格式: PDF (.pdf)...
-
冠状病毒科学文献动态主题模型标签数据集
数据集概述 本数据集包含基于论文提出的无监督标签技术生成的动态主题模型(DTM)标签,涵盖100个和200个主题模型,分别使用全语料库和仅COVID-19时期数据训练,为冠状病毒科学文献的主题分析提供标签支持。 文件详解 文件名称:REPORT_ALL_200.html,文件格式:HTML,内容为使用全语料库训练的200个主题模型的标签报告...
-
基于日志的自动Thing_Description生成实验结果数据集
数据集概述 本数据集包含利用大型语言模型生成基于日志的自动Thing Description的实验结果,通过单一压缩文件存储相关内容,为研究日志驱动的描述生成技术提供数据支持。 文件详解 文件名称:log-based-td-generator.zip 文件格式:ZIP(.zip) 文件内容:压缩归档文件,具体内部文件结构及内容未提供预览信息 适用场景...
-
CERME_Topic_Model_Based_学术研究用主题模型数据
数据集概述 该数据集是ESM论文的技术附录,包含CERME主题模型相关的文件,涵盖主题分布列表、模型可视化结果及生成模型的代码,旨在保证研究的透明度。 文件详解 文件名称:Topic_model_CERME.ipynb,文件格式:.ipynb 内容:生成主题模型的代码文件,用于保证研究的完全透明度 文件名称:List of topic...
-
白俄罗斯语GLUE开放权重模型性能分析数据集
数据集概述 该数据集是论文《BelarusianGLUE: Analyzing Performance of Open-weight...
-
句子间连接数据集
句子间连接数据集 数据来源:互联网公开数据 标签:跨语言连接,多语言资源,语言对齐,语料库,NLP研究 数据概述: 本数据集记录了不同语言之间的句子配对,主要来源于Tatoeba项目。数据集包含了多种语言的句子及其对应关系,为研究和开发多语言自然语言处理任务提供了宝贵的资源。 数据用途概述:...
-



