-
社交媒体语言语域转化分析_博主与普通用户言语研究
数据集概述 本数据集为一篇PDF文档,聚焦社交媒体环境下语言语域的变化,核心分析博主与普通用户的言语特征差异,探讨语域转化的表现形式与潜在机制,为语言使用与社会交互研究提供定性分析素材。 文件详解 文件名称: Mardieva Habiba.pdf 文件格式: PDF 文件内容:...
-
Agnus_Data_候选类型描述及真实URI数据集
数据集概述 该数据集包含多个压缩文件,涉及候选类型、描述及真实URI等内容,共六个文件,均为ZIP格式,无目录结构,未提供训练/测试、数据/标签或原始/处理数据的划分,无自述文件或内容预览。 文件详解 压缩文件集合:包含六个ZIP格式的压缩文件,具体如下: data_ACE.zip:ZIP格式压缩文件 data_KORE50.zip:ZIP格式压缩文件...
-
电子烟内容警告标签检测数据集
数据集概述 该数据集包含用于检测社交媒体平台(TikTok和YouTube)电子烟内容中警告标签的脚本与工作流程文档。核心内容围绕数据收集、视频处理、OCR识别、语言检测及规则分类器构建展开,为电子烟内容合规性分析提供技术实现框架。 文件详解 文件名称: Detecting-Warning-Labels-on-E-Cigarette-Content-...
-
Eclipse与Mozilla缺陷跟踪数据集
数据集概述 该数据集包含从Eclipse和Mozilla项目提取的超过二十万条缺陷报告数据,其中Eclipse项目四万七千条、Mozilla项目十六万八千条。数据不仅提供缺陷报告的单一快照,还涵盖报告生命周期内的所有增量修改记录。 文件详解 文件名称:msr2013-bug_dataset-master.zip 文件格式:ZIP(压缩包)...
-
农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集
数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
-
无人机软件平台安全问题自动化识别与定性表征研究复现数据包
数据集概述 本数据集是研究“无人机软件平台安全问题自动化识别与定性表征”的复现数据包,包含分析项目的安全相关缺陷数据、原始数据、研究脚本及结果文件,支持复现研究中的安全问题识别与分析过程。 文件详解 该数据集由多个文件夹和文件组成,具体说明如下: - 1_Safety-Dataset 文件夹: - bugs 文件夹:包含分析项目的缺陷数据文件,如...
-
废弃库文本识别提示词数据集
数据集概述 本数据集为用于识别废弃库文本的提示词集合,包含基于项目描述和README文件设计的提示词,支持相关文本分类任务。 文件详解 prompt.zip: 压缩包格式,包含以下文件 description_classification.md: Markdown格式,含基于项目描述识别废弃库的提示词 README_classification.md:...
-
基于知识图谱的大语言模型谣言检测系统设计与算法优化数据集
数据集概述 本数据集围绕基于知识图谱的大语言模型谣言检测系统设计与算法优化展开,涵盖KG-RumorDetect框架的模型架构、知识图谱集成、优化技术等核心内容,为谣言检测研究提供技术方案参考。 文件详解 文件名称: archive.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含与KG-...
-
数据4chan在线仇恨言论深度学习测量数据集
数据集概述 本数据集包含从4chan的/pol/板块提取的50万条帖子原始内容,以CSV格式存储,仅含帖子内容列。数据无线程或回复结构,为扁平化单文件,适用于文本分析、自然语言处理及计算社会科学研究,需注意内容可能包含敏感或攻击性材料。 文件详解 文件名称: pol_500K4chan.csv 文件格式: CSV 字段映射:...
-
希腊议会会议记录数据集1989_2019
数据集概述 该数据集包含1989至2019年希腊议会5118次会议记录中的1194407条议员发言,总容量2.15GB。数据经收集会议记录、匹配议员官方姓名等步骤构建,以UTF-8编码CSV压缩文件存储,覆盖议员信息、会议属性及发言内容等核心字段。 文件详解...
-
Fedora与Debian软件包依赖网络及节点描述文本数据集
数据集概述 该数据集包含Fedora(28版)和Debian(9.5版)的软件包依赖网络数据,以及节点关联的描述文本,同时收录了基于PCTADW-*方法生成的学习向量,为软件依赖关系分析提供支持。 文件详解 文件名称:package-dependency-networks.zip 文件格式:ZIP压缩包 内容说明:压缩包内包含Fedora...
-
量子技术叙事跨领域分析数据集
数据集概述 本数据集为《量子技术叙事:媒体、商业与政策话语的跨领域分析》手稿的配套数据,包含分析所用的文本语料库和主题建模输出,覆盖媒体、商业、政策三个领域的文本数据及对应BERTopic分析结果。 文件详解 Media Articles.zip: ZIP格式压缩文件,包含拆分至单句的媒体文章CSV文件,附带标题、报纸等元数据。 Business...
-
路透社21578基准语料库
数据集概述 该数据集为路透社21578基准语料库,是一个用于文本分类等任务的经典基准数据集,以压缩文件形式存储,未提供训练/测试、数据/标签等拆分信息。 文件详解 文件名称: RCV1.zip 文件格式: ZIP压缩包(.zip) 内容说明: 该压缩包包含路透社21578基准语料库的相关数据,无可用内容预览,未检测到命名模式或拆分结构。 适用场景...
-
MOBO_电影与书籍评论数据集
数据集概述 该数据集包含电影和书籍评论及其相关情节内容,整合自多个公开数据源,并由标注者对超过一万八千条评论句子进行极性(正面/负面)和情节描述的标注,提供了标注句子的样本文件。 文件详解 文件名称: MOBO Dataset.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含电影与书籍评论数据集的标注样本文件,具体字段需解压后查看原始文件内容...
-
社交媒体多语言攻击性语言识别数据集2020_英文
数据集概述 该数据集为SemEval-2020 Task 12(OffensEval 2020)的英文部分数据,包含基于OLID schema的三个子任务测试集及相关文件,用于社交媒体攻击性语言识别,支持多语言任务的英文场景分析。 文件详解 说明文档: README.md:Markdown格式,介绍数据集背景、任务结构及文件说明,包含任务官网链接...
-
AlleNoise大规模文本分类含真实标签噪声基准数据集
数据集概述 该数据集是用于大规模多类别文本分类任务的基准数据集,包含来自Allegro.com的电商产品标题及对应类别标签,标签噪声源于真实电商平台用户行为,同时提供人工验证的清洁标签和层级分类体系。 文件详解 文件名称: data_sheet.pdf 文件格式: PDF (.pdf) 文件内容:...
-
可持续发展目标目标层级文献DOI标签数据集2009_2020
数据集概述 该数据集包含2009-2020年间与可持续发展目标(SDG)各目标相关的140万篇研究文献DOI标签数据,通过Scopus平台使用Aurora SDG查询版本5获取,覆盖SDG目标层级分类,支持文献与SDG目标的关联分析。 文件详解 主数据文件(CSV格式):...
-
多语言错误信息推文数据集
数据集概述 该数据集包含多语言错误信息推文(MMTweet)相关的标注指南、结构化数据文件、代码脚本等资源,覆盖推文分类、声明匹配等任务,支持多语言错误信息检测与分析研究。 文件详解 标注指南文件: Data Annotation – Tweet Classification.pdf:PDF格式,推文分类任务的标注规范文档 Data...
-
OpenChart_SE瑞典人工电子健康记录语料库版本1
数据集概述 该数据集为OpenChart-SE语料库版本1,包含五十份由瑞典医师和医学生撰写的人工电子健康记录(EHR),模拟瑞典急诊科真实病历风格,经专业医师审核,用于推动瑞典语临床自然语言处理工具开发。 文件详解 人工病历文件(共五十个): 文件名称:以数字命名的txt文件(如5.txt、11.txt等) 文件格式:TXT(.txt)...
-
社交网络文本分类算法与软件工具数据集
数据集概述 本数据集聚焦社交网络文本分类算法与软件工具,研究社交网络信息、全球信息流及其分析算法,呈现近年有效算法及使用流程,为相关技术研究提供参考。 文件详解 文件名称: A.A.Taniberdiyev.pdf 文件格式: PDF (.pdf) 文件内容: 包含社交网络文本分类算法的研究内容、近年有效算法介绍及使用流程说明 适用场景...



