找到4,409个数据集

标签: 文本分类

过滤结果
  • COVID_19新闻发布会语料库

    2025年12月16日 30 139 119

    数据集概述 该数据集是一个机器可读的文本语料库,收集了全球各国政府及世界卫生组织在新冠疫情期间的每日新闻发布会内容,涵盖疫情状态更新、政策决策等信息,目前包含英国、苏格兰、威尔士、北爱尔兰及世界卫生组织的多场发布会记录。 文件详解 文件名称: Covid19_Press_Briefings_Corpus.zip 文件格式: ZIP(压缩包格式)...
    packageimg
  • 阿拉伯语开放可持续发展目标数据集

    2025年12月16日 30 33 14

    数据集概述 本数据集为阿拉伯语开放可持续发展目标(OSDG)相关数据,以单一压缩文件形式存储,未进行训练/测试、数据/标签或原始/处理数据的划分,具体内容需解压后查看。 文件详解 文件名称: OSDG2.0_Ar.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • 生成式AI仓库伦理方面讨论评估数据集

    2025年12月16日 0 91 59

    数据集概述 该数据集用于评估生成式AI仓库中伦理方面的讨论,包含HTML文档和CSV文件两类数据。HTML文档提供不同AI模型(如DeepSeek-V3、llama3、gpt-2等)的信息与术语表,CSV文件记录仓库中的问题及评论详情,为研究生成式AI项目的伦理讨论情况提供数据支持。 文件详解 HTML文档(共16个):...
    packageimg
  • API文档类型间信息对应数据集

    2025年12月16日 30 172 164

    数据集概述 本数据集为《API文档类型间信息对应》论文的在线附录,包含API文档信息分类的编码指南、标注的样本句子及不同语言主题的标注句子数据,用于支持API文档信息对应关系的研究与分析。 文件详解 文件名称: CodingGuide.pdf 文件格式: PDF 内容说明: 用于将句子分类为“API信息”或“辅助文本”的编码指南文档 文件名称:...
    packageimg
  • 数据2022年8月巴西亲博索纳罗Telegram群组消息数据集

    2025年12月15日 30 203 108

    数据集概述 该数据集包含2022年8月巴西总统竞选期间,25个亲博索纳罗公开Telegram群组中6802名用户发布的195567条消息ID,涵盖消息基础信息、分周词频统计等数据,为研究该时期相关网络讨论提供支持。 文件详解 文档文件: readme.pdf:PDF格式,包含数据集说明文档...
    packageimg
  • 能源话题地理社交媒体文本分类数据集

    2025年12月15日 30 119 21

    数据集概述 本数据集围绕能源话题的地理社交媒体文本分类研究,包含标注的推特数据集、验证集、交互式可视化地图、地理数据文件及分析代码,支持通过自然语言处理技术分析公众对化石燃料、核能及可再生能源的立场。 文件详解 标注数据集: labeled_datasets.zip:...
    packageimg
  • 反馈中使用信息自动分类研究数据集

    2025年12月15日 30 31 25

    数据集概述 本数据集为论文《Exploring the Automatic Classification of Usage Information in Feedback》配套数据,包含标注的反馈数据文件、说明文档及相关论文,支持反馈文本中使用信息的自动分类研究。 文件详解 文档类文件:...
    packageimg
  • 西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX

    2025年12月14日 30 156 150

    数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
    packageimg
  • 复杂网络特征提升疫苗立场分类研究数据集

    2025年12月14日 30 87 86

    数据集概述 本数据集为科学论文《Leveraging complex network features improves vaccine stance classification》的配套数据,包含用于疫苗立场分类研究的数据集与网络边列表文件,支持复杂网络特征在疫苗立场分类任务中的应用验证与分析。 文件详解 文件名称:...
    packageimg
  • 十大畅销小说第一章数据集

    2025年12月13日 30 97 93

    数据集概述 本数据集包含十本畅销小说第一章的OCR扫描文件,可用于通过Voyant Tools进行数字文本分析,为文学文本挖掘与分析提供基础数据。 文件详解 文件名称: Data Bestseller novels.pdf 文件格式: PDF (.pdf) 文件内容: 包含十本畅销小说第一章的OCR扫描文本,可用于数字文本分析的原始文档 适用场景...
    packageimg
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日 30 146 112

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • 二元斯坦福情感树库数据集2

    2025年12月13日 30 101 69

    数据集概述 该数据集是斯坦福情感树库(SST)的二元版本,移除了中性类别,仅保留积极和消极两类情感标签。包含电影评论文本及其对应的二元情感分类数据,支持自然语言处理领域的情感分析任务。 文件详解 文件名称: texts.txt 文件格式: TXT 内容: 文档集合,每行存储一条文本数据 文件名称: score.txt 文件格式: TXT 内容:...
    packageimg
  • 社交媒体语言语域转化分析_博主与普通用户言语研究

    2025年12月13日 30 85 25

    数据集概述 本数据集为一篇PDF文档,聚焦社交媒体环境下语言语域的变化,核心分析博主与普通用户的言语特征差异,探讨语域转化的表现形式与潜在机制,为语言使用与社会交互研究提供定性分析素材。 文件详解 文件名称: Mardieva Habiba.pdf 文件格式: PDF 文件内容:...
    packageimg
  • Agnus_Data_候选类型描述及真实URI数据集

    2025年12月13日 30 154 9

    数据集概述 该数据集包含多个压缩文件,涉及候选类型、描述及真实URI等内容,共六个文件,均为ZIP格式,无目录结构,未提供训练/测试、数据/标签或原始/处理数据的划分,无自述文件或内容预览。 文件详解 压缩文件集合:包含六个ZIP格式的压缩文件,具体如下: data_ACE.zip:ZIP格式压缩文件 data_KORE50.zip:ZIP格式压缩文件...
    packageimg
  • 电子烟内容警告标签检测数据集

    2025年12月11日 30 87 1

    数据集概述 该数据集包含用于检测社交媒体平台(TikTok和YouTube)电子烟内容中警告标签的脚本与工作流程文档。核心内容围绕数据收集、视频处理、OCR识别、语言检测及规则分类器构建展开,为电子烟内容合规性分析提供技术实现框架。 文件详解 文件名称: Detecting-Warning-Labels-on-E-Cigarette-Content-...
    packageimg
  • Eclipse与Mozilla缺陷跟踪数据集

    2025年12月11日 30 142 74

    数据集概述 该数据集包含从Eclipse和Mozilla项目提取的超过二十万条缺陷报告数据,其中Eclipse项目四万七千条、Mozilla项目十六万八千条。数据不仅提供缺陷报告的单一快照,还涵盖报告生命周期内的所有增量修改记录。 文件详解 文件名称:msr2013-bug_dataset-master.zip 文件格式:ZIP(压缩包)...
    packageimg
  • 农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集

    2025年12月11日 30 125 99

    数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
    packageimg
  • 无人机软件平台安全问题自动化识别与定性表征研究复现数据包

    2025年12月10日 30 135 106

    数据集概述 本数据集是研究“无人机软件平台安全问题自动化识别与定性表征”的复现数据包,包含分析项目的安全相关缺陷数据、原始数据、研究脚本及结果文件,支持复现研究中的安全问题识别与分析过程。 文件详解 该数据集由多个文件夹和文件组成,具体说明如下: - 1_Safety-Dataset 文件夹: - bugs 文件夹:包含分析项目的缺陷数据文件,如...
    packageimg
  • 废弃库文本识别提示词数据集

    2025年12月10日 30 173 51

    数据集概述 本数据集为用于识别废弃库文本的提示词集合,包含基于项目描述和README文件设计的提示词,支持相关文本分类任务。 文件详解 prompt.zip: 压缩包格式,包含以下文件 description_classification.md: Markdown格式,含基于项目描述识别废弃库的提示词 README_classification.md:...
    packageimg
  • 基于知识图谱的大语言模型谣言检测系统设计与算法优化数据集

    2025年12月10日 30 50 4

    数据集概述 本数据集围绕基于知识图谱的大语言模型谣言检测系统设计与算法优化展开,涵盖KG-RumorDetect框架的模型架构、知识图谱集成、优化技术等核心内容,为谣言检测研究提供技术方案参考。 文件详解 文件名称: archive.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含与KG-...
    packageimg