找到568个数据集

标签: NLP

过滤结果
  • 多语言多领域文本属性数据集

    2025年12月22日 30 125 36

    数据集概述 该数据集专为真实文档中的词级文本属性识别设计,包含1623张真实文档图像(涵盖法律通知、土地记录等多领域),覆盖8种语言,提供1117716个词级标注,标注类型包括粗体、斜体等文本属性及正常文本。 文件详解 测试集文件:MMTAD-TESTSET.zip,格式为ZIP,包含测试集数据 模型文件:TEXTAR-...
    packageimg
  • 关键词_susu_情感数据

    2025年12月20日 30 192 50

    数据集概述 本数据集围绕关键词“susu”(印尼语“牛奶”)的情感分析主题构建,包含相关的情感数据内容,以单一PDF文档形式呈现,为研究“susu”相关文本的情感倾向提供数据支持。 文件详解 文件名称: Open Data Sentimen Milk.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • 自然语言处理大型语言模型蜕变测试数据集2025

    2025年12月19日 30 39 30

    数据集概述 本数据集是ICSME 2025会议论文相关研究的配套数据,围绕自然语言处理(NLP)任务中大型语言模型(LLM)的蜕变测试展开,包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据,所有文件以JSON格式存储,为LLM蜕变测试研究提供支撑。 文件详解 该数据集以ZIP压缩包形式组织,内部包含多个JSON文件和目录,具体说明如下: -...
    packageimg
  • 古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

    2025年12月18日 30 28 18

    数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
    packageimg
  • BigGrams半监督HTML信息提取系统数据集

    2025年12月15日 30 102 86

    数据集概述 该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集,包含从真实网站抓取的网页数据,以及对应网站的人工标注参考实例数据,用于支持半监督信息提取方法的研究与验证。 文件详解 数据集包含一个ZIP压缩文件,解压后包含两个主要文件夹,具体说明如下: - 压缩文件: bigrams-reference-data-...
    packageimg
  • Umsuka英语_祖鲁语平行语料库

    2025年12月8日 30 149 52

    数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
    packageimg
  • 用户反馈分类研究系统性文献综述原始研究参考文献

    2025年12月11日 30 109 87

    数据集概述 本数据集是一份原始研究参考文献列表,源于对用户反馈分类技术与类别的系统性文献综述,为NLP4RE 2019研讨会两篇相关论文提供参考,收录于REFSQ'19联合会议CEUR研讨会论文集。 文件详解 文件名称: Bibliography of Primary Studies.pdf 文件格式: PDF(.pdf) 文件内容:...
    packageimg
  • NLP_LLM_Based_葡萄牙语软件工程岗位数据提取对比分析完整数据

    2025年12月10日 30 28 25

    数据集概述 本数据集围绕葡萄牙语软件工程招聘信息的数据提取任务,对比分析自然语言处理(NLP)与大语言模型(LLM)的应用效果,包含招聘信息数据文件、岗位列表及分析报告类文件。 文件详解 Vagas para Comparação.json:JSON格式文件,包含用于对比分析的葡萄牙语软件工程招聘信息数据。 Lista de cargos...
    packageimg
  • 图皮语依存树库数据集

    2025年12月9日 30 169 35

    数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • GLOVE_全球词向量表示数据集

    2025年12月8日 30 163 45

    数据集概述 本数据集围绕“GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION”主题,包含一份PDF文档,核心内容与全球词向量表示相关,为词向量技术研究提供基础资料支持。 文件详解 文件名称: Abdulatif Meyliev Rakhmatillayevich.pdf 文件格式: PDF 内容说明:...
    packageimg
  • BioContextAI_Based_简单MCP评估文本任务数据集

    2025年12月8日 30 171 141

    数据集概述 本数据集为BioContextAI simple MCP评估相关的压缩文件,未提供具体内容描述,仅包含一个归档文件,可用于相关领域的评估任务。 文件详解 文件名称: BioContextAI-simple-mcp-evaluation.zip 文件格式: ZIP(.zip) 内容说明:...
    packageimg
  • 路透社21578基准语料库

    2025年12月8日 30 145 76

    数据集概述 该数据集为路透社21578基准语料库,是一个用于文本分类等任务的经典基准数据集,以压缩文件形式存储,未提供训练/测试、数据/标签等拆分信息。 文件详解 文件名称: RCV1.zip 文件格式: ZIP压缩包(.zip) 内容说明: 该压缩包包含路透社21578基准语料库的相关数据,无可用内容预览,未检测到命名模式或拆分结构。 适用场景...
    packageimg
  • 俄语词序百科条目2014

    2025年12月7日 30 162 8

    数据集概述 本数据集为2014年发表于《大俄罗斯百科全书》第28卷的“Порядок слов(词序)”条目。内容涵盖俄语词序分析的基础框架,区分词序的限制性与非限制性方面,为俄语语法及词序研究提供权威参考。 文件详解 文件名称: WORD ORDER _ENCYCL 2014.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 学术_小说与歌曲语言数据集

    2025年12月5日 30 104 59

    数据集概述 该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划(DMP)。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开,对比不同体裁及文本内的动词多样性,分析各体裁高频动词特征。 文件详解 文件名称:DMP_Language in academics fiction and song.pdf 文件格式:PDF (.pdf)...
    packageimg
  • 藏语古典词性标注词汇表

    2025年12月4日 30 70 4

    数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 网络安全漏洞描述与严重程度评估数据集

    2025年11月10日 30 37 18

    网络安全漏洞描述与严重程度评估数据集_Cybersecurity_Vulnerability_Description_and_Severity_Assessment 数据来源:互联网公开数据 标签:网络安全, 漏洞分析, 文本分类, 语义分析, 机器学习, 风险评估, 安全情报, NLP 数据概述:...
    packageimg
  • 文本毒性预测模型验证数据集

    2025年10月22日 60 137 133

    文本毒性预测模型验证数据集_Text_Toxicity_Prediction_Model_Validation_Dataset 数据来源:互联网公开数据 标签:文本分类,毒性检测,机器学习,模型评估,自然语言处理,NLP,二分类,模型验证 数据概述: 该数据集包含用于验证文本毒性预测模型性能的数据。主要特征如下:...
    packageimg
  • 新闻文本分类数据集-priyabratapanda

    2025年4月23日 60 20 1

    新闻文本分类数据集-priyabratapanda 数据来源:互联网公开数据 标签:新闻,文本分类,机器学习,自然语言处理,NLP,数据集,信息检索,舆情分析 数据概述:该数据集包含来自多种新闻来源的文本数据,用于新闻文本的分类任务。主要特征如下: 时间跨度:数据记录的时间跨度为不固定,涵盖了不同时间段的新闻报道。...
    packageimg
  • 自然语言处理专项课程数据集

    2025年10月9日 30 9 1

    自然语言处理专项课程数据集_Natural_Language_Processing_Specialization_Course_Datasets 数据来源:互联网公开数据 标签:自然语言处理, NLP, 深度学习, 机器学习, 文本分析, 课程资源, 数据集, 计算机科学 数据概述:...
    packageimg
  • 孟加拉语新闻分类数据集1963-2021

    2025年4月14日 60 152 28

    孟加拉语新闻分类数据集1963-2021 数据来源:互联网公开数据 标签:孟加拉语,新闻分类,NLP,机器学习,文本分析,情感分析,信息检索,语言建模 数据概述: 本数据集收录了来自Jamuna...
    packageimg