找到396个数据集

标签: 多语言

过滤结果
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 131 10

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • 已婚夫妇半结构化访谈问卷集_英语德语意大利语

    2025年12月15日 30 177 1

    数据集概述 本数据集包含用于引导已婚夫妇半结构化访谈的多语言问卷文件,支持英语、德语和意大利语三种语言版本,为跨文化婚姻关系相关研究提供标准化访谈工具。 文件详解 问卷文件(PDF格式): Couples_German_questionnaire.pdf:德语版本的已婚夫妇访谈问卷,PDF格式...
    packageimg
  • 复活节主题多语言祝福数据集

    2025年12月14日 30 198 26

    数据集概述 该数据集围绕复活节主题,包含多语言祝福内容及相关文件,以图片和3D模型文件为主,为展示或研究复活节文化相关的视觉素材提供基础数据支持。 文件详解 图片文件(.jpeg格式,共5个):thumb0.jpeg、thumb1.jpeg、thumb2.jpeg、thumb3.jpeg、thumb4.jpeg,可能为复活节主题的预览图片...
    packageimg
  • 多语言定性分析结果摘要数据集

    2025年12月10日 30 18 17

    数据集概述 本数据集展示了针对多语言样本的定性分析结果摘要,覆盖三十九种语言相关内容,以文档形式呈现结构化的分析总结。 文件详解 文件名称: Appendix_results_qual_analysis_summarized_40_languages.pdf 文件格式: PDF 内容说明:...
    packageimg
  • ARASAAC彩色象形图数据集_第7部分_共16部分

    2025年12月10日 30 137 11

    数据集概述 该数据集为ARASAAC彩色象形图系列的第7部分,包含一千个由Sergio Palao创作的黑白象形图。图片以PNG格式为主,覆盖生物学、统计学、医学、图像视觉、音频等领域的语义关键词,可作为视觉符号资源使用。 文件详解 核心文件内容: 包含一千个文件,其中九百九十九个为PNG格式的象形图文件,一个为无扩展名文件...
    packageimg
  • 学术交流创新全球调查数据集2015_2016

    2025年12月8日 30 3 1

    数据集概述 该数据集包含2015-2016年全球学术交流创新调查的匿名原始数据与清理后数据,覆盖研究工具使用、开放获取态度、学术交流发展预期及受访者人口统计信息,为研究学术交流工具使用现状及研究工作流变化提供支持。 文件详解 数据文件: raw-data-innovations-in-scholarly-communication-...
    packageimg
  • 多语言合成出院小结数据集_基于心力衰竭临床病例

    2025年12月6日 30 208 139

    数据集概述 该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。 文件详解 根目录文件: MultiSynDS.zip: 压缩文件,包含数据集所有内容 子目录结构:...
    packageimg
  • SympTEMIST症状体征信息抽取标注数据集

    2025年12月4日 30 60 49

    数据集概述 该数据集是针对西班牙语文档中症状、体征和检查结果进行信息抽取的标注资源,包含任务训练测试集、SNOMED术语词表、九种语言的银标准数据及一万五千余例临床病例背景集,为医学文本挖掘研究提供标准化标注数据。 文件详解 文件名称: symptemist-complete_240208.zip 文件格式: ZIP压缩包 包含内容:...
    packageimg
  • 多语言机器翻译模型评估数据集

    2025年11月15日 30 46 35

    多语言机器翻译模型评估数据集_Multilingual_Machine_Translation_Model_Evaluation_Dataset 数据来源:互联网公开数据 标签:机器翻译, 多语言, 文本评估, 模型评估, 性能分析, 深度学习, 自然语言处理, 语言模型 数据概述:...
    packageimg
  • 社交媒体评论毒性检测数据集

    2025年11月4日 30 4 2

    社交媒体评论毒性检测数据集_Social_Media_Comment_Toxicity_Detection 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 自然语言处理, 机器学习, 情感分析, 多语言, 数据标注, 评论分析 数据概述: 该数据集包含来自社交媒体平台的用户评论数据,用于训练和评估毒性检测模型。主要特征如下:...
    packageimg
  • 多语言文本嵌入向量数据集

    2025年11月2日 30 183 173

    多语言文本嵌入向量数据集_Multilingual_Text_Embedding_Vectors 数据来源:互联网公开数据 标签:文本嵌入, 多语言, 自然语言处理, 语义分析, 向量空间, 预训练模型, 迁移学习, 情感分析 数据概述: 该数据集包含基于distiluse-base-multilingual-...
    packageimg
  • 维基百科评论毒性分析数据集

    2025年10月30日 30 106 4

    维基百科评论毒性分析数据集_Wikipedia_Comments_Toxicity_Analysis_Dataset 数据来源:互联网公开数据 标签:文本分析, 情感分析, 毒性检测, 维基百科, 自然语言处理, 评论数据, 机器学习, 多语言 数据概述:...
    packageimg
  • 古吉拉特语与英语新闻标题分类数据集

    2025年10月30日 30 200 161

    古吉拉特语与英语新闻标题分类数据集_Gujarati_and_English_News_Headline_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类,新闻标题,多语言,古吉拉特语,英语,情感分析,机器学习,自然语言处理 数据概述:...
    packageimg
  • 多语言语音数据元信息数据集

    2025年10月9日 30 96 95

    多语言语音数据元信息数据集_Multilingual_Speech_Metadata 数据来源:互联网公开数据 标签:语音识别, 多语言, 语音数据, 元数据, 声学分析, 语言学, 数据标注, 机器学习 数据概述: 该数据集包含语音数据的元信息,记录了多种语言的语音样本的相关属性。主要特征如下:...
    packageimg
  • 文本结构化分析多语言数据集

    2025年9月27日 30 2 1

    文本结构化分析多语言数据集_Text_Structural_Analysis_Multilingual_Dataset 数据来源:互联网公开数据 标签:文本分析, 语言学, 结构化数据, 句法分析, 自然语言处理, 多语言, 深度学习, 文本特征 数据概述:...
    packageimg
  • 多语言文本嵌入特征数据集

    2025年9月26日 30 155 113

    多语言文本嵌入特征数据集_Multilingual_Text_Embedding_Features 数据来源:互联网公开数据 标签:文本嵌入, 多语言, 自然语言处理, 语义分析, 向量表示, 机器翻译, 情感分析, 预训练模型 数据概述: 该数据集包含基于distiluse-base-multilingual-...
    packageimg
  • 泰米尔语_英语语音翻译数据集

    2025年9月26日 30 67 14

    泰米尔语_英语语音翻译数据集_Tamil_English_Speech_Translation_Dataset 数据来源:互联网公开数据 标签:语音识别, 语音翻译, 泰米尔语, 英语, 多语言, 语音, 文本, 机器学习 数据概述: 该数据集包含泰米尔语和英语的语音数据及对应的文本转录和翻译,旨在促进泰米尔语与英语之间的语音翻译研究。主要特征如下:...
    packageimg
  • 商品搜索相关性评估数据集

    2025年9月24日 30 210 25

    商品搜索相关性评估数据集_Product_Search_Relevance_Assessment 数据来源:互联网公开数据 标签:商品搜索, 相关性评估, 自然语言处理, 文本匹配, 多语言, 数据标注, 机器学习, 推荐系统 数据概述: 该数据集包含多个CSV文件,记录了用户查询与商品之间的相关性信息,用于评估和训练商品搜索相关性模型。主要特征如下:...
    packageimg
  • 多语言恶意文本检测数据集

    2025年9月14日 30 15 7

    多语言恶意文本检测数据集_Multilingual_Toxic_Text_Detection_Dataset 数据来源:互联网公开数据 标签:文本分类, 恶意文本, 多语言, 自然语言处理, 机器翻译, 情感分析, 毒性检测, 语言模型 数据概述: 该数据集包含来自多个语种的文本数据,旨在用于恶意文本的检测与分析。主要特征如下:...
    packageimg
  • 多语言语音识别文本数据集

    2025年9月13日 30 121 118

    多语言语音识别文本数据集_Multilingual_Speech_Recognition_Text_Dataset 数据来源:互联网公开数据 标签:语音识别, 文本转录, 多语言, 语音数据, 机器学习, 声学模型, 自然语言处理, 数据集 数据概述: 该数据集包含来自多个来源的多语言语音数据,记录了语音片段及其对应的文本转录。主要特征如下:...
    packageimg