找到676个数据集

标签: 语言学

过滤结果
  • 印度僧伽罗语歌曲与比喻数据集

    2025年4月15日   

    印度僧伽罗语歌曲与比喻数据集 数据来源:互联网公开数据 标签:僧伽罗语,歌曲,比喻,歌词分析,文化研究,语言学,文学 数据概述: 本数据集包含与僧伽罗语歌曲及其所用比喻相关的信息。数据涵盖了各类僧伽罗语歌曲的歌词、歌曲主题、使用的比喻及其含义等关键要素,为研究僧伽罗语文化和文学提供了丰富的语言材料。 数据用途概述:...
    packageimg
  • 波斯语文本蕴含推理数据集FarsTail

    2025年4月15日   

    波斯语文本蕴含推理数据集FarsTail 数据来源:互联网公开数据 标签:自然语言处理,文本蕴含,NLI,波斯语,波斯文,Farsi,数据集,机器翻译,语言学 数据概述:...
    packageimg
  • 英语到阿萨姆语平行语料库数据集

    2025年4月15日   

    英语到阿萨姆语平行语料库数据集 数据来源:互联网公开数据 标签:英语,阿萨姆语,平行语料库,自然语言处理,翻译,语言学 数据概述: 本数据集包含大量经过清理的英语到阿萨姆语平行语料库数据,适用于自然语言处理和机器翻译研究。数据集分为两部分:1_eng.txt 包含大量的英语句子,1_assamese.txt...
    packageimg
  • 讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集

    2025年4月15日   

    讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集 数据来源:互联网公开数据 标签:讽刺,情感分析,文本分类,自然语言处理,语料库,机器学习,社交媒体,语言学 数据概述:...
    packageimg
  • 保加利亚诗歌数据集1963-2021

    2025年4月15日   

    保加利亚诗歌数据集1963-2021 数据来源:互联网公开数据 标签:保加利亚诗歌,文本生成,作者分类,文学研究,语言学 数据概述: 本数据集收录了从Chitanka.info网站爬取的保加利亚诗歌,涵盖了多个时期的作品。数据以CSV文件格式存储在chitanka-...
    packageimg
  • 波斯语拼写纠错数据集-FASpell数据集

    2025年4月15日   

    波斯语拼写纠错数据集-FASpell数据集 数据来源:互联网公开数据 标签:波斯语,Farsi,拼写纠错,自然语言处理,NLP,语言学,文本校对,教育,机器学习 数据概述:...
    packageimg
  • 波兰手语数据集

    2025年4月14日   

    波兰手语数据集 数据来源:互联网公开数据 标签:波兰手语,手势识别,机器学习,计算机视觉,语言学,模式识别,数据科学,波兰文化,手语研究 数据概述:...
    packageimg
  • 社交媒体仇恨言论识别数据集-文本内容-2017

    2025年4月14日   

    社交媒体仇恨言论识别数据集-文本内容-2017 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,文本分析,情感分析,自然语言处理,语言学,数据标注,分类,攻击性语言 数据概述: 本数据集包含近1.5万条短文本,每条文本均由多位贡献者进行标注,以识别其是否包含仇恨言论。标注结果分为三类:a) 包含仇恨言论;b) 具有攻击性,但不属于仇恨言论;c)...
    packageimg
  • 韩国谚语与格言数据集

    2025年4月14日   

    韩国谚语与格言数据集 数据来源:互联网公开数据 标签:韩国谚语,韩国格言,文化遗产,文化研究,语言学,社会学 数据概述: 本数据集包含了丰富的韩国谚语与格言,涵盖了从古代到现代的广泛时期。数据集中的每一条谚语或格言都提供了其意义、来源以及类型(如俗语、成语等)的详细说明,为研究韩国语言文化和社会习俗提供了宝贵资源。 数据用途概述:...
    packageimg
  • 阿拉伯语仇恨言论检测数据集-42k

    2025年4月14日   

    阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。...
    packageimg
  • 德语词汇列表数据集

    2025年4月14日   

    德语词汇列表数据集 数据来源:互联网公开数据 标签:德语词汇,语言学,语料库,书籍,文本分析,教育,研究 数据概述: 本数据集收录了11本德语书籍的文本内容,总计超过3000页。数据集中只包含一个字段,为德语词汇列表。这些书籍来源于互联网资源,包括DOABooks和USP E-Disciplinas平台上的相关文档。 数据用途概述:...
    packageimg
  • 葡萄牙语单复数数据库

    2025年4月14日   

    葡萄牙语单复数数据库 数据来源:互联网公开数据 标签:葡萄牙语,单复数,语言学,词汇,数据分析,教育,词典 数据概述:...
    packageimg
  • 瓦尔米基罗摩衍那梵文数据集

    2025年4月14日   

    瓦尔米基罗摩衍那梵文数据集 数据来源:互联网公开数据 标签:梵文,印度史诗,瓦尔米基,罗摩衍那,神话,文学,印度文化,语言学,历史 数据概述:...
    packageimg
  • 贝叶斯网络自然语言解释文本数据集

    2025年4月14日   

    贝叶斯网络自然语言解释文本数据集 数据来源:互联网公开数据 标签:贝叶斯网络,自然语言解释,可解释AI,文本分析,机器学习,语料库,语言学,解释生成 数据概述: 本数据集,即ExBAN语料库(Explanations for BAyesian...
    packageimg
  • 孟加拉语文本噪声标注数据集-情感分析应用-2024

    2025年4月14日   

    孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'...
    packageimg
  • 词语难度评估数据集

    2025年4月14日   

    词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean...
    packageimg
  • 印度及其他国家姓氏国籍分类数据集

    2025年4月14日   

    印度及其他国家姓氏国籍分类数据集 数据来源:互联网公开数据 标签:姓氏,国籍分类,数据集,文化研究,人口统计,语言学,机器学习 数据概述:...
    packageimg
  • 巴西亚克语新约圣经文本数据集

    2025年4月14日   

    巴西亚克语新约圣经文本数据集 数据来源:互联网公开数据 标签:巴西亚克语,新约圣经,文本数据,宗教研究,语言学 数据概述: 本数据集收录了27本巴西亚克语新约圣经的文本数据,以CSV格式呈现。这些文本涵盖了新约圣经的所有章节,为宗教研究、语言学分析以及文化研究提供了丰富的资源。 数据用途概述:...
    packageimg
  • 尼泊尔事实性问题意图分类数据集

    2025年4月14日   

    尼泊尔事实性问题意图分类数据集 数据来源:互联网公开数据 标签:尼泊尔,自然语言处理,问题分类,问答系统,知识库,教育,语言学 数据概述: 本数据集收录了从尼泊尔一般知识书籍中收集的事实性问题,并根据开发的分类体系进行了标注。数据集包括了不同类别和意图的问题,旨在为尼泊尔自然语言处理领域的问答系统提供基础数据支持。 数据用途概述:...
    packageimg
  • 世界语言结构数据库语言特征与分布数据集

    2025年4月14日   

    世界语言结构数据库语言特征与分布数据集 数据来源:互联网公开数据 标签:语言学,语言结构,语言特征,全球语言,WALS,语言分布,语言多样性,数据分析,地图可视化 数据概述: 本数据集基于《世界语言结构数据库》(WALS, World Atlas of Language...
    packageimg