找到667个数据集

标签: 语言学

过滤结果
  • 印地语仇恨言论检测数据集-blurred8216

    2025年4月25日   

    印地语仇恨言论检测数据集-blurred8216 数据来源:互联网公开数据 标签:仇恨言论,印地语,自然语言处理,文本分类,机器学习,情感分析,社交媒体,语言学 数据概述:该数据集包含来自各种来源的印地语文本数据,主要用于仇恨言论的检测和分类。主要特征如下: 时间跨度:数据收集的时间范围不详,但涵盖了近期社交媒体和互联网上的文本。...
    packageimg
  • 泰米尔语歌词数据集TamilLyricsDataset-adibrao

    2025年4月25日   

    泰米尔语歌词数据集TamilLyricsDataset-adibrao 数据来源:互联网公开数据 标签:泰米尔语,歌词,数据集,自然语言处理,文本分析,音乐研究,机器学习,语言学 数据概述: 该数据集包含泰米尔语歌曲的歌词数据,记录了多种泰米尔语歌曲的歌词内容。主要特征如下: 时间跨度:数据记录的时间范围从20世纪到现代。...
    packageimg
  • 俄罗斯越南语言数据集RussianVietnameseDataset-flightstar

    2025年4月25日   

    俄罗斯越南语言数据集RussianVietnameseDataset-flightstar 数据来源:互联网公开数据 标签:语言学,自然语言处理,数据集,机器翻译,跨语言分析,人工智能,语言研究,文本分析 数据概述: 该数据集包含来自互联网公开资源的俄语和越南语语言数据,记录了两种语言的文本句子对,适用于机器翻译,语言学研究等任务。主要特征如下:...
    packageimg
  • CommonLit阅读理解测评数据集-rohitsingh9990

    2025年4月25日   

    CommonLit阅读理解测评数据集-rohitsingh9990 数据来源:互联网公开数据 标签:阅读理解,数据集,自然语言处理,文本分析,机器学习,教育,语言学,测评 数据概述:该数据集包含来自CommonLit平台的阅读理解测评数据,记录了学生在不同文本上的阅读理解表现。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了多个学年。...
    packageimg
  • 词性标注数据集Part-of-SpeechDataset-safavieh

    2025年4月25日   

    词性标注数据集Part-of-SpeechDataset-safavieh 数据来源:互联网公开数据 标签:自然语言处理,词性标注,数据集,文本分析,机器学习,语言学,数据挖掘,文本语料库 数据概述: 该数据集包含经过标注的文本数据,用于训练和评估词性标注模型。主要特征如下:...
    packageimg
  • 古汉语分类数据集ClassicalChineseClassifyDataset-waautomat

    2025年4月25日   

    古汉语分类数据集ClassicalChineseClassifyDataset-waautomat 数据来源:互联网公开数据 标签:古汉语,文本分类,数据集,自然语言处理,机器学习,语言学,文化遗产,文本分析 数据概述: 该数据集包含来自各种古汉语文献的文本数据,记录了不同时期和类型的古汉语文本。主要特征如下:...
    packageimg
  • 泰米尔语仇恨言论数据集TamilHateSpeechDataset-karnatiprash

    2025年4月25日   

    泰米尔语仇恨言论数据集TamilHateSpeechDataset-karnatiprash 数据来源:互联网公开数据 标签:仇恨言论,自然语言处理,文本分析,机器学习,情感分析,泰米尔语,社交媒体,语言学 数据概述: 该数据集包含了来自社交媒体平台的泰米尔语文本数据,主要用于仇恨言论的检测与分析。主要特征如下:...
    packageimg
  • 英国广播公司僧伽罗语新闻数据集BBCSinhalaDataset-kawinduwijewardhane

    2025年4月25日   

    英国广播公司僧伽罗语新闻数据集BBCSinhalaDataset-kawinduwijewardhane 数据来源:互联网公开数据 标签:新闻,数据集,文本分析,自然语言处理,语言学,僧伽罗语,机器学习,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)僧伽罗语频道的新闻文章数据,记录了BBC僧伽罗语新闻文章的详细信息。主要特征如下:...
    packageimg
  • 阿尔及利亚阿拉伯语方言词汇数据集-fouadtomy

    2025年4月25日   

    阿尔及利亚阿拉伯语方言词汇数据集-fouadtomy 数据来源:互联网公开数据 标签:阿尔及利亚,阿拉伯语,方言,词汇,语言学,文化研究,数据集,自然语言处理 数据概述: 该数据集包含了阿尔及利亚阿拉伯语方言中的词汇。主要特征如下: 时间跨度:数据记录的时间范围主要集中在现代。 地理范围:数据主要覆盖阿尔及利亚地区。...
    packageimg
  • 英语到印地语词典数据集-piyush512

    2025年4月25日   

    英语到印地语词典数据集-piyush512 数据来源:互联网公开数据 标签:词典,翻译,印地语,英语,自然语言处理,语言学,数据集,机器翻译 数据概述: 该数据集包含英语到印地语的词汇翻译数据,旨在为语言研究和机器翻译应用提供支持。主要特征如下: 时间跨度: 数据记录的时间范围不明确,但数据内容反映了词汇翻译的通用性。 地理范围:...
    packageimg
  • 西班牙语文本情感分析数据集-suramyajadhav

    2025年4月25日   

    西班牙语文本情感分析数据集-suramyajadhav 数据来源:互联网公开数据 标签:情感分析,西班牙语,文本数据,自然语言处理,机器学习,情绪识别,语言学,文本挖掘 数据概述: 该数据集包含来自西班牙语文本的情感标注数据,用于训练和评估情感分析模型。主要特征如下: 时间跨度: 数据记录的时间范围不明确,但数据涵盖了多个时间段的文本内容。 地理范围:...
    packageimg
  • CommonLit阅读理解难度评估辅助数据集CommonLitReadabilityPrizeAuxiliaryDataDataset-chamecall

    2025年4月25日   

    CommonLit阅读理解难度评估辅助数据集CommonLitReadabilityPrizeAuxiliaryDataDataset-chamecall 数据来源:互联网公开数据 标签:自然语言处理,阅读理解,文本分析,数据集,可读性评估,教育,机器学习,语言学 数据概述:...
    packageimg
  • 英语-印地语混合语情感分析数据集HinglishSentimentAnalysisDataset-ankitlakra24

    2025年4月25日   

    英语-印地语混合语情感分析数据集HinglishSentimentAnalysisDataset-ankitlakra24 数据来源:互联网公开数据 标签:情感分析,Hinglish,社交媒体,自然语言处理,文本分析,机器学习,印度文化,语言学 数据概述: 该数据集包含了来自社交媒体平台的英语-...
    packageimg
  • 词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Se...

    2025年4月25日   

    词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Senses-shreyswan 数据来源:互联网公开数据 标签:自然语言处理,词汇意义消歧,数据集,语言建模,文本分析,语义理解,机器学习,语言学 数据概述:...
    packageimg
  • 土耳其政治词汇数据集TurkishPoliticalVocabularyDataset-mythereus

    2025年4月25日   

    土耳其政治词汇数据集TurkishPoliticalVocabularyDataset-mythereus 数据来源:互联网公开数据 标签:政治学,词汇分析,数据集,语言学,机器学习,文本挖掘,社会科学,政治研究 数据概述: 该数据集包含来自土耳其政治领域的词汇数据,记录了政治文献,新闻和公开演讲中的关键词汇。主要特征如下:...
    packageimg
  • 文本转国际音标训练集TexttoIPAMappingTrainset-jakir57

    2025年4月25日   

    文本转国际音标训练集TexttoIPAMappingTrainset-jakir57 数据来源:互联网公开数据 标签:文本转音标,数据集,语音识别,自然语言处理,机器学习,语言学,音标转换,人工智能 数据概述:...
    packageimg
  • 孟加拉语转罗马字数据集BanglatoRomanTransliterationDataset-nazmuddhohaansary

    2025年4月25日   

    孟加拉语转罗马字数据集BanglatoRomanTransliterationDataset-nazmuddhohaansary 数据来源:互联网公开数据 标签:孟加拉语,罗马字,转写,数据集,自然语言处理,语言学,机器学习,文本分析 数据概述:...
    packageimg
  • 古兰经阿拉伯语章节数据集-haykelbargougui

    2025年4月25日   

    古兰经阿拉伯语章节数据集-haykelbargougui 数据来源:互联网公开数据 标签:古兰经,阿拉伯语,文本数据,宗教,伊斯兰教,自然语言处理,文本分析,语言学 数据概述: 该数据集包含古兰经的阿拉伯语文本数据,记录了古兰经的各个章节及其对应的经文。主要特征如下: 时间跨度:数据涵盖了古兰经的全部内容,即从古兰经的创作时期至今。...
    packageimg
  • 日语汉字字符数据集-ameltouati

    2025年4月25日   

    日语汉字字符数据集-ameltouati 数据来源:互联网公开数据 标签:日语,汉字,字符识别,语言学,数据集,图像处理,机器学习,文字分析 数据概述: 该数据集包含了日语汉字字符的图像数据,旨在用于汉字识别,语言研究等任务。主要特征如下: 时间跨度:数据记录的时间范围涵盖了现代日语汉字的使用。...
    packageimg
  • 古兰经沃洛夫语-法语翻译数据集AlxuraanWolof-FrenchDataset-cibfaye

    2025年4月25日   

    古兰经沃洛夫语-法语翻译数据集AlxuraanWolof-FrenchDataset-cibfaye 数据来源:互联网公开数据 标签:古兰经,沃洛夫语,法语,翻译,语言学,自然语言处理,数据集,跨语言 数据概述: 该数据集包含古兰经的沃洛夫语和法语翻译文本,旨在为语言学研究和跨语言文本分析提供资源。主要特征如下: 时间跨度:数据涵盖了古兰经的全部内容。...
    packageimg