-
萨米语文本分析数据集SamiLanguageTextAnalysis-annanet
萨米语文本分析数据集SamiLanguageTextAnalysis-annanet 数据来源:互联网公开数据 标签:萨米语, 文本分析, 语言学, 语料库, 文本挖掘, 自然语言处理, 少数民族语言, 文本语料 数据概述: 该数据集包含来自萨米语文本的数据,记录了萨米语的语言文字内容。主要特征如下:... -
印地语-英语翻译数据集Hindi-EnglishTranslationDataset-aryaumesh
印地语-英语翻译数据集Hindi-EnglishTranslationDataset-aryaumesh 数据来源:互联网公开数据 标签:机器翻译, 语言学, 印地语, 英语, 翻译模型, 双语对照, 文本数据, 自然语言处理 数据概述: 该数据集包含来自互联网的英语-印地语翻译对照数据,记录了英语短语或单词及其对应的印地语翻译。主要特征如下:... -
中文词频统计分析数据集ChineseWordFrequencyStatistics-danphan2012
中文词频统计分析数据集ChineseWordFrequencyStatistics-danphan2012 数据来源:互联网公开数据 标签:中文, 词频分析, 自然语言处理, 文本挖掘, 语料库, 统计分析, 语言学, 数据集 数据概述: 该数据集包含来自公开语料库的中文文本数据,记录了词语及其对应的出现频率。主要特征如下:... -
印地语-英语平行语料翻译数据集Hindi-EnglishParallelCorpus-jayk00
印地语-英语平行语料翻译数据集Hindi-EnglishParallelCorpus-jayk00 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 语料库, 印地语, 英语, 自然语言处理, 语言学, 双语数据 数据概述: 该数据集包含来自未知来源的印地语-英语平行语料,记录了印地语文本及其对应的英语翻译。主要特征如下:... -
印地语词汇翻译数据集HindiVocabularyTranslationDataset-omkartt
印地语词汇翻译数据集HindiVocabularyTranslationDataset-omkartt 数据来源:互联网公开数据 标签:机器翻译, 词汇翻译, 印地语, 文本数据, 自然语言处理, 语言学, 数据集, 词汇对照 数据概述: 该数据集包含来自互联网的印地语词汇及其对应的翻译。主要特征如下:... -
印地语词汇翻译对照数据集HindiVocabularyTranslationDataset-sriramgugulothu
印地语词汇翻译对照数据集HindiVocabularyTranslationDataset-sriramgugulothu 数据来源:互联网公开数据 标签:印地语, 词汇翻译, 文本数据, 语言学, 机器翻译, 自然语言处理, 数据集, 文本分析 数据概述:... -
阿拉伯语隐喻识别数据集ArabicMetaphorDetectionDataset-linahabuhajar
阿拉伯语隐喻识别数据集ArabicMetaphorDetectionDataset-linahabuhajar 数据来源:互联网公开数据 标签:隐喻检测,自然语言处理,文本分类,阿拉伯语,情感分析,语料库,机器学习,语言学 数据概述: 该数据集包含来自多个来源的阿拉伯语文本,主要用于阿拉伯语文本中的隐喻识别任务。主要特征如下:... -
维基百科中文语句数据集-terrychanorg
维基百科中文语句数据集-terrychanorg 数据来源:互联网公开数据 标签:维基百科,中文,语句数据,自然语言处理,文本分析,语言学,数据集 数据概述: 本数据集包含从维基百科中文版提取的1258282句语句数据。这些语句涵盖了广泛的主题和领域,包括但不限于历史、科学、技术、文化和社会。数据集旨在为自然语言处理和文本分析提供丰富的语料库资源。... -
印度语地名识别标注数据集HindiNamedEntityRecognitionDataset-vishal19217
印度语地名识别标注数据集HindiNamedEntityRecognitionDataset-vishal19217 数据来源:互联网公开数据 标签:自然语言处理, 命名实体识别, 地名识别, 印度语, 文本标注, 语言学, 机器学习, 文本分析 数据概述: 该数据集包含来自印度语文本的数据,记录了经过标注的句子,用于识别其中的地名实体。主要特征如下:... -
突尼斯方言文本情感分析数据集TunisianDialectsTextSentimentAnalysis-ghaithkhlifi
突尼斯方言文本情感分析数据集TunisianDialectsTextSentimentAnalysis-ghaithkhlifi 数据来源:互联网公开数据 标签:突尼斯方言,情感分析,文本分类,自然语言处理,方言识别,社交媒体,语言学,机器学习 数据概述:... -
日语词汇频率统计数据集JapaneseWordFrequencyStatistics-takashitahara
日语词汇频率统计数据集JapaneseWordFrequencyStatistics-takashitahara 数据来源:互联网公开数据 标签:日语, 词频分析, 语言学, 词汇, 自然语言处理, 文本分析, 语料库, 统计 数据概述: 该数据集包含来自公开语料库的日语词汇频率统计数据,记录了日语词汇的出现频率及其排名信息。主要特征如下:... -
马拉雅拉姆语语音转录数据集MalayalamSpeechTranscriptionDataset-nairsaanvi
马拉雅拉姆语语音转录数据集MalayalamSpeechTranscriptionDataset-nairsaanvi 数据来源:互联网公开数据 标签:语音识别, 语音转录, 马拉雅拉姆语, 语言学, 文本分析, 语音数据, 机器学习, 声学模型 数据概述: 该数据集包含来自公开渠道的马拉雅拉姆语语音数据及其对应的文本转录。主要特征如下:... -
英泰双语对话翻译数据集English-ThaiDialogueTranslationDataset-athitdavies
英泰双语对话翻译数据集English-ThaiDialogueTranslationDataset-athitdavies 数据来源:互联网公开数据 标签:机器翻译, 双语语料库, 文本翻译, 泰语, 英语, 自然语言处理, 语言学, 文本数据 数据概述: 该数据集包含英泰双语对话文本,记录了英语和泰语的对话内容及其对应的翻译。主要特征如下:... -
古兰经文本阿拉伯语词汇频率分析数据集HolyQuranArabicWordFrequencyAnalysis-azeeznazzal
古兰经文本阿拉伯语词汇频率分析数据集HolyQuranArabicWordFrequencyAnalysis-azeeznazzal 数据来源:互联网公开数据 标签:古兰经,阿拉伯语,文本分析,词频统计,自然语言处理,宗教,语料库,语言学 数据概述: 该数据集包含来自古兰经的阿拉伯语文本,记录了其中词汇的出现频率。主要特征如下:... -
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi 数据来源:互联网公开数据 标签:文本对齐, 机器翻译, 语言学, 南非语, 语料库, 自然语言处理, 文本分析, 语言资源 数据概述: 该数据集包含来自南非北部索托语的文本对齐数据,记录了不同语句在语料库中的对应关系。主要特征如下:... -
英文文本高频词汇统计数据集EnglishTextHigh-FrequencyWordStatistics-linawolf
英文文本高频词汇统计数据集EnglishTextHigh-FrequencyWordStatistics-linawolf 数据来源:互联网公开数据 标签:文本分析, 词频统计, 英语, 语料库, 自然语言处理, 数据可视化, 语言学, 词汇 数据概述:... -
文本可读性评估测试数据集TextReadabilityAssessmentTestDataset-teeyee314
文本可读性评估测试数据集TextReadabilityAssessmentTestDataset-teeyee314 数据来源:互联网公开数据 标签:文本分析, 可读性评估, 自然语言处理, 文本理解, 教育, 语言学, 机器学习, 语料库 数据概述: 该数据集包含来自CommonLit Readability... -
语言学习者口语能力评估数据集LanguageLearnerSpokenProficiencyAssessmentDataset-dhawalsakharwade
语言学习者口语能力评估数据集LanguageLearnerSpokenProficiencyAssessmentDataset-dhawalsakharwade 数据来源:互联网公开数据 标签:语言学习, 口语评估, 语言学, 多语言, 学习者表现, 数据分析, 机器学习, 语言能力 数据概述:... -
TED演讲西班牙语字幕文本数据集TEDTalksSpanishSubtitles-criscastromaya
TED演讲西班牙语字幕文本数据集TEDTalksSpanishSubtitles-criscastromaya 数据来源:互联网公开数据 标签:TED演讲, 西班牙语, 字幕, 文本分析, 自然语言处理, 语料库, 语言学, 文本挖掘 数据概述: 该数据集包含来自TED演讲的西班牙语字幕文本,记录了演讲者的演讲内容。主要特征如下:... -
多语言文本相似度评估数据集MultilingualTextSimilarityEvaluationDataset-rookiejing
多语言文本相似度评估数据集MultilingualTextSimilarityEvaluationDataset-rookiejing 数据来源:互联网公开数据 标签:文本相似度, 多语言, 语料库, 机器翻译, 自然语言处理, 文本匹配, 语言学, 数据标注 数据概述: 该数据集包含来自不同语言的文本对,记录了文本对之间的相似度评分。主要特征如下:...