-
阿里与飒达词汇数据集-farismuq2
2025年5月30日 30 152 36
阿里与飒达词汇数据集-farismuq2 数据来源:互联网公开数据 标签:词汇分析,数据集,情感分析,自然语言处理,文本挖掘,中文文本,语料库,语言学 数据概述: 该数据集包含了阿里和飒达相关的词汇,旨在用于词汇分析、情感分析等自然语言处理任务。主要特征如下: 时间跨度: 数据记录的时间范围不限,涵盖了从早期到现代的词汇。 地理范围:... -
印尼语仇恨言论词汇分析数据集IndonesianHateSpeechLexiconAnalysis-tarishamazaya
2025年5月1日 30 102 51
印尼语仇恨言论词汇分析数据集IndonesianHateSpeechLexiconAnalysis-tarishamazaya 数据来源:互联网公开数据 标签:仇恨言论, 情感分析, 文本数据, 词汇分析, 语料库, 印尼语, 词典构建, 自然语言处理 数据概述:... -
阿拉伯语文本预处理数据集ArabicTextPreprocessingDataset-meshaalalharthy
2025年5月1日 30 18 5
阿拉伯语文本预处理数据集ArabicTextPreprocessingDataset-meshaalalharthy 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 自然语言处理, 语料库, 文本清洗, 词汇分析, 字符分析, 机器学习 数据概述: 该数据集包含阿拉伯语文本,主要用于阿拉伯语文本的预处理与分析任务。主要特征如下:... -
日语分词器词汇表数据集JapaneseTokenizerVocabulary-watarukitagawa
2025年5月1日 30 99 70
日语分词器词汇表数据集JapaneseTokenizerVocabulary-watarukitagawa 数据来源:互联网公开数据 标签:日语分词, 词汇表, 文本处理, 自然语言处理, 词汇分析, 语言模型, 数据集, 词语ID 数据概述: 该数据集包含用于日语文本分词的词汇表数据,记录了日语单词及其对应的Token-ID。主要特征如下:... -
英语词汇频率统计分析数据集EnglishWordFrequencyStatisticsAnalysis-dabber1337
2025年5月1日 30 180 163
英语词汇频率统计分析数据集EnglishWordFrequencyStatisticsAnalysis-dabber1337 数据来源:互联网公开数据 标签:词频统计, 语言学, 语料库, 自然语言处理, 词汇分析, 文本数据, 语言模型, 英语 数据概述:... -
孟加拉语词形还原数据集BengaliLemmaDataset-jakir57
2025年4月29日 30 139 119
孟加拉语词形还原数据集BengaliLemmaDataset-jakir57 数据来源:互联网公开数据 标签:词形还原, 自然语言处理, 孟加拉语, 语言学, 文本分析, 词干提取, 词汇分析, 语料库 数据概述: 该数据集包含孟加拉语词汇的词形还原数据,记录了孟加拉语单词的词形与其对应的词元(lemma)之间的映射关系。主要特征如下:... -
情感维度词汇分析数据集EmotionalDimensionWordsAnalysisDataset-jesseemoomey
2025年4月29日 30 156 152
情感维度词汇分析数据集EmotionalDimensionWordsAnalysisDataset-jesseemoomey 数据来源:互联网公开数据 标签:情感分析, 词汇分析, 文本情感, 情绪量化, 道德维度, 情感极性, 文本挖掘, 数据集 数据概述: 该数据集包含词汇的情感维度评分信息,记录了词汇在多个情感维度上的量化指标。主要特征如下:... -
土耳其政治词汇数据集TurkishPoliticalVocabularyDataset-mythereus
2025年4月25日 30 149 61
土耳其政治词汇数据集TurkishPoliticalVocabularyDataset-mythereus 数据来源:互联网公开数据 标签:政治学,词汇分析,数据集,语言学,机器学习,文本挖掘,社会科学,政治研究 数据概述: 该数据集包含来自土耳其政治领域的词汇数据,记录了政治文献,新闻和公开演讲中的关键词汇。主要特征如下:... -
印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3
2025年4月23日 30 127 120
印尼语语料库文本数据集LanguageSetfromKorpusNusantara-ahmdfkhr3 数据来源:互联网公开数据 标签:印尼语,语料库,文本数据,自然语言处理,语言学,词汇分析,文本挖掘,机器学习 数据概述: 该数据集收录了来自印尼语语料库 Nusantara (Korpus Nusantara)... -
词汇与人类特征分析数据集
2025年4月23日 31 24 14
标题:词汇与人类特征分析数据集 数据内容: 本数据集包含三个主要字段: 1. Word 1:包含206种不同的词汇值,代表一组特定的词语或短语。 2. Word 2:包含295种不同的词汇值,代表另一组特定的词语或短语。 3. Human (Mean):包含146种不同的值,代表与人类相关的某种特征或指标,可能是某种测量或分类结果。 数据来源:... -
多语言标记数据集MultilangTokensDataset-pranav51286
2025年4月23日 30 11 9
多语言标记数据集MultilangTokensDataset-pranav51286 数据来源:互联网公开数据 标签:自然语言处理,数据集,多语言,文本分析,词汇分析,机器翻译,语言学,深度学习 数据概述: 该数据集包含多种语言的文本数据,用于自然语言处理任务,特别是多语言文本分析和模型训练。主要特征如下:... -
越南语词汇与语料数据集Viettat-ThanhnguVietnameseVocabularyandCorpusDataset-duykhnhavx
2025年4月22日 30 31 25
越南语词汇与语料数据集Viettat-ThanhnguVietnameseVocabularyandCorpusDataset-duykhnhavx 数据来源:互联网公开数据 标签:语言学研究,越南语,词汇分析,语料库,自然语言处理,文本挖掘,语言技术,数据集 数据概述:... -
莎士比亚作品词汇数据集
2025年4月15日 30 158 130
莎士比亚作品词汇数据集 数据来源:互联网公开数据 标签:莎士比亚, 文学, 词汇分析, 文本数据, 语言学研究, Google BigQuery, 开源数据 数据概述: 本数据集来源于Google BigQuery的公开数据集bigquery-public-... -
中本聪消息数据集
2025年4月14日 30 142 41
中本聪消息数据集 数据来源:互联网公开数据 标签:中本聪,比特币,加密货币,区块链,技术讨论,哲学思考,自然语言处理,词汇分析 数据概述: 本数据集收录了据信来自中本聪(Satoshi...