找到11,747个数据集

标签: 自然语言处理

过滤结果
  • 越南语有害评论数据集ToxicCommentVietnameseDataset-trandong2932002

    2025年4月24日   

    越南语有害评论数据集ToxicCommentVietnameseDataset-trandong2932002 数据来源:互联网公开数据 标签:有害评论,文本分析,数据集,机器学习,自然语言处理,情感分析,语言技术,网络安全 数据概述: 该数据集包含来自越南语互联网平台的评论数据,记录了用户发布的有害内容,如仇恨言论,骚扰,歧视等。主要特征如下:...
    packageimg
  • 垃圾邮件与非垃圾邮件分类数据集Ham-SpamClassificationDataset-venkat1002

    2025年4月24日   

    垃圾邮件与非垃圾邮件分类数据集Ham-SpamClassificationDataset-venkat1002 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,文本分析,机器学习,自然语言处理,分类算法,数据挖掘 数据概述: 该数据集包含来自公开邮件数据源的数据,记录了邮件内容及其分类标签(垃圾邮件或非垃圾邮件)。主要特征如下:...
    packageimg
  • 英语到乌尔都语翻译数据集EnglishtoUrduTranslationDataset-younismir

    2025年4月24日   

    英语到乌尔都语翻译数据集EnglishtoUrduTranslationDataset-younismir 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,语言模型,乌尔都语,英语,文本翻译,多语言 数据概述: 该数据集包含来自多个公开来源的英语到乌尔都语的平行语料,记录了双语句子对。主要特征如下:...
    packageimg
  • 信件特征数据集LettersFeaturesDataset-mingfengli1024

    2025年4月24日   

    信件特征数据集LettersFeaturesDataset-mingfengli1024 数据来源:互联网公开数据 标签:信件特征,数据集,文本分析,自然语言处理,机器学习,通信学,学术研究,邮件分类 数据概述:该数据集包含来自多个来源的信件特征数据,记录了不同信件的文本特征信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。...
    packageimg
  • 奥斯卡颁奖典礼推文数据集OscarTweetsDataset-vechoo

    2025年4月24日   

    奥斯卡颁奖典礼推文数据集OscarTweetsDataset-vechoo 数据来源:互联网公开数据 标签:奥斯卡,推文,社交媒体,情感分析,自然语言处理,电影,数据集,文本分析 数据概述: 该数据集包含来自Twitter的关于奥斯卡颁奖典礼的推文数据,记录了用户在颁奖典礼期间的实时互动和观点。主要特征如下:...
    packageimg
  • 圣经多语言阿拉伯语-法语数据集-oumarbenlol

    2025年4月24日   

    圣经多语言阿拉伯语-法语数据集-oumarbenlol 数据来源:互联网公开数据 标签:圣经,多语言,阿拉伯语,法语,文本数据,自然语言处理,语言学,翻译 数据概述: 该数据集包含圣经的阿拉伯语和法语翻译版本,旨在支持跨语言研究和文本分析。主要特征如下: 时间跨度:数据涵盖了圣经的完整文本,版本内容依据发布时间而定。...
    packageimg
  • 中央研究院多样化数学应用题数据集AcademiaSinicaDiverseMWPDataset-NLUASDiv-dschettler8845

    2025年4月24日   

    中央研究院多样化数学应用题数据集AcademiaSinicaDiverseMWPDataset-NLUASDiv-dschettler8845 数据来源:互联网公开数据 标签:自然语言处理,数学应用题,数据集,语义理解,机器阅读理解,人工智能,教育,文本分析 数据概述: 该数据集由台湾中央研究院(Academia...
    packageimg
  • 结合NIPS会议论文数据的9个特征数据集CombinedNIPS9FeaturesDataset-highdopamine

    2025年4月24日   

    结合NIPS会议论文数据的9个特征数据集CombinedNIPS9FeaturesDataset-highdopamine 数据来源:互联网公开数据 标签:学术研究,数据集,机器学习,特征工程,论文分析,人工智能,自然语言处理,数据挖掘 数据概述: 该数据集结合了NIPS会议论文数据,提取了9个关键特征,记录了论文的详细信息。主要特征如下:...
    packageimg
  • 亚马逊商品评价数据集AspectReviewsDataset-costleyosaro

    2025年4月24日   

    亚马逊商品评价数据集AspectReviewsDataset-costleyosaro 数据来源:互联网公开数据 标签:商品评价,情感分析,自然语言处理,文本挖掘,机器学习,用户行为,电商,数据集 数据概述: 该数据集包含了来自亚马逊的商品评价数据,旨在用于情感分析,用户行为分析等研究。主要特征如下: 时间跨度:...
    packageimg
  • X平台推特上针对罗兴亚难民的情感分析数据集-nuzulgustitiarafitri

    2025年4月24日   

    X平台推特上针对罗兴亚难民的情感分析数据集-nuzulgustitiarafitri 数据来源:互联网公开数据 标签:情感分析,社交媒体,推特,罗兴亚难民,自然语言处理,文本挖掘,社会学,人权 数据概述: 该数据集包含了来自X平台(推特,原推特)的推文数据,记录了用户对罗兴亚难民的态度和情感。主要特征如下:...
    packageimg
  • 德国新闻文本命名实体识别数据集-rodionshkokov

    2025年4月24日   

    德国新闻文本命名实体识别数据集-rodionshkokov 数据来源:互联网公开数据 标签:自然语言处理,命名实体识别,数据集,德语,NLP,文本分析,信息抽取,机器学习 数据概述: 该数据集包含来自德国新闻网站的文本数据,用于训练和评估命名实体识别(NER)模型。主要特征如下: 时间跨度: 数据记录的时间范围未明确给出,但数据内容主要来源于新闻报道。...
    packageimg
  • ChatGPT社交媒体发布讨论数据集-2022年11月30日-2023年2月11日

    2025年4月24日   

    ChatGPT社交媒体发布讨论数据集-2022年11月30日-2023年2月11日 数据来源:互联网公开数据 标签:ChatGPT, 推特, 社交媒体, 人工智能, 自然语言处理, 情感分析, 观点挖掘, 科技, 文本数据 数据概述:...
    packageimg
  • 健康医疗问答数据集Haick2024QuestionAnsweringDataset-ayabouchaor

    2025年4月24日   

    健康医疗问答数据集Haick2024QuestionAnsweringDataset-ayabouchaor 数据来源:互联网公开数据 标签:健康医疗,问答系统,数据集,自然语言处理,机器学习,医疗信息,知识库,健康咨询 数据概述:...
    packageimg
  • 多语言定制数据集MultilingualCustomDataset-amarendradeo

    2025年4月24日   

    多语言定制数据集MultilingualCustomDataset-amarendradeo 数据来源:互联网公开数据 标签:多语言,数据集,自然语言处理,机器翻译,文本分析,语言模型,文本语料库,跨语言 数据概述: 该数据集包含多种语言的文本数据,旨在支持多语言处理任务,特别是机器翻译和语言模型训练。主要特征如下:...
    packageimg
  • 印度斯坦时报新闻文章数据集HindustanTimesNewsArticlesDataset-abdunnoor11

    2025年4月24日   

    印度斯坦时报新闻文章数据集HindustanTimesNewsArticlesDataset-abdunnoor11 数据来源:互联网公开数据 标签:新闻,印度,文本分析,自然语言处理,文本挖掘,新闻文章,数据集,时事 数据概述: 该数据集包含来自印度斯坦时报(Hindustan...
    packageimg
  • 文本分类2022数据集DF-Classify2022-huynhtruc109

    2025年4月24日   

    文本分类2022数据集DF-Classify2022-huynhtruc109 数据来源:互联网公开数据 标签:文本分类,数据集,机器学习,自然语言处理,深度学习,文本分析,人工智能,数据科学 数据概述: 该数据集包含来自2022年的文本分类数据,记录了不同类别文本的详细信息。主要特征如下: 时间跨度:数据记录的时间范围为2022年。...
    packageimg
  • 有毒聊天记录数据集ToxicChatParquetDataset-alimistro123

    2025年4月24日   

    有毒聊天记录数据集ToxicChatParquetDataset-alimistro123 数据来源:互联网公开数据 标签:聊天记录,数据集,文本分析,自然语言处理,机器学习,社交媒体,数据清理,情感分析 数据概述:该数据集包含多个来源的有毒聊天记录,记录了互联网上不同平台上的聊天内容。主要特征如下:...
    packageimg
  • 仇恨言论检测数据集CleanedHateSpeechDataset-mustafahabeeb90

    2025年4月24日   

    仇恨言论检测数据集CleanedHateSpeechDataset-mustafahabeeb90 数据来源:互联网公开数据 标签:仇恨言论,数据集,自然语言处理,文本分析,机器学习,社会研究,情感分析,网络安全 数据概述: 该数据集包含经过清洗的仇恨言论数据,记录了社交媒体或其他公开平台上的文本内容及其标签。主要特征如下:...
    packageimg
  • 自然语言处理文本数据集NaturalLanguageProcessNLPDataset-bulentsiyah

    2025年4月24日   

    自然语言处理文本数据集NaturalLanguageProcessNLPDataset-bulentsiyah 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,机器学习,语义分析,文本挖掘,语言学,人工智能 数据概述:该数据集包含来自多个来源的文本数据,涵盖了各种类型的文本,适用于自然语言处理和机器学习等任务。主要特征如下:...
    packageimg
  • 文本摘要生成训练数据集Summaries-TrainTextSummarizationDataset-samruddhimore

    2025年4月24日   

    文本摘要生成训练数据集Summaries-TrainTextSummarizationDataset-samruddhimore 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,机器学习,文本生成,深度学习,信息提取,人工智能 数据概述: 该数据集包含了用于训练文本摘要生成模型的文本数据,主要记录了原始文本及其对应的摘要。主要特征如下:...
    packageimg