找到60个数据集

标签: 中文

过滤结果
  • 新浪滚动新闻数据集SinaaRollNewsDataset-cugytt

    2025年4月24日   

    新浪滚动新闻数据集SinaaRollNewsDataset-cugytt 数据来源:互联网公开数据 标签:新闻,文本分析,自然语言处理,数据集,舆情分析,情感分析,新闻推荐,中文 数据概述: 该数据集包含来自新浪网的滚动新闻数据,记录了新闻标题,发布时间,新闻内容等信息。主要特征如下:...
    packageimg
  • 中文互联网帖子处理数据集PostprocessedVernacularDataset-parthplc

    2025年4月24日   

    中文互联网帖子处理数据集PostprocessedVernacularDataset-parthplc 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本分析,中文,社交媒体,情感分析,文本挖掘,语言学 数据概述: 该数据集包含从中文互联网收集的帖子文本数据,经过了后处理和清洗。主要特征如下:...
    packageimg
  • 中文汉字字符识别数据集ChineseCharacterRecognitionDataset-tkk233

    2025年4月24日   

    中文汉字字符识别数据集ChineseCharacterRecognitionDataset-tkk233 数据来源:互联网公开数据 标签:汉字识别,数据集,OCR,深度学习,图像处理,中文,字符识别,人工智能 数据概述: 该数据集包含20950个常用汉字字符的图像数据,旨在用于汉字识别相关的研究与应用。主要特征如下:...
    packageimg
  • 大规模高质量中文基准模型数据集LGQBMModelV2Dataset-pnepapin

    2025年4月24日   

    大规模高质量中文基准模型数据集LGQBMModelV2Dataset-pnepapin 数据来源:互联网公开数据 标签:自然语言处理,大规模,中文,基准模型,数据集,文本生成,语言理解,机器学习,人工智能 数据概述: 该数据集是LGQBM(大规模高质量中文基准模型)项目的一部分,旨在支持中文自然语言处理(NLP)模型的训练和评估。主要特征如下:...
    packageimg
  • 小型语句情感分析数据集-alouloufiras

    2025年4月24日   

    小型语句情感分析数据集-alouloufiras 数据来源:互联网公开数据 标签:情感分析,文本分析,数据集,自然语言处理,机器学习,情绪识别,NLP,中文 数据概述:该数据集包含短小的中文语句,并标注了对应的情感极性。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了现代汉语的使用场景。...
    packageimg
  • 食品评论情感分析数据集-cngkhutnguyn

    2025年4月24日   

    食品评论情感分析数据集-cngkhutnguyn 数据来源:互联网公开数据 标签:情感分析,食品评论,自然语言处理,文本挖掘,机器学习,评论数据,中文,消费者行为 数据概述: 该数据集包含来自各种来源的食品评论数据,主要记录了用户对不同食品的评价和情感倾向。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于数据来源,涵盖了不同时间段的食品评论。...
    packageimg
  • 中国互联网新闻文本情感分析数据集-2019年-asd336655

    2025年4月24日   

    中国互联网新闻文本情感分析数据集-2019年-asd336655 数据来源:互联网公开数据 标签:新闻,情感分析,文本挖掘,自然语言处理,舆情分析,中文,社会,媒体 数据概述:...
    packageimg
  • 数据2020天池NLP中文文本分类竞赛数据集-jt120lz

    2025年4月24日   

    2020天池NLP中文文本分类竞赛数据集-jt120lz 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,中文,NLP竞赛,情感分析,语义理解 数据概述: 该数据集来自2020年天池平台举办的NLP(自然语言处理)中文文本分类竞赛,记录了中文文本数据及其对应的类别标签。主要特征如下:...
    packageimg
  • SIAM-SES句子相似度数据集0-50-2-emam2002

    2025年4月24日   

    SIAM-SES句子相似度数据集0-50-2-emam2002 数据来源:互联网公开数据 标签:自然语言处理,文本相似度,数据集,语义分析,机器学习,中文,情感分析,文本匹配 数据概述: 该数据集包含来自 SIAM-SES 的中文句子对,用于评估句子间的语义相似度。主要特征如下: 时间跨度:数据记录时间不明确,但数据集本身为静态数据。...
    packageimg
  • 中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai

    2025年4月24日   

    中文文本分类标签数据集-训练集-独有标签及原始标签数据-hengwdai 数据来源:互联网公开数据 标签:文本分类,自然语言处理,中文,标签,训练集,RoBERTa,机器学习 数据概述: 本数据集包含三个子集,均与中文文本分类任务相关,主要基于RoBERTa模型进行标签生成与处理。 AM-1 (使用180_filtered_rb标记的训练集):...
    packageimg
  • 用户评论情感分析训练数据集TrainDataProcessed-UserReviewSentimentAnalysisDataset-liangjingxin

    2025年4月23日   

    用户评论情感分析训练数据集TrainDataProcessed-UserReviewSentimentAnalysisDataset-liangjingxin 数据来源:互联网公开数据 标签:情感分析,自然语言处理,数据集,用户评论,文本挖掘,机器学习,情感分类,中文...
    packageimg
  • 中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu

    2025年4月23日   

    中文情感分析数据集ChnSentiCorp-HTL-AllDataset-honyuu 数据来源:互联网公开数据 标签:情感分析,自然语言处理,文本分类,中文,数据集,评论,机器学习,情感识别 数据概述: 该数据集包含来自ChnSentiCorp的中文情感分析数据,涵盖了酒店评论文本。主要特征如下:...
    packageimg
  • 情感分析通用数据集-shankhad

    2025年4月23日   

    情感分析通用数据集-shankhad 数据来源:互联网公开数据 标签:情感分析,文本分析,自然语言处理,数据集,机器学习,情感分类,情绪识别,文本挖掘,中文 数据概述: 该数据集包含来自多个来源的文本数据,用于情感分析任务,旨在识别文本中表达的情感倾向。主要特征如下: 时间跨度:数据记录的时间跨度不固定,涵盖了不同时期和语境下的文本数据。...
    packageimg
  • 互联网歌词文本数据集LyricsfromWebDataset-kevinree

    2025年4月22日   

    互联网歌词文本数据集LyricsfromWebDataset-kevinree 数据来源:互联网公开数据 标签:歌词,文本分析,自然语言处理,音乐,数据集,情感分析,机器学习,中文 数据概述: 该数据集包含从互联网上抓取的歌词文本数据,涵盖了不同语言和风格的歌曲。主要特征如下: 时间跨度:数据记录的时间范围不明确,但涵盖了从早期歌曲到现代音乐作品。...
    packageimg
  • LeetCode中文题目数据集2024年4月5日-imbatjd

    2025年4月22日   

    LeetCode中文题目数据集2024年4月5日-imbatjd 数据来源:互联网公开数据 标签:LeetCode,编程,算法,题目数据,中文,难度,通过率,技术栈 数据概述:...
    packageimg
  • 中国生育环境评论文本分类数据集-2023年-mucluo

    2025年4月22日   

    中国生育环境评论文本分类数据集-2023年-mucluo 数据来源:互联网公开数据 标签:生育环境,评论文本,中文,分类,数据可视化,互联网,生育意图,社交媒体 数据概述:...
    packageimg
  • 中文有毒语言数据集

    2025年4月15日   

    中文有毒语言数据集 数据来源:互联网公开数据 标签:中文,有毒语言,文本分析,机器学习,自然语言处理,伦理问题,多级分类,基准测试 数据概述:...
    packageimg
  • 中文机器阅读理解数据集2018

    2025年4月15日   

    中文机器阅读理解数据集2018 数据来源:互联网公开数据 标签:机器阅读理解,中文,NLP,问答系统,文本理解,文本推理,语言模型 数据概述:...
    packageimg
  • 多语言医学问答数据集MedQA-4K数据集

    2025年4月15日   

    多语言医学问答数据集MedQA-4K数据集 数据来源:互联网公开数据 标签:医学,问答,多语言,自然语言处理,机器学习,英语,中文,韩语,医疗,数据集 数据概述: 本数据集源于MedQA数据集,并精心挑选了多选题形式的医学问题。该数据集专为多语言自然语言处理和微调语言模型而设计。 关键特征: 语言分布:...
    packageimg
  • IMDb高分动作电影票房及影评数据集-多语言电影

    2025年4月14日   

    IMDb高分动作电影票房及影评数据集-多语言电影 数据来源:互联网公开数据 标签:动作电影,IMDb,电影票房,影评,多语言,英语,泰米尔语,中文,法语,电影数据 数据概述:...
    packageimg