找到11,976个数据集

标签: 自然语言处理

过滤结果
  • Reddit问答社区百万提问数据分析数据集-AskReddit-时间序列-问答内容-不限时间

    2025年4月17日   

    Reddit问答社区百万提问数据分析数据集-AskReddit-时间序列-问答内容-不限时间 数据来源:互联网公开数据 标签:Reddit,问答,提问,社交媒体,文本分析,自然语言处理,问答系统,问答社区,情感分析 数据概述:...
    packageimg
  • 大型语言模型训练合成数据-Synthia-v1-3数据集

    2025年4月17日   

    大型语言模型训练合成数据-Synthia-v1-3数据集 数据来源:互联网公开数据 标签:大型语言模型,合成数据,训练数据,自然语言处理,文本生成,机器翻译,问答系统,对话生成 数据概述: 本数据集是专为大型语言模型(LLM)开发和改进而设计的合成训练数据集,主要用于研究和优化migel...
    packageimg
  • 高质量多语言翻译数据集

    2025年4月17日   

    高质量多语言翻译数据集 数据来源:互联网公开数据 标签:多语言翻译,机器学习,文本处理,自然语言处理,语言模型,国际业务,跨文化交流 数据概述:...
    packageimg
  • 主题质量评估数据集

    2025年4月17日   

    主题质量评估数据集 数据来源:互联网公开数据 标签:主题模型,质量评估,文本分析,自然语言处理,机器学习,主题抽取,文本挖掘 数据概述:...
    packageimg
  • AI文本检测数据预处理数据集

    2025年4月17日   

    AI文本检测数据预处理数据集 数据来源:互联网公开数据 标签:AI文本检测,自然语言处理,文本分类,数据预处理,机器学习,特征工程,文本清洗 数据概述: 本数据集是原始AI文本检测数据集的预处理版本,原始数据来源于Kaggle平台(https://www.kaggle.com/datasets/thedrcat/daigt-v2-train-...
    packageimg
  • 土耳其地震推文数据集

    2025年4月17日   

    土耳其地震推文数据集 数据来源:互联网公开数据 标签:地震,推文,紧急呼吁,救援,文本标注,BERT模型,自然语言处理,社会应急响应 数据概述: 本数据集包含2020年伊兹密尔地震发生后,与地震相关的土耳其推文数据,主要分为三个部分: 1....
    packageimg
  • 印度卡纳达语新冠疫情情感分析数据集2020-2021

    2025年4月17日   

    印度卡纳达语新冠疫情情感分析数据集2020-2021 数据来源:互联网公开数据 标签:新冠疫情,卡纳达语,情感分析,文本翻译,自然语言处理,数据提取,机器学习 数据概述:...
    packageimg
  • OYO酒店评论情感分析数据集2021

    2025年4月17日   

    OYO酒店评论情感分析数据集2021 数据来源:互联网公开数据 标签:OYO酒店,评论,情感分析,客户满意度,改进意见,数据驱动决策,自然语言处理,机器学习 数据概述:...
    packageimg
  • 政治思想作品语料库数据集1963-2021

    2025年4月16日   

    政治思想作品语料库数据集1963-2021 数据来源:互联网公开数据 标签:政治思想,语料库,历史,现代,文本分析,自然语言处理,词频分析,推荐系统 数据概述:...
    packageimg
  • Alpaca编程风格代码生成指令数据集

    2025年4月16日   

    Alpaca编程风格代码生成指令数据集 数据来源:互联网公开数据 标签:代码生成,编程风格,Alpaca,自然语言处理,机器学习,风格迁移,代码转换,NLP 数据概述:...
    packageimg
  • 每日星座运势数据集

    2025年4月16日   

    每日星座运势数据集 数据来源:互联网公开数据 标签:星座,运势,每日预测,文本生成,聊天机器人,占星学,自然语言处理 数据概述: 本数据集收录了每个星座的每日运势信息,涵盖12个星座,从多个公开来源收集整理而成。数据内容包括星座名称、日期范围、运势描述等字段,为从事自然语言处理和文本生成研究提供了丰富的语料支持。 数据用途概述:...
    packageimg
  • 孟加拉语点击诱饵检测数据集

    2025年4月16日   

    孟加拉语点击诱饵检测数据集 数据来源:互联网公开数据 标签:点击诱饵,孟加拉语,新闻分类,文本分析,半监督学习,自然语言处理 数据概述:...
    packageimg
  • 土耳其新闻70000数据集

    2025年4月16日   

    土耳其新闻70000数据集 数据来源:互联网公开数据 标签:土耳其新闻,新闻分类,文本数据,机器学习,自然语言处理,媒体分析,信息抽取 数据概述:...
    packageimg
  • AZLyrics歌词数据集

    2025年4月16日   

    AZLyrics歌词数据集 数据来源:互联网公开数据 标签:歌词,歌曲,艺术家,文本挖掘,自然语言处理,音乐分析,内容创作 数据概述: 本数据集包含来自AZLyrics.com的歌词信息,数据按照歌曲艺术家名称的首字母进行分类整理。每个数据文件为CSV格式,包含以下字段: - ARTIST_NAME:艺术家名称 - ARTIST_URL:艺术家页面链接...
    packageimg
  • IMDbTop250电视剧用户评论与评分数据集-2024

    2025年4月16日   

    IMDbTop250电视剧用户评论与评分数据集-2024 数据来源:互联网公开数据 标签:IMDb, 电视剧, 评论, 评分, 用户评价, NLP, 自然语言处理, 情感分析, 文本挖掘 数据概述: 本数据集收录了截至2024年IMDb Top...
    packageimg
  • 可再生能源事故检测数据集

    2025年4月16日   

    可再生能源事故检测数据集 数据来源:互联网公开数据 标签:可再生能源, 事故检测, 自然语言处理, 深度学习, 文本分类, 行业安全, 数据标注 数据概述:...
    packageimg
  • 不明飞行物UFO目击记录数据集

    2025年4月16日   

    不明飞行物UFO目击记录数据集 数据来源:互联网公开数据 标签:不明飞行物, UFO目击记录, 地理编码, 时间序列分析, 空中现象, 数据可视化, 自然语言处理 数据概述:...
    packageimg
  • Kickstarter项目描述文本与项目成功状态数据集-2017年

    2025年4月16日   

    Kickstarter项目描述文本与项目成功状态数据集-2017年 数据来源:互联网公开数据 标签:众筹项目,Kickstarter,自然语言处理,项目成功预测,文本分析,机器学习,项目描述,文本分类 数据概述:...
    packageimg
  • TED演讲数据集含演讲稿-LIWC和MFT分析

    2025年4月16日   

    TED演讲数据集含演讲稿-LIWC和MFT分析 数据来源:互联网公开数据 标签:TED演讲,公共演讲,语言分析,道德基础理论,数据可视化,文本挖掘,自然语言处理,心理语言学 数据概述:...
    packageimg
  • 全球352种语言形态标注数据集

    2025年4月16日   

    全球352种语言形态标注数据集 数据来源:互联网公开数据 标签:语言学,形态学,词形变化,多语种,自然语言处理,Unimorph,特征标注 数据概述:...
    packageimg