找到560个数据集

标签: NLP

过滤结果
  • ELLIPSE英语学习者语料库

    2025年4月14日   

    ELLIPSE英语学习者语料库 数据来源:互联网公开数据 标签:英语学习者,语言能力评价,语料库,NLP,语言研究,教育评估,写作分析 数据概述:...
    packageimg
  • 乌兹别克斯坦宪法NLP数据集

    2025年4月14日   

    乌兹别克斯坦宪法NLP数据集 数据来源:互联网公开数据 标签:乌兹别克斯坦宪法,自然语言处理,NLP,乌兹别克语,自动纠正,拼写检查,语言模型 数据概述: 本数据集来源于我的YouTube频道的直播内容,旨在为乌兹别克语(O'zbek语)创建一个自动纠正(拼写检查)的概率模型。数据集包含了乌兹别克斯坦宪法的文本,为训练语言模型提供了基础。...
    packageimg
  • 斯里兰卡Singlish与僧伽罗语对话数据集

    2025年4月14日   

    斯里兰卡Singlish与僧伽罗语对话数据集 数据来源:互联网公开数据 标签:Singlish,僧伽罗语,对话数据集,NLP,聊天机器人,机器翻译,语言学习,社会媒体分析,语言研究 数据概述:...
    packageimg
  • RAG与Few-Shot相似问题提示数据集

    2025年4月14日   

    RAG与Few-Shot相似问题提示数据集 数据来源:互联网公开数据 标签:相似问题,嵌入向量,提示生成,RAG,Few Shot学习,自然语言处理,NLP 数据概述:...
    packageimg
  • 英语单词家族数据集1963-2021

    2025年4月14日   

    英语单词家族数据集1963-2021 数据来源:互联网公开数据 标签:英语单词,词典,自然语言处理,NLP,词汇学,教育培训 数据概述: 本数据集收录了按字母顺序排列的全部英语单词,涵盖了从A到Z的所有单词条目。数据集适用于自然语言处理项目的参考和验证,为词典编纂、词汇学研究和教育培训提供了全面的单词资源。 数据用途概述:...
    packageimg
  • Goodreads网站精选名言数据集

    2025年4月14日   

    Goodreads网站精选名言数据集 数据来源:互联网公开数据 标签:名言,语录,励志,格言,作者,文学,情感分析,文本生成,NLP 数据概述:...
    packageimg
  • 西班牙诗歌数据集

    2025年4月14日   

    西班牙诗歌数据集 数据来源:互联网公开数据 标签:西班牙诗歌,NLP,文学分析,自然语言处理,诗歌爬虫,文学结构,文本挖掘 数据概述: 本数据集收录了从1960年代至今的大量西班牙诗歌作品,数据来源于2020年7月从诗歌网站www.poemas-del-...
    packageimg
  • 金融新闻情感数据集

    2025年4月14日   

    金融新闻情感数据集 数据来源:互联网公开数据 标签:金融新闻,情感分析,NLP,文本处理,数据清洗,股票市场 数据概述: 本数据集包含标注了情感标签的金融新闻文本,适用于自然语言处理(NLP)任务。数据集经过了一系列文本处理操作,包括去除空值、删除重复项、平衡各类情感标签的数量、去除前后空格和换行符、移除URL、展开缩写(如将“it's”转换为“it...
    packageimg
  • 推特讽刺分类数据集

    2025年4月14日   

    推特讽刺分类数据集 数据来源:互联网公开数据 标签:讽刺识别,自然语言处理,NLP,社交媒体分析,文本分类,讽刺检测,推特数据 数据概述: 本数据集包含了大量推特帖子,并被分类为讽刺性内容,并进一步细分为不同的讽刺子类别。该数据集为自然语言处理领域的学习者提供了宝贵的资源,可用于训练和测试模型。 数据用途概述:...
    packageimg
  • 特拉维夫短租Facebook帖子数据集-2015年

    2025年4月14日   

    特拉维夫短租Facebook帖子数据集-2015年 数据来源:互联网公开数据 标签:短租,特拉维夫,Facebook,社交媒体,房地产,希伯来语,NLP,文本分析,价格分析 数据概述: 本数据集收录了2015年从Facebook群组“特拉维夫短租” (希伯来语:סאבלטים בתל אביב לתקופות קצרות)...
    packageimg
  • 多语言复杂问答数据集-涵盖8种语言

    2025年4月14日   

    多语言复杂问答数据集-涵盖8种语言 数据来源:互联网公开数据 标签:多语言,问答,自然语言处理,NLP,机器翻译,语言模型,数据集,复杂问题,文本分析 数据概述: 本数据集由Hugging Face...
    packageimg
  • 原神游戏用户评论情感分析数据集

    2025年4月14日   

    原神游戏用户评论情感分析数据集 数据来源:互联网公开数据 标签:原神,游戏评论,情感分析,NLP,市场研究,用户反馈,文本分类,情绪检测 数据概述: 本数据集包含了从Google Play...
    packageimg
  • Discord游戏改进建议与投票数据集-Discord服务器-时间不限

    2025年4月14日   

    Discord游戏改进建议与投票数据集-Discord服务器-时间不限 数据来源:互联网公开数据 标签:游戏改进,Discord,社区反馈,NLP,文本分析,投票,建议,开发者,用户生成内容 数据概述:...
    packageimg
  • 阿拉伯新闻分类研究数据集1963-2021

    2025年4月14日   

    阿拉伯新闻分类研究数据集1963-2021 数据来源:互联网公开数据 标签:阿拉伯新闻,分类研究,NLP,创业,科技,其他,灵感 数据概述:...
    packageimg
  • AskReddit热门评论数据集-NLP文本分析

    2025年4月14日   

    AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。...
    packageimg
  • 汽车广告标题数据集

    2025年4月14日   

    汽车广告标题数据集 数据来源:互联网公开数据 标签:汽车广告,模型预测,文本分类,机器学习,NLP,数据预处理,广告分析 数据概述: 本数据集包含从伊朗主流在线市场Divar抓取的汽车广告标题,每个标题均标注了对应的汽车型号,为训练和评估汽车模型预测的机器学习模型提供了宝贵资源。数据集经过预处理,包括文本规范化和标点符号去除,确保数据的一致性和可用性。...
    packageimg
  • 互联网公开简历数据集分析

    2025年4月8日   

    标题:互联网公开简历数据集分析 数据内容: 该数据集包含2484条记录,每条记录包括以下字段: - ID:唯一标识符,共有2484种不同值。 - Resume_str:简历文本内容,共有2482种不同值。 - Resume_html:简历HTML格式内容,共有2482种不同值。 - Category:简历分类,共有24种不同值。 数据来源:...
    packageimg
  • 用于 NLP 任务的高质量金融新闻数据集

    2025年2月13日   

    此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:...
    packageimg
  • Math23K中文数学应用题NLP数据集

    2024年11月10日   

    Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23、162 个中文问题。
    packageimg
  • NLP-THUCNews新闻文本分类数据集

    2024年11月10日   

    本数据集包含体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐,每个分类6500条,总共65000条新闻数据。
    packageimg