-
ELLIPSE英语学习者语料库
ELLIPSE英语学习者语料库 数据来源:互联网公开数据 标签:英语学习者,语言能力评价,语料库,NLP,语言研究,教育评估,写作分析 数据概述:... -
乌兹别克斯坦宪法NLP数据集
乌兹别克斯坦宪法NLP数据集 数据来源:互联网公开数据 标签:乌兹别克斯坦宪法,自然语言处理,NLP,乌兹别克语,自动纠正,拼写检查,语言模型 数据概述: 本数据集来源于我的YouTube频道的直播内容,旨在为乌兹别克语(O'zbek语)创建一个自动纠正(拼写检查)的概率模型。数据集包含了乌兹别克斯坦宪法的文本,为训练语言模型提供了基础。... -
斯里兰卡Singlish与僧伽罗语对话数据集
斯里兰卡Singlish与僧伽罗语对话数据集 数据来源:互联网公开数据 标签:Singlish,僧伽罗语,对话数据集,NLP,聊天机器人,机器翻译,语言学习,社会媒体分析,语言研究 数据概述:... -
RAG与Few-Shot相似问题提示数据集
RAG与Few-Shot相似问题提示数据集 数据来源:互联网公开数据 标签:相似问题,嵌入向量,提示生成,RAG,Few Shot学习,自然语言处理,NLP 数据概述:... -
英语单词家族数据集1963-2021
英语单词家族数据集1963-2021 数据来源:互联网公开数据 标签:英语单词,词典,自然语言处理,NLP,词汇学,教育培训 数据概述: 本数据集收录了按字母顺序排列的全部英语单词,涵盖了从A到Z的所有单词条目。数据集适用于自然语言处理项目的参考和验证,为词典编纂、词汇学研究和教育培训提供了全面的单词资源。 数据用途概述:... -
Goodreads网站精选名言数据集
Goodreads网站精选名言数据集 数据来源:互联网公开数据 标签:名言,语录,励志,格言,作者,文学,情感分析,文本生成,NLP 数据概述:... -
西班牙诗歌数据集
西班牙诗歌数据集 数据来源:互联网公开数据 标签:西班牙诗歌,NLP,文学分析,自然语言处理,诗歌爬虫,文学结构,文本挖掘 数据概述: 本数据集收录了从1960年代至今的大量西班牙诗歌作品,数据来源于2020年7月从诗歌网站www.poemas-del-... -
金融新闻情感数据集
金融新闻情感数据集 数据来源:互联网公开数据 标签:金融新闻,情感分析,NLP,文本处理,数据清洗,股票市场 数据概述: 本数据集包含标注了情感标签的金融新闻文本,适用于自然语言处理(NLP)任务。数据集经过了一系列文本处理操作,包括去除空值、删除重复项、平衡各类情感标签的数量、去除前后空格和换行符、移除URL、展开缩写(如将“it's”转换为“it... -
推特讽刺分类数据集
推特讽刺分类数据集 数据来源:互联网公开数据 标签:讽刺识别,自然语言处理,NLP,社交媒体分析,文本分类,讽刺检测,推特数据 数据概述: 本数据集包含了大量推特帖子,并被分类为讽刺性内容,并进一步细分为不同的讽刺子类别。该数据集为自然语言处理领域的学习者提供了宝贵的资源,可用于训练和测试模型。 数据用途概述:... -
特拉维夫短租Facebook帖子数据集-2015年
特拉维夫短租Facebook帖子数据集-2015年 数据来源:互联网公开数据 标签:短租,特拉维夫,Facebook,社交媒体,房地产,希伯来语,NLP,文本分析,价格分析 数据概述: 本数据集收录了2015年从Facebook群组“特拉维夫短租” (希伯来语:סאבלטים בתל אביב לתקופות קצרות)... -
多语言复杂问答数据集-涵盖8种语言
多语言复杂问答数据集-涵盖8种语言 数据来源:互联网公开数据 标签:多语言,问答,自然语言处理,NLP,机器翻译,语言模型,数据集,复杂问题,文本分析 数据概述: 本数据集由Hugging Face... -
原神游戏用户评论情感分析数据集
原神游戏用户评论情感分析数据集 数据来源:互联网公开数据 标签:原神,游戏评论,情感分析,NLP,市场研究,用户反馈,文本分类,情绪检测 数据概述: 本数据集包含了从Google Play... -
Discord游戏改进建议与投票数据集-Discord服务器-时间不限
Discord游戏改进建议与投票数据集-Discord服务器-时间不限 数据来源:互联网公开数据 标签:游戏改进,Discord,社区反馈,NLP,文本分析,投票,建议,开发者,用户生成内容 数据概述:... -
阿拉伯新闻分类研究数据集1963-2021
阿拉伯新闻分类研究数据集1963-2021 数据来源:互联网公开数据 标签:阿拉伯新闻,分类研究,NLP,创业,科技,其他,灵感 数据概述:... -
AskReddit热门评论数据集-NLP文本分析
AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。... -
汽车广告标题数据集
汽车广告标题数据集 数据来源:互联网公开数据 标签:汽车广告,模型预测,文本分类,机器学习,NLP,数据预处理,广告分析 数据概述: 本数据集包含从伊朗主流在线市场Divar抓取的汽车广告标题,每个标题均标注了对应的汽车型号,为训练和评估汽车模型预测的机器学习模型提供了宝贵资源。数据集经过预处理,包括文本规范化和标点符号去除,确保数据的一致性和可用性。... -
互联网公开简历数据集分析
标题:互联网公开简历数据集分析 数据内容: 该数据集包含2484条记录,每条记录包括以下字段: - ID:唯一标识符,共有2484种不同值。 - Resume_str:简历文本内容,共有2482种不同值。 - Resume_html:简历HTML格式内容,共有2482种不同值。 - Category:简历分类,共有24种不同值。 数据来源:... -
用于 NLP 任务的高质量金融新闻数据集
此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段:... -
-
NLP-THUCNews新闻文本分类数据集
本数据集包含体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐,每个分类6500条,总共65000条新闻数据。