数据集 - 海数据

多类别分类土耳其文本数据集-TC32-2023-savasy

2025年4月21日

多类别分类土耳其文本数据集-TC32-2023-savasy 数据来源：互联网公开数据标签：土耳其文本分类,多类别分类,基准数据集,产品评论,自然语言处理,NLP,文本挖掘,机器学习,分类算法数据概述：...

ZIP

训练文本统计数据集-机器学习项目2023-ajenningsfrankston

2025年4月21日

训练文本统计数据集-机器学习项目2023-ajenningsfrankston 数据来源：互联网公开数据标签：文本统计,机器学习,自然语言处理,Kaggle,训练数据,文本分析数据概述：本数据集包含了从Kaggle上的Jupyter Notebook（https://www.kaggle.com/code/bulivington/no-...

ZIP

绕口令数据集-英文绕口令集合-2023-djathidiro

2025年4月21日

绕口令数据集-英文绕口令集合-2023-djathidiro 数据来源：互联网公开数据标签：绕口令,语言学,机器学习,自然语言处理,数据集,开源,贡献,教育,娱乐,语言技能数据概述：...

ZIP

英文单词SHA256哈希值数据集-单词长度4-13-bikashkundu

2025年4月21日

英文单词SHA256哈希值数据集-单词长度4-13-bikashkundu 数据来源：互联网公开数据标签：英文单词,SHA256,哈希值,词汇,自然语言处理,数据科学,编码,文本分析数据概述：...

ZIP

在线评论情感分析数据集

2025年4月21日

标题：在线评论情感分析数据集数据内容：本数据集包含从互联网公开数据中收集的用户评论及其对应的情感标签。数据集主要包括以下两个数据元素： 1. review：评论内容，包含49582种不同的评论文本。 2. sentiment：情感标签，分为2种不同值（如积极和消极）。数据来源：互联网公开数据数据用途：该数据集可以用于多个行业的多种问题： 1....

CSV

商店商品标题分类数据集-ruchiyadav22

2025年4月21日

商店商品标题分类数据集-ruchiyadav22 数据来源：互联网公开数据标签：文本分类,商品分类,机器学习,数据挖掘,零售,电商,标题分析,自然语言处理数据概述：...

ZIP

亚马逊产品信息与客户评价数据集-2023-nguyenngocphung

2025年4月21日

亚马逊产品信息与客户评价数据集-2023-nguyenngocphung 数据来源：互联网公开数据标签：亚马逊,产品信息,客户评价,数据挖掘,推荐系统,自然语言处理,数据分析数据概述：...

ZIP

TowardsDataScienceTDS平台文章主题与内容分析数据集-2018至2021年-johoetter

2025年4月21日

TowardsDataScienceTDS平台文章主题与内容分析数据集-2018至2021年-johoetter 数据来源：互联网公开数据标签：数据科学,机器学习,人工智能,自然语言处理,文本分析,主题建模,文章分析,TDS,在线出版物数据概述：本数据集收录了2018年至2021年期间Towards Data Science (TDS)...

ZIP

旧报纸印地语数据集

2025年4月21日

旧报纸印地语数据集数据来源：互联网公开数据标签：旧报纸,印地语,新闻文本,数据清洗,自然语言处理,历史文献,文本分析数据概述：本数据集是基于 Kaggle 平台上提供的旧报纸数据集（https://www.kaggle.com/alvations/old-...

ZIP

跨语言问答数据集XQuAD印地语部分2019-nbroad

2025年4月21日

跨语言问答数据集XQuAD印地语部分2019-nbroad 数据来源：互联网公开数据标签：跨语言问答,自然语言处理,机器翻译,多语言数据集,印地语,文本理解数据概述：本数据集是XQuAD（跨语言问答数据集）中的印地语部分，用于评估跨语言问答性能。数据集包含SQuAD v1.1开发集的子集，共有240段落和1190个问题-...

ZIP

亚洲宗教与圣经文本研究数据集-2019-ishandutta

2025年4月21日

亚洲宗教与圣经文本研究数据集-2019-ishandutta 数据来源：互联网公开数据标签：亚洲宗教,圣经文本,文本分析,自然语言处理,数据集,文献研究,宗教比较,无监督学习数据概述：本数据集收录了8本宗教书籍的圣典文本，主要来源于Project...

ZIP

CoSQL数据库交互式对话数据集

2025年4月21日

CoSQL数据库交互式对话数据集数据来源：互联网公开数据标签：对话系统,自然语言处理,SQL,数据库,人机交互,文本转SQL,对话理解,数据集数据概述： CoSQL是一个大型数据集，用于训练和测试基于SQL的任务导向型对话代理。该数据集由耶鲁大学提供，源于论文“CoSQL: A Conversational Text-to-{SQL}...

ZIP

Reddit语境与主题分类语料库-linkanjarad

2025年4月21日

Reddit语境与主题分类语料库-linkanjarad 数据来源：互联网公开数据标签：语境分类,主题分类,语料库,Reddit,文本分析,自然语言处理,情感分析数据概述：...

ZIP

跨语言问答数据集XQuAD多语言问答数据集-thedevastator

2025年4月21日

跨语言问答数据集XQuAD多语言问答数据集-thedevastator 数据来源：互联网公开数据标签：问答, 跨语言, 自然语言处理, 机器翻译, 文本理解, SQuAD, 语言模型, 英语, 西班牙语, 德语, 希腊语, 俄语, 土耳其语, 阿拉伯语, 越南语, 泰语, 汉语, 印地语数据概述：...

ZIP

俄罗斯娱乐明星访谈情感分析数据集-linata66

2025年4月21日

俄罗斯娱乐明星访谈情感分析数据集-linata66 数据来源：互联网公开数据标签：访谈,情感分析,俄罗斯,名人,娱乐,文本数据,自然语言处理数据概述：本数据集基于多个杂志、文章和视频，收集了俄罗斯演艺界代表人物的访谈内容。数据涵盖了广泛的话题，包括科技、心理学、个人生活、职业发展等。数据集包含两列数据：序号和句子。数据用途概述：...

ZIP

品牌情感分析推特数据集-202X-tusharpaul2001

2025年4月21日

品牌情感分析推特数据集-202X-tusharpaul2001 数据来源：互联网公开数据标签：品牌情感分析,推特,社交媒体,情感识别,自然语言处理,品牌监测数据概述：...

ZIP

电影评论情感分析词袋模型数据集-rajathmc

2025年4月21日

电影评论情感分析词袋模型数据集-rajathmc 数据来源：互联网公开数据标签：情感分析,词袋模型,电影评论,自然语言处理,NLP,数据集,ACL2011 数据概述：本数据集与Andrew L. Maas等人在2011年ACL会议上的论文《Learning Word Vectors for Sentiment...

ZIP

问答系统训练与测试数据集-sourabhsingh03993493

2025年4月21日

问答系统训练与测试数据集-sourabhsingh03993493 数据来源：互联网公开数据标签：问答系统,机器学习,训练数据,测试数据,自然语言处理,MCQ 数据概述：本数据集包含用于训练和测试问答系统的上下文、问题及其多选题（MCQ）类型的答案。数据集分为两部分：训练集（train dataset）和测试集（test...

ZIP

产品标题搜索数据集2023-yashtiwari1906

2025年4月21日

产品标题搜索数据集2023-yashtiwari1906 数据来源：互联网公开数据标签：产品标题,搜索引擎,自然语言处理,学习资源,数据集,参考数据概述：本数据集包含从多个网站抓取的产品标题和名称，旨在为构建不依赖字符串匹配的搜索系统提供基础数据。数据集涵盖广泛的产品类别，为搜索算法的开发和优化提供了参考。数据用途概述：...