-
国际专利分类标题数据集InternationalPatentClassificationTitles-wenyaohe
国际专利分类标题数据集InternationalPatentClassificationTitles-wenyaohe 数据来源:互联网公开数据 标签:专利, 分类, 文本, 科技, 知识产权, IPC, 专利分析, 数据挖掘 数据概述: 该数据集包含来自国际专利分类(IPC)体系的标题数据,记录了不同分类层级的专利主题描述。主要特征如下:... -
多模态情感识别模型训练数据集MultimodalEmotionRecognitionModelTrainingData-phamtien130102
多模态情感识别模型训练数据集MultimodalEmotionRecognitionModelTrainingData-phamtien130102 数据来源:互联网公开数据 标签:情感识别, 多模态, 语音, 文本, 图像, 深度学习, 数据集, 模型训练 数据概述:... -
专利分类体系标题数据集PatentClassificationSystemTitleDataset-sherwinng
专利分类体系标题数据集PatentClassificationSystemTitleDataset-sherwinng 数据来源:互联网公开数据 标签:专利, 分类, 标题, 文本, 知识产权, 科技, 语义分析, 文本挖掘 数据概述: 该数据集包含来自专利分类体系的标题信息,记录了不同分类层级的专利技术主题描述。主要特征如下:... -
俄语笑话文本数据集RussianJokesTextDataset-mapatb22205
俄语笑话文本数据集RussianJokesTextDataset-mapatb22205 数据来源:互联网公开数据 标签:俄语, 笑话, 文本, 自然语言处理, 语料库, 文本分析, 情感分析, 语言学 数据概述: 该数据集包含来自互联网的俄语笑话文本,记录了各种类型的俄语笑话。主要特征如下: 时间跨度:数据未标明具体时间,视作静态语料数据集使用。... -
中国专利分类标题数据集ChinaPatentClassificationTitlesDataset-zhangmaotai
中国专利分类标题数据集ChinaPatentClassificationTitlesDataset-zhangmaotai 数据来源:互联网公开数据 标签:专利, 分类, 文本, 知识产权, 技术, 行业, 数据挖掘, 自然语言处理 数据概述: 该数据集包含来自中国专利分类体系的标题数据,记录了不同专利技术领域的分类信息。主要特征如下:... -
阿拉伯语情感对话数据集ArabicEmpatheticConversations-hemagamal1
阿拉伯语情感对话数据集ArabicEmpatheticConversations-hemagamal1 数据来源:互联网公开数据 标签:情感分析, 阿拉伯语, 对话, 文本, 自然语言处理, 情感识别, 语料库, 机器学习 数据概述: 该数据集包含阿拉伯语的对话数据,旨在用于情感识别和理解。主要特征如下:... -
政治新闻文本数据集PoliticalNewsTextDataset-nekuitiefangbiediant
政治新闻文本数据集PoliticalNewsTextDataset-nekuitiefangbiediant 数据来源:互联网公开数据 标签:政治, 新闻, 文本, 语料库, 自然语言处理, 文本分析, 政治评论, 数据清洗 数据概述: 该数据集包含从Wikinews收集的政治新闻文本,主要记录了政治相关的新闻报道和评论文章。主要特征如下:... -
伊斯兰问答知识库数据集IslamicQuestionandAnswerKnowledgeBase-otabekrizayev
伊斯兰问答知识库数据集IslamicQuestionandAnswerKnowledgeBase-otabekrizayev 数据来源:互联网公开数据 标签:伊斯兰, 问答, 宗教, 知识库, 文本, 语料库, 自然语言处理, 语义分析 数据概述: 该数据集包含来自互联网的伊斯兰教问答数据,记录了信徒提出的问题及其解答。主要特征如下:... -
对话数据集样本ConvoDatasetSample-rigveddesai
对话数据集样本ConvoDatasetSample-rigveddesai 数据来源:互联网公开数据 标签:对话,文本,自然语言处理,数据集,语言模型,情感分析,文本生成,聊天机器人 数据概述: 该数据集包含对话文本样本,记录了不同场景下的对话内容。主要特征如下: 时间跨度:数据记录的时间范围不固定,涵盖了不同时间段的对话。... -
土耳其语文本数据集Linux-denizhanahin
土耳其语文本数据集Linux-denizhanahin 数据来源:互联网公开数据 标签:土耳其语,文本,数据集,自然语言处理,语言模型,文本分析,机器翻译,Linux 数据概述: 该数据集包含来自Linux环境下的土耳其语文本数据,主要记录了各种Linux系统和应用程序的土耳其语文本信息。主要特征如下:... -
多模态聚类数据集MM-Cluster-1-busedemir
多模态聚类数据集MM-Cluster-1-busedemir 数据来源:互联网公开数据 标签:多模态数据,聚类分析,机器学习,图像,文本,音频,数据挖掘,模式识别 数据概述: 该数据集包含多模态数据,用于多模态聚类任务。主要特征如下: 时间跨度:数据收集时间不明确。 地理范围:数据来源不明确。 数据维度:数据集包括图像,文本和音频三种模态的数据。... -
英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608
英国广播公司BBC新闻文本数据集BBCNewsTextDataset-krishnaprasad2608 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,机器学习,文本分类,信息检索,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本,涵盖多个新闻类别。主要特征如下:... -
俄罗斯幽默笑话文本数据集
俄罗斯幽默笑话文本数据集 数据来源:互联网公开数据 标签:俄罗斯,幽默,笑话,文本,语言学,文化,娱乐 数据概述: 本数据集收录了来自俄罗斯笑话聚合网站的笑话文本。这些笑话内容涵盖了广泛的主题和风格,反映了俄罗斯独特的幽默文化。数据集由IgorVolochay在Hugging Face上发布,原始数据来源于公开的网络资源。 数据用途概述:... -
上古卷轴5-天际省书籍信息数据集-aadamg
上古卷轴5-天际省书籍信息数据集-aadamg 数据来源:互联网公开数据 标签:游戏,上古卷轴,天际省,书籍,文本,游戏数据,角色扮演,UESP 数据概述:... -
英国广播公司新闻文本数据集BBCNewsTextDataset-avishi
英国广播公司新闻文本数据集BBCNewsTextDataset-avishi 数据来源:互联网公开数据 标签:新闻,文本,数据集,自然语言处理,文本分类,机器学习,新闻报道,舆情分析 数据概述: 该数据集包含来自英国广播公司(BBC)的新闻文章文本数据,用于文本分类和自然语言处理任务。主要特征如下:... -
特朗普总统政治集会演讲稿数据集-2017-2020年-tanpengshi
特朗普总统政治集会演讲稿数据集-2017-2020年-tanpengshi 数据来源:互联网公开数据 标签:特朗普,政治,集会,演讲稿,文本,NLP,自然语言处理,美国大选,言论分析,数据挖掘 数据概述:... -
小说数据集
小说数据集 数据来源:互联网公开数据 标签:小说,书籍,文学,出版,作者,价格,文本,国际标准书号 数据概述: 本数据集包含从Idefix平台收集的书籍信息,采集时间为2022年12月12日。数据集包含多个字段,涵盖书籍的基本属性和详细信息,适用于文学研究、出版行业分析以及相关应用开发。以下是数据字段的详细说明: Index:书籍的唯一标识索引。... -
维韦卡南达大师全集文本数据集-atmabodha
维韦卡南达大师全集文本数据集-atmabodha 数据来源:互联网公开数据 标签:维韦卡南达,Swami Vivekananda,印度哲学,宗教,灵性,演讲,著作,文本,哲学,文化 数据概述: 本数据集包含了维韦卡南达大师(Swami... -
出租女友女主角一之濑千鹤角色对话数据集-xandercubbin
出租女友女主角一之濑千鹤角色对话数据集-xandercubbin 数据来源:互联网公开数据 标签:动漫,角色,对话,文本,一之濑千鹤,出租女友,情感分析,自然语言处理 数据概述:... -
Reddit社交媒体多模态内容交互数据集-实时-aneesh10
Reddit社交媒体多模态内容交互数据集-实时-aneesh10 数据来源:互联网公开数据 标签:Reddit,社交媒体,多模态,文本,图像,视频,音频,内容分析,用户行为 数据概述: 本数据集来源于Reddit平台,通过Python Reddit API Wrapper(PRAW)的封装工具reddit-multimodal-...