-
孟加拉语新闻分类数据集1963-2021
2025年4月14日 60 206 31
孟加拉语新闻分类数据集1963-2021 数据来源:互联网公开数据 标签:孟加拉语,新闻分类,NLP,机器学习,文本分析,情感分析,信息检索,语言建模 数据概述: 本数据集收录了来自Jamuna... -
伊朗语YouTube评论数据集-2023
2025年6月4日 30 206 146
伊朗语YouTube评论数据集-2023 数据来源:互联网公开数据 标签:YouTube评论,伊朗语,NLP,社交媒体分析,文本挖掘,数据清洗,代码开源 数据概述:... -
达观数据文本处理挑战赛数据集
2025年6月4日 30 157 59
达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -... -
英语文本BERT基础模型未分词双字母组合数据集-2019
2025年6月4日 30 15 13
英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:... -
维基百科主题与类别数据集
2025年6月1日 30 56 10
维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political... -
纽约时报烹饪食谱评论互动数据集-2021年5月至6月-michaelruddy
2025年6月1日 30 90 27
纽约时报烹饪食谱评论互动数据集-2021年5月至6月-michaelruddy 数据来源:互联网公开数据 标签:食谱评论,纽约时报,烹饪,用户互动,评论分析,NLP,自然语言处理,食谱,社交媒体,情感分析 数据概述: 本数据集收录了2021年5月至6月期间,纽约时报烹饪(NYT... -
移动应用商店应用描述文本分析数据集-sagol79
2025年6月1日 30 104 20
移动应用商店应用描述文本分析数据集-sagol79 数据来源:互联网公开数据 标签:移动应用,应用描述,文本分析,自然语言处理,机器学习,应用商店,文本挖掘,NLP,应用分类 数据概述:... -
文本与摘要配对数据集-2023-tanay654321
2025年6月1日 30 148 37
文本与摘要配对数据集-2023-tanay654321 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,机器学习,编码器解码器,NLP,数据集 数据概述: 本数据集包含2列,一列为原始文本,另一列为对应的摘要。数据集共有318,710行记录,适用于文本摘要生成任务的研究与开发。该数据集可以从Kaggle平台下载,与之配套的代码文件名为“TEXT... -
雅虎问答10类别NLP数据集
2025年6月1日 30 157 81
雅虎问答10类别NLP数据集 数据来源:互联网公开数据 标签:问答分类,自然语言处理,NLP,文本分类,问答系统,文本分析,机器学习,主题分类 数据概述:... -
俄罗斯国家杜马演讲数据集
2025年6月1日 30 143 79
俄罗斯国家杜马演讲数据集 数据来源:互联网公开数据 标签:俄罗斯政治,国家杜马,政策分析,时间序列,情感分析,NLP,政治文本,政府决策 数据概述:... -
ACL多标签分类审查元数据集1963-2021-divyanshukunwar
2025年6月1日 30 157 106
ACL多标签分类审查元数据集1963-2021-divyanshukunwar 数据来源:互联网公开数据 标签:ACL,多标签分类,文本生成,审查数据,结构控制,自然语言处理,NLP,机器学习,学术出版 数据概述: 本数据集MReD(Meta-Review... -
乌尔都语新闻文本大规模数据集-2021-saurabhshahane
2025年6月1日 30 144 52
乌尔都语新闻文本大规模数据集-2021-saurabhshahane 数据来源:互联网公开数据 标签:乌尔都语,新闻数据,文本处理,NLP,分类,摘要,命名实体识别,主题建模,文本生成 数据概述:... -
谷歌竞赛自然语言处理模型特征数据集-2021
2025年6月1日 30 101 37
谷歌竞赛自然语言处理模型特征数据集-2021 数据来源:互联网公开数据 标签:谷歌竞赛,NLP,自然语言处理,特征向量,模型配置,数据集,Parquet,CSV 数据概述: 本数据集包含用于谷歌竞赛的自然语言处理(NLP)模型的各种特征和配置信息。数据集组织成多个文件夹,每个文件夹代表不同的NLP模型配置和特征。具体包括:... -
数据2020至2023年俄罗斯新闻分类竞赛数据集-vorvit
2025年6月1日 30 210 208
2020至2023年俄罗斯新闻分类竞赛数据集-vorvit 数据来源:互联网公开数据 标签:新闻,分类,机器学习,自然语言处理,NLP,竞赛,ВШЭ,ВШЭ Магистратура,First Step in NLP 数据概述:... -
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator
2025年6月1日 30 146 91
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator 数据来源:互联网公开数据 标签:文本数据,元数据,自然语言处理,预训练,机器学习,情感分析,文本摘要,数据集,NLP 数据概述: 本数据集“The Pile... -
机器学习与医疗健康专利数据分析数据集-2023-karnikakapoor
2025年6月1日 30 125 32
机器学习与医疗健康专利数据分析数据集-2023-karnikakapoor 数据来源:互联网公开数据 标签:机器学习,医疗健康,专利数据,NLP,技术分析,技术创新,数据挖掘 数据概述: 本数据集是一份全面的专利记录集合,涵盖了机器学习与医疗健康创新领域的专利。数据集通过在Google Patents上使用“Machine Learning and... -
说服力分析数据集-2-0版本-deepaksingh47
2025年6月1日 30 1 0
说服力分析数据集-2-0版本-deepaksingh47 数据来源:互联网公开数据 标签:说服力,数据集,自然语言处理,NLP,教育,自动化评分,写作分析 数据概述: 本数据集包含两个主要部分:persuade_corpus_2.0 和 persuade_corpus_1.0。这两个数据集均来源于指定的公开数据源。此外,我们还新增了一个文件... -
人工智能与人类文本区分数据集
2025年6月1日 30 205 18
人工智能与人类文本区分数据集 数据来源:互联网公开数据 标签:人工智能,文本分类,文本转换,自然语言处理,NLP,数据分类,文本生成,文本质量评估 数据概述:... -
亚马逊电子产品用户评价情感分析数据集-2018年
2025年6月1日 30 44 11
亚马逊电子产品用户评价情感分析数据集-2018年 数据来源:互联网公开数据 标签:亚马逊,电子产品,用户评价,情感分析,文本挖掘,评分,评论,NLP,自然语言处理 数据概述:...