-
CommonLit外部数据集-2021-sayantankirtaniya
CommonLit外部数据集-2021-sayantankirtaniya 数据来源:互联网公开数据 标签:CommonLit,可读性分析,教育数据,儿童文学,文本处理,阅读水平评估 数据概述:... -
自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb
自然语言处理NLP神经机器翻译数据集NN-NLPNeuralMachineTranslationDataset-tarekelkhateb 数据来源:互联网公开数据 标签:自然语言处理,机器翻译,数据集,深度学习,神经网络,文本处理,语言模型,翻译模型 数据概述:... -
五十年间324首歌曲歌词文本挖掘数据集-chengjhj
五十年间324首歌曲歌词文本挖掘数据集-chengjhj 数据来源:互联网公开数据 标签:歌词,文本挖掘,音乐,五十年代,歌曲,歌词分析,文本处理 数据概述:... -
文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai
文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai 数据来源:互联网公开数据 标签:文本处理,TF-IDF,数据集,自然语言处理,特征提取,机器学习,信息检索,文本分析 数据概述: 该数据集专注于文本编码与TF-IDF(词频-逆文档频率)权重计算,记录了文本数据经过处理后的特征向量。主要特征如下:... -
预处理与正常聊天数据集PrevertedandNormalChatsDataset-namangarg110
预处理与正常聊天数据集PrevertedandNormalChatsDataset-namangarg110 数据来源:互联网公开数据 标签:聊天记录,数据集,文本处理,自然语言处理,机器学习,情感分析,文本分类,心理健康 数据概述: 该数据集包含预处理过的异常聊天记录和正常聊天记录,适用于自然语言处理和机器学习任务。主要特征如下:... -
医疗文本PHI受保护健康信息标注数据集-vijayakashv03
医疗文本PHI受保护健康信息标注数据集-vijayakashv03 数据来源:互联网公开数据 标签:PHI,医疗文本,数据标注,隐私保护,NLP,自然语言处理,文本处理,数据安全,敏感信息,信息脱敏 数据概述: 本数据集专为敏感信息脱敏设计,特别是受保护健康信息(PHI, Protected Health... -
DAIGT-qwen生成文本数据集-2023-zheyushen
DAIGT-qwen生成文本数据集-2023-zheyushen 数据来源:互联网公开数据 标签:DAIGT,qwen,文本生成,数据集,机器学习,深度学习,训练数据,文本处理 数据概述: 本数据集包含由DAIGT-... -
维基数据员工标签化数据集-2020年2月-toddcook
维基数据员工标签化数据集-2020年2月-toddcook 数据来源:互联网公开数据 标签:维基数据,员工标签,职业分析,数据清理,机器学习,文本处理,自然语言处理,开源数据 数据概述:... -
网络语义解析数据集第一部分-2023-swaroopnath6
网络语义解析数据集第一部分-2023-swaroopnath6 数据来源:互联网公开数据 标签:网络语义解析,数据集,网络爬虫,信息提取,文本处理,网站解析 数据概述: 本数据集旨在将网站上的相关信息解析为易于理解的文本格式,帮助用户从海量互联网信息中提取出重要数据。数据集包含了从多个信息网站中提取的各种HTML标签特征。... -
大型语言模型训练数据文法修正数据集-syoh0708
大型语言模型训练数据文法修正数据集-syoh0708 数据来源:互联网公开数据 标签:大型语言模型,文本数据,文法修正,自然语言处理,语言模型训练,文本处理 数据概述: 本数据集包含了两个经过文法修正的大型语言模型(LLM)训练数据集。 数据集一源自Kaggle上的“DAIGT Proper Train... -
短信垃圾信息检测数据集-2023-faisalhossainruet
短信垃圾信息检测数据集-2023-faisalhossainruet 数据来源:互联网公开数据 标签:短信,垃圾信息,文本处理,NLP,预处理,自然语言处理,机器学习,数据集 数据概述:... -
巴西葡萄牙语情感词典数据集-antoniomenezes
巴西葡萄牙语情感词典数据集-antoniomenezes 数据来源:互联网公开数据 标签:葡萄牙语,情感分析,社交网络,巴西,语言学,数据集,同义词,脏话,文本处理 数据概述:... -
孟加拉语自然语言处理基础词汇数据集-saifsunny
孟加拉语自然语言处理基础词汇数据集-saifsunny 数据来源:互联网公开数据 标签:孟加拉语,NLP,自然语言处理,词汇,语法,停用词,代词,动词,词干提取,文本处理 数据概述:... -
增强型电子邮件分类数据集-2023-valentynbovchaliuk
增强型电子邮件分类数据集-2023-valentynbovchaliuk 数据来源:互联网公开数据 标签:电子邮件分类,数据增强,NLP,文本处理,机器学习,数据集,反垃圾邮件,自然语言处理,数据扩充 数据概述:... -
社交媒体缩略语与俚语数据集-rizdelhi
社交媒体缩略语与俚语数据集-rizdelhi 数据来源:互联网公开数据 标签:社交媒体,缩略语,俚语,NLP,文本处理,数据分析,自然语言处理 数据概述:... -
抑郁症相关Reddit数据集TF-IDF词向量分析-2023-alexyarbor
抑郁症相关Reddit数据集TF-IDF词向量分析-2023-alexyarbor 数据来源:互联网公开数据 标签:抑郁症,Reddit,TF-IDF,情感分析,VADER,文本处理 数据概述: 本数据集基于Kaggle平台上的“Depression Reddit... -
智能问答聊天机器人用户交互与知识检索数据集-sadmansakibmahi
智能问答聊天机器人用户交互与知识检索数据集-sadmansakibmahi 数据来源:互联网公开数据 标签:聊天机器人,自然语言处理,问答系统,知识库,信息检索,文本处理,用户交互,Wikipedia,数据分析 数据概述:... -
大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil
大型语言模型生成文本检测训练数据集中的重复文本-2023-agnedil 数据来源:互联网公开数据 标签:LLM,大模型,文本检测,AI生成,重复文本,数据集,文本处理,训练数据,机器学习 数据概述: 本数据集包含用于“LLM - Detect AI Generated... -
印度新闻摘要清理数据集1963-2021
印度新闻摘要清理数据集1963-2021 数据来源:互联网公开数据 标签:新闻摘要,印度,数据清理,文本处理,自然语言处理,机器学习 数据概述: 本数据集是Kondalarao... -
电影评论及其法语翻译数据集
电影评论及其法语翻译数据集 数据来源:互联网公开数据 标签:电影评论,IMDb,法语翻译,文本处理,情感分析,机器翻译,跨语言分析 数据概述: 本数据集基于Aditya、P.等人的IMDb电影评论数据集构建,包含多部电影的评论数据,每条评论对应一部特定电影。数据集经过清洗和规则化处理,以确保数据质量,并使用Google Translate...