-
-
调整文本数据集
2025年4月14日 30 203 181
调整文本数据集 数据来源:互联网公开数据 标签:文本调整,数据优化,文本处理,文本分析,数据可视化,数据集共享 数据概述: 本数据集包含与调整文本相关的数据集,适用于文本布局优化、数据可视化调整等场景。数据集内容涵盖文本调整的具体参数、调整前后对比数据以及相关算法实现的示例数据,为研究人员和开发者提供标准化的文本调整数据支持。 数据用途概述:... -
金融新闻情感数据集
2025年4月14日 30 125 60
金融新闻情感数据集 数据来源:互联网公开数据 标签:金融新闻,情感分析,NLP,文本处理,数据清洗,股票市场 数据概述: 本数据集包含标注了情感标签的金融新闻文本,适用于自然语言处理(NLP)任务。数据集经过了一系列文本处理操作,包括去除空值、删除重复项、平衡各类情感标签的数量、去除前后空格和换行符、移除URL、展开缩写(如将“it's”转换为“it... -
高质量多语言翻译数据集
2025年4月17日 30 2 1
高质量多语言翻译数据集 数据来源:互联网公开数据 标签:多语言翻译,机器学习,文本处理,自然语言处理,语言模型,国际业务,跨文化交流 数据概述:... -
达观数据文本处理挑战赛数据集
2025年6月4日 30 21 15
达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -... -
科学知识图谱大语言模型构建数据集
2025年4月14日 30 112 37
科学知识图谱大语言模型构建数据集 数据来源:互联网公开数据 标签:科学知识图谱,大语言模型,KG,LLM,数据集,关系提取,实体识别,文本处理 数据概述:... -
文本标点符号校正数据集
2025年7月26日 30 103 34
文本标点符号校正数据集_Text_Punctuation_Correction_Dataset 数据来源:互联网公开数据 标签:文本处理, 自然语言处理, 标点符号, 文本校正, 数据标注, 机器学习, 语料库, 文本分析 数据概述: 该数据集包含来自公开文本的数据,记录了用于文本标点符号校正的语料。主要特征如下:... -
文本处理能力提升数据集
2025年4月27日 30 107 48
文本处理能力提升数据集 数据来源:互联网公开数据 标签:文本处理,自然语言处理,编码技能,学习资源,技术培训,数据清洗,特征提取,文本分析,机器学习 数据概述:... -
毒性评论分类数据集
2025年5月31日 30 20 14
毒性评论分类数据集 数据来源:互联网公开数据 标签:毒性评论,分类模型,自然语言处理,多语言,情感分析,文本处理,数据预处理 数据概述:... -
新闻文章分类数据集
2025年5月11日 30 208 34
新闻文章分类数据集 数据来源:互联网公开数据 标签:新闻分类,文本处理,机器学习,自然语言处理,数据标注,文本分析,分类算法 数据概述: 本数据集包含新闻文章的文本内容及其对应的分类标签,旨在支持文本分类任务的研究与实践。数据集分为训练文件和测试文件两部分。训练文件包含三列:文章内容(Article... -
自杀干预情感分析数据集
2025年4月15日 30 25 23
自杀干预情感分析数据集 数据来源:互联网公开数据 标签:自杀干预,情感分析,心理健康,文本处理,TF-IDF,自然语言处理,情绪分类 数据概述: 本数据集基于“suicide-watch”数据集进行处理和增强,包含经过清洗的文本数据、TF-... -
-
英语词典数据集
2025年4月18日 30 195 107
英语词典数据集 数据来源:互联网公开数据 标签:英语词汇,词典数据,词性标注,词义解析,语言学研究,文本处理,自然语言处理 数据概述:... -
电影评论及其法语翻译数据集
2025年4月20日 30 76 52
电影评论及其法语翻译数据集 数据来源:互联网公开数据 标签:电影评论,IMDb,法语翻译,文本处理,情感分析,机器翻译,跨语言分析 数据概述: 本数据集基于Aditya、P.等人的IMDb电影评论数据集构建,包含多部电影的评论数据,每条评论对应一部特定电影。数据集经过清洗和规则化处理,以确保数据质量,并使用Google Translate... -
-
文本片段索引信息数据集
2025年6月30日 30 1 0
文本片段索引信息数据集_Text_Segment_Index_Information 数据来源:互联网公开数据 标签:文本处理, 信息检索, 索引构建, 数据结构, 文本分析, 机器学习, 自然语言处理, 数据集 数据概述: 该数据集包含文本片段的索引信息,记录了文本被分割成片段后的关键索引数据。主要特征如下:... -
尼泊尔名字数据集含性别信息
2025年4月24日 30 191 145
尼泊尔名字数据集含性别信息 数据来源:互联网公开数据 标签:尼泊尔,名字,性别,语言文化,数据清洗,文本处理,机器学习 数据概述: 本数据集包含尼泊尔语名字及其对应的性别信息,数据以德文那格里文字呈现。数据来源于尼泊尔选举委员会的公开信息,经过清洗和格式化处理,确保数据的准确性和可用性。 数据用途概述:... -
伊博语重音符号恢复数据集
2025年5月31日 30 140 80
伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:... -
-
写作过程与质量分析数据集
2025年4月19日 30 10 1
写作过程与质量分析数据集 数据来源:互联网公开数据 标签:文本处理,内存优化,写作质量,特征工程,数据预处理,机器学习,数据分析 数据概述:...