-
数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun
数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun 数据来源:互联网公开数据 标签:自然语言处理,数据集,分词器,文本处理,机器学习,语言模型,数据预处理,工具集 数据概述: 该数据集包含用于自然语言处理的多种工具和数据集,主要支持文本分词,数据预处理等任务。主要特征如下:... -
HuggingFace文档数据集HuggingFaceDocumentationDataset-sanjay74
HuggingFace文档数据集HuggingFaceDocumentationDataset-sanjay74 数据来源:互联网公开数据 标签:自然语言处理,数据集,文档分析,机器学习,文本处理,人工智能,语言模型,文本分类 数据概述:该数据集包含来自 Hugging Face... -
项目文件分析数据集FilestoUseforProjectDataset-justingrima
项目文件分析数据集FilestoUseforProjectDataset-justingrima 数据来源:互联网公开数据 标签:项目管理,文件分析,数据集,文本处理,数据挖掘,信息检索,文档管理,软件工程 数据概述: 该数据集包含了用于项目的文件信息,旨在支持项目管理,文件分析和相关研究。主要特征如下:... -
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisD...
预处理数据集含停用词-文本处理与分析数据集PreprocessedDatawithStopwords-TextProcessingandAnalysisDataset-solomonschwiger 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,停用词,机器学习,数据预处理,文本分析,信息检索 数据概述:... -
模糊匹配输出数据集FuzzyWuzzyOutputDataset-leed67
模糊匹配输出数据集FuzzyWuzzyOutputDataset-leed67 数据来源:互联网公开数据 标签:模糊匹配,相似度分析,数据集,自然语言处理,文本匹配,文本处理,数据清洗,人工智能 数据概述: 该数据集包含使用FuzzyWuzzy库进行文本相似度匹配的输出结果,记录了不同文本字符串之间的相似度分数。主要特征如下:... -
小型英语文本转换数据集ETT-smallDataset-neptureillusion
小型英语文本转换数据集ETT-smallDataset-neptureillusion 数据来源:互联网公开数据 标签:文本处理,时间序列,机器学习,自然语言处理,英语,数据集,文本分析,预测 数据概述: 该数据集包含小型英语文本数据,专注于文本转换和预测任务。主要特征如下: 时间跨度: 数据记录的时间范围为特定时间段,具体取决于数据集的构建方式。... -
单模型输入文本情感分析数据集-ocden22
单模型输入文本情感分析数据集-ocden22 数据来源:互联网公开数据 标签:情感分析,数据集,文本处理,自然语言处理,机器学习,情感分类,文本情感,人工智能 数据概述: 该数据集包含用于单模型输入文本情感分析的文本数据,主要用于训练和评估情感分析模型。主要特征如下: 时间跨度:数据无特定时间范围,涵盖各类文本数据。... -
BM25基础训练集数据集-danielphalen
BM25基础训练集数据集-danielphalen 数据来源:互联网公开数据 标签:信息检索,文本处理,数据集,自然语言处理,BM25,搜索算法,文本相似度,机器学习 数据概述:该数据集包含用于训练和评估BM25(Best Match 25)模型的文本数据,主要用于信息检索任务。主要特征如下: 时间跨度:数据涵盖了从特定时间段内收集的文本数据。... -
英文文本序列长度验证数据集SequenceLength128-bamps53
英文文本序列长度验证数据集SequenceLength128-bamps53 数据来源:互联网公开数据 标签:自然语言处理,文本处理,序列建模,数据集,机器学习,文本验证,文本分析,深度学习 数据概述: 该数据集包含经过处理的英文文本数据,主要用于验证和测试自然语言处理模型,特别是针对序列长度为128的文本序列。主要特征如下:... -
尼泊尔名字数据集含性别信息
尼泊尔名字数据集含性别信息 数据来源:互联网公开数据 标签:尼泊尔,名字,性别,语言文化,数据清洗,文本处理,机器学习 数据概述: 本数据集包含尼泊尔语名字及其对应的性别信息,数据以德文那格里文字呈现。数据来源于尼泊尔选举委员会的公开信息,经过清洗和格式化处理,确保数据的准确性和可用性。 数据用途概述:... -
数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb
数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb 数据来源:互联网公开数据 标签:数据增强,反向翻译,数据集,自然语言处理,机器学习,文本处理,语言模型,翻译技术 数据概述:... -
表情符号列表数据集ListofAllEmojisDataset-chroline
表情符号列表数据集ListofAllEmojisDataset-chroline 数据来源:互联网公开数据 标签:表情符号,数据集,社交媒体,情感分析,机器学习,文本处理,数字文化,数据挖掘 数据概述: 该数据集包含来自互联网公开资源的表情符号列表,记录了各类表情符号的符号编码,名称,类别及使用场景等信息。主要特征如下:... -
索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary
索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary 数据来源:互联网公开数据 标签:索赔数据,数据集,标准化,标签,保险行业,数据分析,机器学习,文本处理 数据概述: 该数据集包含对保险索赔数据的标准化标签信息,记录了各种索赔案例的详细信息及其标准化标签。主要特征如下: 时间跨度:... -
加密提示数据集CipheredPromptsDataset-noob456
加密提示数据集CipheredPromptsDataset-noob456 数据来源:互联网公开数据 标签:数据集,密码学,文本处理,机器学习,自然语言处理,数据安全,提示工程,人工智能 数据概述:该数据集包含经过加密处理的文本提示数据,记录了多种加密算法下的提示信息。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。... -
大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl
大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl 数据来源:互联网公开数据 标签:自然语言处理,文本分割,数据集,大规模语言模型,文本处理,机器学习,数据增强,语言模型训练 数据概述: 该数据集包含用于评估和改进大规模语言模型(LLM)生成文本分割能力的数据。主要特征如下:... -
替换逗号数据集ReplacingCommaDataset-rojaramani
替换逗号数据集ReplacingCommaDataset-rojaramani 数据来源:互联网公开数据 标签:数据清理,文本处理,数据集,自然语言处理,数据预处理,文本分析,数据科学,编程 数据概述:该数据集包含来自互联网公开的数据,记录了需要进行逗号替换的文本片段。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2022年。... -
拼写纠正数据集SpellCorrectionDataset-zerowith
拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:... -
文本可读性分析数据集Readability-FoldsDataset-abhishek
文本可读性分析数据集Readability-FoldsDataset-abhishek 数据来源:互联网公开数据 标签:自然语言处理,文本分析,可读性评估,机器学习,教育技术,数据集,文本处理,语言模型 数据概述: 该数据集专注于文本可读性分析,记录了不同文本样本的可读性特征和评分。主要特征如下:... -
泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss
泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:... -
姓名性别数据集Name-GenderDataset-shivanshpandeys
姓名性别数据集Name-GenderDataset-shivanshpandeys 数据来源:互联网公开数据 标签:姓名分析,性别识别,数据集,文本处理,机器学习,自然语言处理,人口统计,数据分析 数据概述: 该数据集包含来自公开来源的姓名和性别数据,记录了不同姓名对应的性别信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,涵盖历史和现代姓名。...