找到261个数据集

标签: 文本处理

过滤结果
  • BM25基础训练集数据集-danielphalen

    2025年4月24日   

    BM25基础训练集数据集-danielphalen 数据来源:互联网公开数据 标签:信息检索,文本处理,数据集,自然语言处理,BM25,搜索算法,文本相似度,机器学习 数据概述:该数据集包含用于训练和评估BM25(Best Match 25)模型的文本数据,主要用于信息检索任务。主要特征如下: 时间跨度:数据涵盖了从特定时间段内收集的文本数据。...
    packageimg
  • 英文文本序列长度验证数据集SequenceLength128-bamps53

    2025年4月24日   

    英文文本序列长度验证数据集SequenceLength128-bamps53 数据来源:互联网公开数据 标签:自然语言处理,文本处理,序列建模,数据集,机器学习,文本验证,文本分析,深度学习 数据概述: 该数据集包含经过处理的英文文本数据,主要用于验证和测试自然语言处理模型,特别是针对序列长度为128的文本序列。主要特征如下:...
    packageimg
  • 尼泊尔名字数据集含性别信息

    2025年4月24日   

    尼泊尔名字数据集含性别信息 数据来源:互联网公开数据 标签:尼泊尔,名字,性别,语言文化,数据清洗,文本处理,机器学习 数据概述: 本数据集包含尼泊尔语名字及其对应的性别信息,数据以德文那格里文字呈现。数据来源于尼泊尔选举委员会的公开信息,经过清洗和格式化处理,确保数据的准确性和可用性。 数据用途概述:...
    packageimg
  • 数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb

    2025年4月24日   

    数据增强与反向翻译训练数据集AugmentedTrainDataBacktranslationDataset-konradb 数据来源:互联网公开数据 标签:数据增强,反向翻译,数据集,自然语言处理,机器学习,文本处理,语言模型,翻译技术 数据概述:...
    packageimg
  • 表情符号列表数据集ListofAllEmojisDataset-chroline

    2025年4月24日   

    表情符号列表数据集ListofAllEmojisDataset-chroline 数据来源:互联网公开数据 标签:表情符号,数据集,社交媒体,情感分析,机器学习,文本处理,数字文化,数据挖掘 数据概述: 该数据集包含来自互联网公开资源的表情符号列表,记录了各类表情符号的符号编码,名称,类别及使用场景等信息。主要特征如下:...
    packageimg
  • 索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary

    2025年4月24日   

    索赔数据标准化标签数据集ClaimsNormalizedLabelsDataset-maramalshammary 数据来源:互联网公开数据 标签:索赔数据,数据集,标准化,标签,保险行业,数据分析,机器学习,文本处理 数据概述: 该数据集包含对保险索赔数据的标准化标签信息,记录了各种索赔案例的详细信息及其标准化标签。主要特征如下: 时间跨度:...
    packageimg
  • 加密提示数据集CipheredPromptsDataset-noob456

    2025年4月24日   

    加密提示数据集CipheredPromptsDataset-noob456 数据来源:互联网公开数据 标签:数据集,密码学,文本处理,机器学习,自然语言处理,数据安全,提示工程,人工智能 数据概述:该数据集包含经过加密处理的文本提示数据,记录了多种加密算法下的提示信息。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。...
    packageimg
  • 大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl

    2025年4月24日   

    大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl 数据来源:互联网公开数据 标签:自然语言处理,文本分割,数据集,大规模语言模型,文本处理,机器学习,数据增强,语言模型训练 数据概述: 该数据集包含用于评估和改进大规模语言模型(LLM)生成文本分割能力的数据。主要特征如下:...
    packageimg
  • 替换逗号数据集ReplacingCommaDataset-rojaramani

    2025年4月24日   

    替换逗号数据集ReplacingCommaDataset-rojaramani 数据来源:互联网公开数据 标签:数据清理,文本处理,数据集,自然语言处理,数据预处理,文本分析,数据科学,编程 数据概述:该数据集包含来自互联网公开的数据,记录了需要进行逗号替换的文本片段。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2022年。...
    packageimg
  • 拼写纠正数据集SpellCorrectionDataset-zerowith

    2025年4月24日   

    拼写纠正数据集SpellCorrectionDataset-zerowith 数据来源:互联网公开数据 标签:自然语言处理,拼写纠正,数据集,文本处理,机器学习,语言技术,数据挖掘,计算机科学 数据概述: 该数据集专注于拼写纠正任务,包含大量包含拼写错误的文本数据及其对应的正确文本。主要特征如下:...
    packageimg
  • 文本可读性分析数据集Readability-FoldsDataset-abhishek

    2025年4月24日   

    文本可读性分析数据集Readability-FoldsDataset-abhishek 数据来源:互联网公开数据 标签:自然语言处理,文本分析,可读性评估,机器学习,教育技术,数据集,文本处理,语言模型 数据概述: 该数据集专注于文本可读性分析,记录了不同文本样本的可读性特征和评分。主要特征如下:...
    packageimg
  • 泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss

    2025年4月24日   

    泰国新闻分类数据集ThaiNewsClassificationDataset-mssjss 数据来源:互联网公开数据 标签:新闻分类,文本处理,数据集,机器学习,自然语言处理,多语言,信息检索,数据挖掘 数据概述: 该数据集包含来自泰国新闻网站的新闻文章数据,记录了不同类别新闻的分类信息。主要特征如下:...
    packageimg
  • 姓名性别数据集Name-GenderDataset-shivanshpandeys

    2025年4月24日   

    姓名性别数据集Name-GenderDataset-shivanshpandeys 数据来源:互联网公开数据 标签:姓名分析,性别识别,数据集,文本处理,机器学习,自然语言处理,人口统计,数据分析 数据概述: 该数据集包含来自公开来源的姓名和性别数据,记录了不同姓名对应的性别信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,涵盖历史和现代姓名。...
    packageimg
  • 技术人才招聘与正则表达式应用数据集TechTalentRecruitingwithRegexDataset-abdelazizsami

    2025年4月24日   

    技术人才招聘与正则表达式应用数据集TechTalentRecruitingwithRegexDataset-abdelazizsami 数据来源:互联网公开数据 标签:技术招聘,正则表达式,数据集,人才分析,文本处理,机器学习,人力资源,自然语言处理...
    packageimg
  • 未对齐的标记化数据集CenteredTokenized-2Dataset-enarior

    2025年4月24日   

    未对齐的标记化数据集CenteredTokenized-2Dataset-enarior 数据来源:互联网公开数据 标签:自然语言处理,数据集,文本处理,机器学习,语言模型,数据标注,文本分类,深度学习 数据概述: 该数据集包含来自未对齐标记化处理过程的文本数据,记录了经过特定标记化方法处理的文本样本。主要特征如下:...
    packageimg
  • 文本处理测试数据集-sandeep100joshi

    2025年4月24日   

    文本处理测试数据集-sandeep100joshi 数据来源:互联网公开数据 标签:文本处理,测试,数据集,自然语言处理,机器学习,文本分析,数据清洗,模型评估 数据概述: 该数据集包含用于文本处理任务的测试数据,记录了各种文本信息。主要特征如下: 时间跨度: 数据记录的时间范围不限,主要关注文本内容本身。 地理范围:...
    packageimg
  • Thread应用程序用户评价数据集ThreadAppReviewsDataset-isaidhs

    2025年4月23日   

    Thread应用程序用户评价数据集ThreadAppReviewsDataset-isaidhs 数据来源:互联网公开数据 标签:应用程序,用户评价,数据集,社交媒体,用户体验,数据挖掘,情感分析,文本处理 数据概述: 该数据集包含来自Thread应用程序的用户评价数据,记录了用户对该应用程序的使用体验和反馈。主要特征如下:...
    packageimg
  • 法语语法纠错数据集JFLEGFrenchGrammarCorrectionDataset-turiabu

    2025年4月23日   

    法语语法纠错数据集JFLEGFrenchGrammarCorrectionDataset-turiabu 数据来源:互联网公开数据 标签:语法纠错,自然语言处理,数据集,机器学习,语言模型,文本处理,法语,人工智能 数据概述: 该数据集包含来自JFLEG项目(JFLEG French Grammar...
    packageimg
  • 新闻标题拼写错误数据集100万条

    2025年4月23日   

    新闻标题拼写错误数据集100万条 数据来源:互联网公开数据 标签:拼写错误,新闻标题,自然语言处理,数据生成,拼写校正模型,机器学习,文本处理 数据概述: 本数据集包含通过nlpaug库生成的100万条新闻标题的拼写错误数据。这些标题原本应为正确拼写,但经过处理引入了不同类型的拼写错误,为构建和评估拼写校正模型提供了丰富的训练和测试材料。...
    packageimg
  • COVID19CDC指南推文上下文数据集-2020年至2021年-vesuvius13

    2025年4月23日   

    COVID19CDC指南推文上下文数据集-2020年至2021年-vesuvius13 数据来源:互联网公开数据 标签:COVID19, CDC, 推特, 数据抓取, 情感分析, 上下文检测, 文本处理 数据概述: 本数据集通过Python的Twint库从Twitter抓取了与COVID19...
    packageimg