找到264个数据集

分类: 互联网数据 标签: 文本处理

过滤结果
  • 疾病文章数据集

    2025年4月15日 30 1 0

    疾病文章数据集 数据来源:互联网公开数据 标签:疾病,文章,文本处理,自然语言处理,Spacy,BERT,机器学习 数据概述:...
    packageimg
  • 调整文本数据集

    2025年4月14日 30 203 181

    调整文本数据集 数据来源:互联网公开数据 标签:文本调整,数据优化,文本处理,文本分析,数据可视化,数据集共享 数据概述: 本数据集包含与调整文本相关的数据集,适用于文本布局优化、数据可视化调整等场景。数据集内容涵盖文本调整的具体参数、调整前后对比数据以及相关算法实现的示例数据,为研究人员和开发者提供标准化的文本调整数据支持。 数据用途概述:...
    packageimg
  • 金融新闻情感数据集

    2025年4月14日 30 125 60

    金融新闻情感数据集 数据来源:互联网公开数据 标签:金融新闻,情感分析,NLP,文本处理,数据清洗,股票市场 数据概述: 本数据集包含标注了情感标签的金融新闻文本,适用于自然语言处理(NLP)任务。数据集经过了一系列文本处理操作,包括去除空值、删除重复项、平衡各类情感标签的数量、去除前后空格和换行符、移除URL、展开缩写(如将“it's”转换为“it...
    packageimg
  • 高质量多语言翻译数据集

    2025年4月17日 30 2 1

    高质量多语言翻译数据集 数据来源:互联网公开数据 标签:多语言翻译,机器学习,文本处理,自然语言处理,语言模型,国际业务,跨文化交流 数据概述:...
    packageimg
  • 达观数据文本处理挑战赛数据集

    2025年6月4日 30 21 15

    达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -...
    packageimg
  • 科学知识图谱大语言模型构建数据集

    2025年4月14日 30 112 37

    科学知识图谱大语言模型构建数据集 数据来源:互联网公开数据 标签:科学知识图谱,大语言模型,KG,LLM,数据集,关系提取,实体识别,文本处理 数据概述:...
    packageimg
  • 文本标点符号校正数据集

    2025年7月26日 30 103 34

    文本标点符号校正数据集_Text_Punctuation_Correction_Dataset 数据来源:互联网公开数据 标签:文本处理, 自然语言处理, 标点符号, 文本校正, 数据标注, 机器学习, 语料库, 文本分析 数据概述: 该数据集包含来自公开文本的数据,记录了用于文本标点符号校正的语料。主要特征如下:...
    packageimg
  • 文本处理能力提升数据集

    2025年4月27日 30 107 48

    文本处理能力提升数据集 数据来源:互联网公开数据 标签:文本处理,自然语言处理,编码技能,学习资源,技术培训,数据清洗,特征提取,文本分析,机器学习 数据概述:...
    packageimg
  • 毒性评论分类数据集

    2025年5月31日 30 20 14

    毒性评论分类数据集 数据来源:互联网公开数据 标签:毒性评论,分类模型,自然语言处理,多语言,情感分析,文本处理,数据预处理 数据概述:...
    packageimg
  • 新闻文章分类数据集

    2025年5月11日 30 208 34

    新闻文章分类数据集 数据来源:互联网公开数据 标签:新闻分类,文本处理,机器学习,自然语言处理,数据标注,文本分析,分类算法 数据概述: 本数据集包含新闻文章的文本内容及其对应的分类标签,旨在支持文本分类任务的研究与实践。数据集分为训练文件和测试文件两部分。训练文件包含三列:文章内容(Article...
    packageimg
  • 自杀干预情感分析数据集

    2025年4月15日 30 25 23

    自杀干预情感分析数据集 数据来源:互联网公开数据 标签:自杀干预,情感分析,心理健康,文本处理,TF-IDF,自然语言处理,情绪分类 数据概述: 本数据集基于“suicide-watch”数据集进行处理和增强,包含经过清洗的文本数据、TF-...
    packageimg
  • 印尼税务法庭判决数据集

    2025年5月30日 30 65 3

    印尼税务法庭判决数据集 数据来源:互联网公开数据 标签:税务法庭,判决分析,NLP,ML,法律预测,文本处理,法律纠纷 数据概述:...
    packageimg
  • 英语词典数据集

    2025年4月18日 30 195 107

    英语词典数据集 数据来源:互联网公开数据 标签:英语词汇,词典数据,词性标注,词义解析,语言学研究,文本处理,自然语言处理 数据概述:...
    packageimg
  • 电影评论及其法语翻译数据集

    2025年4月20日 30 76 52

    电影评论及其法语翻译数据集 数据来源:互联网公开数据 标签:电影评论,IMDb,法语翻译,文本处理,情感分析,机器翻译,跨语言分析 数据概述: 本数据集基于Aditya、P.等人的IMDb电影评论数据集构建,包含多部电影的评论数据,每条评论对应一部特定电影。数据集经过清洗和规则化处理,以确保数据质量,并使用Google Translate...
    packageimg
  • 电影相关推文数据集

    2025年4月14日 30 103 80

    电影相关推文数据集 数据来源:互联网公开数据 标签:电影,社交媒体,推文,情感分析,文本处理,大数据,自然语言处理 数据概述:...
    packageimg
  • 文本片段索引信息数据集

    2025年6月30日 30 1 0

    文本片段索引信息数据集_Text_Segment_Index_Information 数据来源:互联网公开数据 标签:文本处理, 信息检索, 索引构建, 数据结构, 文本分析, 机器学习, 自然语言处理, 数据集 数据概述: 该数据集包含文本片段的索引信息,记录了文本被分割成片段后的关键索引数据。主要特征如下:...
    packageimg
  • 尼泊尔名字数据集含性别信息

    2025年4月24日 30 191 145

    尼泊尔名字数据集含性别信息 数据来源:互联网公开数据 标签:尼泊尔,名字,性别,语言文化,数据清洗,文本处理,机器学习 数据概述: 本数据集包含尼泊尔语名字及其对应的性别信息,数据以德文那格里文字呈现。数据来源于尼泊尔选举委员会的公开信息,经过清洗和格式化处理,确保数据的准确性和可用性。 数据用途概述:...
    packageimg
  • 伊博语重音符号恢复数据集

    2025年5月31日 30 140 80

    伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:...
    packageimg
  • 家用电器产品合成数据集

    2025年4月15日 30 110 40

    家用电器产品合成数据集 数据来源:互联网公开数据 标签:家用电器,合成数据,数据清理,文本处理,产品信息,能源消耗 数据概述:...
    packageimg
  • 写作过程与质量分析数据集

    2025年4月19日 30 10 1

    写作过程与质量分析数据集 数据来源:互联网公开数据 标签:文本处理,内存优化,写作质量,特征工程,数据预处理,机器学习,数据分析 数据概述:...
    packageimg