找到258个数据集

标签: 文本处理

过滤结果
  • Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020

    2025年6月1日 30 90 82

    Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020 数据来源:互联网公开数据 标签:arXiv,论文元数据,摘要,机器学习,分类,文本处理,训练数据,TF-IDF 数据概述:...
    packageimg
  • 乌尔都语新闻文本大规模数据集-2021-saurabhshahane

    2025年6月1日 30 183 150

    乌尔都语新闻文本大规模数据集-2021-saurabhshahane 数据来源:互联网公开数据 标签:乌尔都语,新闻数据,文本处理,NLP,分类,摘要,命名实体识别,主题建模,文本生成 数据概述:...
    packageimg
  • 伊博语重音符号恢复数据集

    2025年5月31日 30 5 1

    伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:...
    packageimg
  • 毒性评论分类数据集

    2025年5月31日 30 144 117

    毒性评论分类数据集 数据来源:互联网公开数据 标签:毒性评论,分类模型,自然语言处理,多语言,情感分析,文本处理,数据预处理 数据概述:...
    packageimg
  • 银行交易记录数据分析数据集BankTransactionRecordsDataAnalysis-tanhsama

    2025年5月31日 30 71 26

    银行交易记录数据分析数据集BankTransactionRecordsDataAnalysis-tanhsama 数据来源:互联网公开数据 标签:银行交易, 金融数据, 交易记录, 数据分析, 文本处理, 客户信息, 数据隐私, 机器学习 数据概述:...
    packageimg
  • COVID-19研究论文词干提取数据集

    2025年5月31日 30 57 13

    COVID-19研究论文词干提取数据集 数据来源:互联网公开数据 标签:COVID-19研究,NLP技术,词干提取,文本处理,数据科学,公共卫生 数据概述:...
    packageimg
  • 越南地名图像识别数据集VietnamPlaceNameImageRecognition-tuanltm

    2025年5月31日 30 16 9

    越南地名图像识别数据集VietnamPlaceNameImageRecognition-tuanltm 数据来源:互联网公开数据 标签:图像识别, 地名识别, OCR, 文本处理, 越南, 计算机视觉, 数据标注, 自然语言处理 数据概述: 该数据集包含来自越南地区的地名图像数据,记录了越南地名的图像及其对应的文本标注信息。主要特征如下:...
    packageimg
  • 印尼税务法庭判决数据集

    2025年5月30日 30 122 103

    印尼税务法庭判决数据集 数据来源:互联网公开数据 标签:税务法庭,判决分析,NLP,ML,法律预测,文本处理,法律纠纷 数据概述:...
    packageimg
  • 机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-goldenlock

    2025年5月30日 30 151 12

    机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-goldenlock 数据来源:互联网公开数据 标签:机器学习, 模型训练, 模型评估, 深度学习, 文本处理, 图像识别, 数据集, TensorFlow, 神经网络 数据概述:...
    packageimg
  • 数字序列文本数据集DigitalSequenceTextDataset-tracerboy

    2025年5月30日 30 121 42

    数字序列文本数据集DigitalSequenceTextDataset-tracerboy 数据来源:互联网公开数据 标签:文本数据, 数字序列, 数据集, 序列分析, 机器学习, 文本处理, 自然语言处理, 模式识别 数据概述: 该数据集包含来自未知来源的数字序列文本数据,记录了由数字组成的文本序列。主要特征如下:...
    packageimg
  • 语言校对工具多语言支持数据集LanguageCorrectionToolMultilingualSupportDataset-ktgiahieu

    2025年5月30日 30 112 16

    语言校对工具多语言支持数据集LanguageCorrectionToolMultilingualSupportDataset-ktgiahieu 数据来源:互联网公开数据 标签:语言校对, 自然语言处理, 文本分析, 多语言, 语法检查, 拼写纠错, 文本处理, 开源项目 数据概述:...
    packageimg
  • 字体数据集FontDataSet-sorayaraiah

    2025年5月30日 30 53 22

    字体数据集FontDataSet-sorayaraiah 数据来源:互联网公开数据 标签:字体,数据集,计算机视觉,图像识别,机器学习,数据科学,人工智能,文本处理 数据概述: 该数据集包含来自不同字体的字符数据,记录了多种字体样式下的字符图像信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,主要为静态字符数据。...
    packageimg
  • 向量化文本处理数据集VectorisedTextDataset-rhianarmstrong

    2025年5月30日 30 122 111

    向量化文本处理数据集VectorisedTextDataset-rhianarmstrong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,向量化,深度学习,信息检索 数据概述: 该数据集包含来自互联网的文本数据,经过向量化处理,适用于自然语言处理和机器学习任务。主要特征如下:...
    packageimg
  • DMOZ工具网分类数据集DMOZToolsNetCategoricalDataDataset-patanjalichin1

    2025年5月30日 30 162 141

    DMOZ工具网分类数据集DMOZToolsNetCategoricalDataDataset-patanjalichin1 数据来源:互联网公开数据 标签:分类数据,数据集,网络目录,信息管理,文本处理,机器学习,数据挖掘,网页分类 数据概述: 该数据集包含来自DMOZ工具网(DMOZ Tools...
    packageimg
  • 代码单元排序与评估数据集CodeCellOrderingandEvaluationDataset-goldenlock

    2025年5月30日 30 121 62

    代码单元排序与评估数据集CodeCellOrderingandEvaluationDataset-goldenlock 数据来源:互联网公开数据 标签:代码单元, 排序, 机器学习, 数据分析, 文本处理, 模型评估, Python, 数据集 数据概述:...
    packageimg
  • 文本预处理语料库TextPreprocessingCorpus-dinhnhattruong

    2025年5月30日 30 148 41

    文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:...
    packageimg
  • ASCII字符编码数据集ASCIICharacterEncodingDataset-jianse

    2025年5月30日 30 132 66

    ASCII字符编码数据集ASCIICharacterEncodingDataset-jianse 数据来源:互联网公开数据 标签:字符编码,数据集,ASCII,计算机科学,数据分析,文本处理,数字通信,信息存储 数据概述: 该数据集包含ASCII字符编码的完整信息,记录了标准ASCII字符与对应编码的映射关系。主要特征如下:...
    packageimg
  • 阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil

    2025年5月30日 30 72 54

    阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:...
    packageimg
  • 泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037

    2025年5月30日 30 178 143

    泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037 数据来源:互联网公开数据 标签:泰米尔语,维基百科,摘要生成,自然语言处理,机器学习,文本处理,多语言,人工智能 数据概述:...
    packageimg
  • 地址数据增强数据集-tanguanyu

    2025年5月29日 30 134 1

    地址数据增强数据集-tanguanyu 数据来源:互联网公开数据 标签:地址数据,数据增强,自然语言处理,机器学习,文本处理,数据清洗,地理信息,人工智能 数据概述: 该数据集包含经过多种方法增强的地址数据,旨在提高地址数据的多样性和可用性。主要特征如下: 时间跨度:数据记录的时间范围涵盖了当前年份及之前的地址数据。...
    packageimg