-
Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020
2025年6月1日 30 90 82
Klinger等处理后的arXiv论文元数据和摘要数据集-机器学习方法分类-2020 数据来源:互联网公开数据 标签:arXiv,论文元数据,摘要,机器学习,分类,文本处理,训练数据,TF-IDF 数据概述:... -
乌尔都语新闻文本大规模数据集-2021-saurabhshahane
2025年6月1日 30 183 150
乌尔都语新闻文本大规模数据集-2021-saurabhshahane 数据来源:互联网公开数据 标签:乌尔都语,新闻数据,文本处理,NLP,分类,摘要,命名实体识别,主题建模,文本生成 数据概述:... -
伊博语重音符号恢复数据集
2025年5月31日 30 5 1
伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:... -
毒性评论分类数据集
2025年5月31日 30 144 117
毒性评论分类数据集 数据来源:互联网公开数据 标签:毒性评论,分类模型,自然语言处理,多语言,情感分析,文本处理,数据预处理 数据概述:... -
银行交易记录数据分析数据集BankTransactionRecordsDataAnalysis-tanhsama
2025年5月31日 30 71 26
银行交易记录数据分析数据集BankTransactionRecordsDataAnalysis-tanhsama 数据来源:互联网公开数据 标签:银行交易, 金融数据, 交易记录, 数据分析, 文本处理, 客户信息, 数据隐私, 机器学习 数据概述:... -
COVID-19研究论文词干提取数据集
2025年5月31日 30 57 13
COVID-19研究论文词干提取数据集 数据来源:互联网公开数据 标签:COVID-19研究,NLP技术,词干提取,文本处理,数据科学,公共卫生 数据概述:... -
越南地名图像识别数据集VietnamPlaceNameImageRecognition-tuanltm
2025年5月31日 30 16 9
越南地名图像识别数据集VietnamPlaceNameImageRecognition-tuanltm 数据来源:互联网公开数据 标签:图像识别, 地名识别, OCR, 文本处理, 越南, 计算机视觉, 数据标注, 自然语言处理 数据概述: 该数据集包含来自越南地区的地名图像数据,记录了越南地名的图像及其对应的文本标注信息。主要特征如下:... -
印尼税务法庭判决数据集
2025年5月30日 30 122 103
印尼税务法庭判决数据集 数据来源:互联网公开数据 标签:税务法庭,判决分析,NLP,ML,法律预测,文本处理,法律纠纷 数据概述:... -
机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-goldenlock
2025年5月30日 30 151 12
机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-goldenlock 数据来源:互联网公开数据 标签:机器学习, 模型训练, 模型评估, 深度学习, 文本处理, 图像识别, 数据集, TensorFlow, 神经网络 数据概述:... -
数字序列文本数据集DigitalSequenceTextDataset-tracerboy
2025年5月30日 30 121 42
数字序列文本数据集DigitalSequenceTextDataset-tracerboy 数据来源:互联网公开数据 标签:文本数据, 数字序列, 数据集, 序列分析, 机器学习, 文本处理, 自然语言处理, 模式识别 数据概述: 该数据集包含来自未知来源的数字序列文本数据,记录了由数字组成的文本序列。主要特征如下:... -
语言校对工具多语言支持数据集LanguageCorrectionToolMultilingualSupportDataset-ktgiahieu
2025年5月30日 30 112 16
语言校对工具多语言支持数据集LanguageCorrectionToolMultilingualSupportDataset-ktgiahieu 数据来源:互联网公开数据 标签:语言校对, 自然语言处理, 文本分析, 多语言, 语法检查, 拼写纠错, 文本处理, 开源项目 数据概述:... -
字体数据集FontDataSet-sorayaraiah
2025年5月30日 30 53 22
字体数据集FontDataSet-sorayaraiah 数据来源:互联网公开数据 标签:字体,数据集,计算机视觉,图像识别,机器学习,数据科学,人工智能,文本处理 数据概述: 该数据集包含来自不同字体的字符数据,记录了多种字体样式下的字符图像信息。主要特征如下: 时间跨度:数据记录的时间范围不明确,主要为静态字符数据。... -
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong
2025年5月30日 30 122 111
向量化文本处理数据集VectorisedTextDataset-rhianarmstrong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,向量化,深度学习,信息检索 数据概述: 该数据集包含来自互联网的文本数据,经过向量化处理,适用于自然语言处理和机器学习任务。主要特征如下:... -
DMOZ工具网分类数据集DMOZToolsNetCategoricalDataDataset-patanjalichin1
2025年5月30日 30 162 141
DMOZ工具网分类数据集DMOZToolsNetCategoricalDataDataset-patanjalichin1 数据来源:互联网公开数据 标签:分类数据,数据集,网络目录,信息管理,文本处理,机器学习,数据挖掘,网页分类 数据概述: 该数据集包含来自DMOZ工具网(DMOZ Tools... -
代码单元排序与评估数据集CodeCellOrderingandEvaluationDataset-goldenlock
2025年5月30日 30 121 62
代码单元排序与评估数据集CodeCellOrderingandEvaluationDataset-goldenlock 数据来源:互联网公开数据 标签:代码单元, 排序, 机器学习, 数据分析, 文本处理, 模型评估, Python, 数据集 数据概述:... -
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong
2025年5月30日 30 148 41
文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:... -
ASCII字符编码数据集ASCIICharacterEncodingDataset-jianse
2025年5月30日 30 132 66
ASCII字符编码数据集ASCIICharacterEncodingDataset-jianse 数据来源:互联网公开数据 标签:字符编码,数据集,ASCII,计算机科学,数据分析,文本处理,数字通信,信息存储 数据概述: 该数据集包含ASCII字符编码的完整信息,记录了标准ASCII字符与对应编码的映射关系。主要特征如下:... -
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil
2025年5月30日 30 72 54
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:... -
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037
2025年5月30日 30 178 143
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037 数据来源:互联网公开数据 标签:泰米尔语,维基百科,摘要生成,自然语言处理,机器学习,文本处理,多语言,人工智能 数据概述:... -
地址数据增强数据集-tanguanyu
2025年5月29日 30 134 1
地址数据增强数据集-tanguanyu 数据来源:互联网公开数据 标签:地址数据,数据增强,自然语言处理,机器学习,文本处理,数据清洗,地理信息,人工智能 数据概述: 该数据集包含经过多种方法增强的地址数据,旨在提高地址数据的多样性和可用性。主要特征如下: 时间跨度:数据记录的时间范围涵盖了当前年份及之前的地址数据。...