-
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil
阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:... -
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037
泰米尔语维基百科摘要数据集TamilWikipediaSummarizationDataset-aswin037 数据来源:互联网公开数据 标签:泰米尔语,维基百科,摘要生成,自然语言处理,机器学习,文本处理,多语言,人工智能 数据概述:... -
地址数据增强数据集-tanguanyu
地址数据增强数据集-tanguanyu 数据来源:互联网公开数据 标签:地址数据,数据增强,自然语言处理,机器学习,文本处理,数据清洗,地理信息,人工智能 数据概述: 该数据集包含经过多种方法增强的地址数据,旨在提高地址数据的多样性和可用性。主要特征如下: 时间跨度:数据记录的时间范围涵盖了当前年份及之前的地址数据。... -
文本标注代码数据集TextAnnotationCodeDataset-jafarjon
文本标注代码数据集TextAnnotationCodeDataset-jafarjon 数据来源:互联网公开数据 标签:文本标注, 代码分析, 数据清洗, 自然语言处理, 机器学习, 数据集构建, 文本处理, 代码示例 数据概述: 该数据集包含来自网络公开的数据,记录了与文本标注相关的代码示例。主要特征如下:... -
训练集翻译数据集TrainingSetTranslationsDataset-franciscomisa
训练集翻译数据集TrainingSetTranslationsDataset-franciscomisa 数据来源:互联网公开数据 标签:翻译,数据集,自然语言处理,机器学习,多语言,文本处理,语言模型,人工智能 数据概述: 该数据集包含来自多个公开来源的翻译训练数据,记录了多种语言之间的翻译对。主要特征如下:... -
无点CSV文件数据集-ouassimbehlil
无点CSV文件数据集-ouassimbehlil 数据来源:互联网公开数据 标签:CSV,数据清洗,文本处理,数据集,数据分析,编码转换,文件格式,Python 数据概述: 该数据集包含无点CSV文件的数据,记录了CSV文件在没有点号分隔符时的数据结构和内容。主要特征如下: 时间跨度:数据记录的时间范围不限。 地理范围:数据覆盖范围不限。... -
服务条款与可读性评分数据集TermsofServiceandReadabilityScoresDataset-caitvh14
服务条款与可读性评分数据集TermsofServiceandReadabilityScoresDataset-caitvh14 数据来源:互联网公开数据 标签:法律文本,可读性分析,数据集,文本处理,自然语言处理,机器学习,语言学,数据分析 数据概述: 该数据集包含来自多个互联网平台的服务条款文本以及相应的可读性评分。主要特征如下:... -
自然语言处理模型训练与测试代码及配置数据集NaturalLanguageProcessingModelTrainingandTestingCodeandC...
自然语言处理模型训练与测试代码及配置数据集NaturalLanguageProcessingModelTrainingandTestingCodeandConfigurationDataset-a24998667 数据来源:互联网公开数据 标签:自然语言处理, 深度学习, 模型训练, 文本处理, 机器学习, 代码, 配置, 测试 数据概述:... -
语言工具错误检测数据集LanguageToolErrorDetectionDataset-liangqiuyuan1
语言工具错误检测数据集LanguageToolErrorDetectionDataset-liangqiuyuan1 数据来源:互联网公开数据 标签:自然语言处理,文本分析,错误检测,机器学习,语言工具,数据集,语法检查,文本处理 数据概述:... -
科勒里奇预处理文本数据集ColeridgeProcessedTextDataset-peaceduck
科勒里奇预处理文本数据集ColeridgeProcessedTextDataset-peaceduck 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,语言模型,数据处理,学术研究 数据概述:该数据集包含来自科勒里奇项目(Coleridge... -
Transformer模型翻译数据集iTransformerDataset-tylerfarnan
Transformer模型翻译数据集iTransformerDataset-tylerfarnan 数据来源:互联网公开数据 标签:机器翻译,自然语言处理,数据集,Transformer,文本处理,语言模型,深度学习,翻译质量 数据概述:... -
乌克兰冲突背景下文本情感分析数据集TextSentimentAnalysisDatasetintheContextofUkraineConflict-sa...
乌克兰冲突背景下文本情感分析数据集TextSentimentAnalysisDatasetintheContextofUkraineConflict-sahilkadiyan 数据来源:互联网公开数据 标签:情感分析, 乌克兰冲突, 文本处理, 自然语言处理, 政治评论, 舆情分析, 社交媒体, 情绪识别 数据概述:... -
中文新闻情感分析预处理数据集ChineseNewsSentimentAnalysisPreprocessedDataset-abidinawres
中文新闻情感分析预处理数据集ChineseNewsSentimentAnalysisPreprocessedDataset-abidinawres 数据来源:互联网公开数据 标签:情感分析, 文本处理, 自然语言处理, 中文文本, 情绪识别, 数据清洗, 机器学习, 舆情分析 数据概述:... -
文本情感分类训练与测试数据集TextSentimentClassificationTrainingandTestingDataset-vedantvija...
文本情感分类训练与测试数据集TextSentimentClassificationTrainingandTestingDataset-vedantvijaydalimkar 数据来源:互联网公开数据 标签:文本情感分析, 情感分类, 机器学习, 自然语言处理, 文本处理, 深度学习, 模型训练, 情感标注 数据概述:... -
文本摘要生成训练数据集TextSummarizationTrainingData-mridul3301
文本摘要生成训练数据集TextSummarizationTrainingData-mridul3301 数据来源:互联网公开数据 标签:文本摘要, 自然语言处理, 机器翻译, 深度学习, 摘要生成, 数据集, 文本处理, 语料库 数据概述: 该数据集包含用于文本摘要生成的训练数据,记录了原文与其对应的摘要文本。主要特征如下:... -
英国标点符号光学字符识别数据集PunctuationUKOCRDataset-thnhhunhtn
英国标点符号光学字符识别数据集PunctuationUKOCRDataset-thnhhunhtn 数据来源:互联网公开数据 标签:光学字符识别,文本处理,数据集,自然语言处理,机器学习,英语语言,标点符号,计算机视觉 数据概述: 该数据集专注于英国英语中的标点符号光学字符识别(OCR),记录了各种文档中的标点符号及其识别结果。主要特征如下:... -
UCI字体数据集UCIFontDataset-aniruddhamandal
UCI字体数据集UCIFontDataset-aniruddhamandal 数据来源:互联网公开数据 标签:字体,数据集,模式识别,机器学习,计算机视觉,数据分析,文本处理,人工智能 数据概述: 该数据集源自UCI机器学习库,专注于字体字符的识别与分析。主要特征如下: 时间跨度: 数据记录的时间范围为字体字符的静态图像数据,无具体时间记录。... -
文本自动纠错数据集CleanedAutoCorrectDataset-oyounis
文本自动纠错数据集CleanedAutoCorrectDataset-oyounis 数据来源:互联网公开数据 标签:文本纠错,数据集,自然语言处理,机器学习,文本分析,文本处理,语言技术,人工智能 数据概述:该数据集包含经过清洗和自动纠错处理的文本数据,适用于文本纠错和自然语言处理任务。主要特征如下:... -
COVID-19挑战论文分词数据集TokenizedWordsCOVID-19ChallengeDataset-omarkhalil27
COVID-19挑战论文分词数据集TokenizedWordsCOVID-19ChallengeDataset-omarkhalil27 数据来源:互联网公开数据 标签:COVID-19, 数据集, 文本处理, 自然语言处理, 机器学习, 医学研究, 学术资源, 文献分析 数据概述:... -
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary 数据来源:互联网公开数据 标签:词库,输入法,数据集,中文,自然语言处理,语言资源,文本处理,机器学习 数据概述: 该数据集包含通用拼音输入法(GPNU)的完整词库数据,记录了中文词语及其对应的拼音信息。主要特征如下:...