-
维基百科中文版处理数据集ProcessedWikihowChineseDataset-akumar99
2025年5月21日 30 112 4
维基百科中文版处理数据集ProcessedWikihowChineseDataset-akumar99 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,机器学习,文本分类,语义分析,中文处理,信息提取 数据概述: 该数据集包含来自维基百科中文版的数据,经过处理和清洗,记录了维基百科中的大量中文文本内容。主要特征如下: 时间跨度:... -
中文名称识别数据集Sino-NOMRecognitionDataset-huynq2k4
2025年5月13日 30 32 3
中文名称识别数据集Sino-NOMRecognitionDataset-huynq2k4 数据来源:互联网公开数据 标签:命名实体识别,中文处理,数据集,自然语言处理,机器学习,文本分析,信息抽取,人工智能 数据概述: 该数据集包含中文名称识别的标注数据,记录了文本中的人名、地名、组织机构名等命名实体信息。主要特征如下:... -
预处理语言数据集PreprocessingLanguageData-biatrixwang
2025年4月25日 30 74 42
预处理语言数据集PreprocessingLanguageData-biatrixwang 数据来源:互联网公开数据 标签:自然语言处理,文本预处理,数据集,语言模型,文本分析,数据清洗,机器学习,中文处理 数据概述: 该数据集包含经过预处理的语言数据,旨在为自然语言处理任务提供干净,规范的文本输入。主要特征如下:... -
中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers
2025年4月24日 30 189 47
中文分词数据集Word-SegmentedDatasetfrom01Janto03-ictunivers 数据来源:互联网公开数据 标签:自然语言处理,中文分词,数据集,文本分析,机器学习,语言处理,NLP,中文处理 数据概述: 该数据集包含中文文本的分词数据,记录了从01月01日到03月31日之间的中文文本的分词结果。主要特征如下:... -
中文文本词频数据集TF-Word-FrequencyDataset-ludwing129
2025年4月23日 30 187 110
中文文本词频数据集TF-Word-FrequencyDataset-ludwing129 数据来源:互联网公开数据 标签:文本分析,词频统计,数据集,自然语言处理,语言学,机器学习,文本挖掘,中文处理 数据概述: 该数据集包含来自多个中文文本源的词频统计信息,记录了常见中文词汇在不同文本中的出现频率。主要特征如下:...