找到9个数据集

标签: 分词

过滤结果
  • 突尼斯阿拉伯语拉丁转写语料库2017_2021

    2025年12月21日 30 117 50

    数据集概述 该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。 文件详解 文本文件(.txt格式,共13个):...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日 30 56 3

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 古典藏文标注语料库2020_Version2_带分词与词性标注

    2025年12月7日 30 153 68

    数据集概述 该数据集为古典藏文标注语料库(ACTib)第二版,包含超一亿八千五百万个词元,基于XML文件构建,提供分词与词性标注的压缩文件,采用自动后处理方法,未涉及人工校正。 文件详解 数据集包含11个压缩文件,具体说明如下: - 压缩文件组(共11个.zip格式文件): - SegPOS-...
    packageimg
  • 越南新闻文章内容分词与处理数据集

    2025年10月5日 30 158 151

    越南新闻文章内容分词与处理数据集_Vietnamese_News_Articles_Content_Segmentation_and_Processing 数据来源:互联网公开数据 标签:自然语言处理, 文本分析, 越南语, 分词, 新闻文章, 文本摘要, 信息抽取, 语言模型 数据概述:...
    packageimg
  • 法律文本分词数据集BKAILegalCorpusSegmentedDataset-lamtruong1594

    2025年5月29日 30 164 124

    法律文本分词数据集BKAILegalCorpusSegmentedDataset-lamtruong1594 数据来源:互联网公开数据 标签:法律文本,数据集,分词,自然语言处理,文本分析,机器学习,法律研究,语义理解 数据概述: 该数据集包含来自BKAI机构提供的法律文本数据,记录了已分词的法律文本内容。主要特征如下:...
    packageimg
  • 推特情感分析处理数据集-2011-halemogpa

    2025年5月4日 30 90 13

    推特情感分析处理数据集-2011-halemogpa 数据来源:互联网公开数据 标签:推特,情感分析,NLP,机器学习,数据集,预处理,分词 数据概述:...
    packageimg
  • 孟加拉电子产品分词数据集BanglaElectronicsLemmatizedFinalDataset-nirajmahi

    2025年4月24日 30 165 1

    孟加拉电子产品分词数据集BanglaElectronicsLemmatizedFinalDataset-nirajmahi 数据来源:互联网公开数据 标签:电子产品,数据集,分词,自然语言处理,机器学习,文本分析,语言学,数据挖掘 数据概述: 该数据集包含来自孟加拉国电子产品领域的分词数据,记录了电子产品相关的文本信息。主要特征如下:...
    packageimg
  • 文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi

    2025年4月21日 30 43 4

    文章数据集文本预处理-大小写转换过滤分词去停用词词干提取-muhammadalwi 数据来源:互联网公开数据 标签:文本预处理,自然语言处理,NLP,大小写转换,过滤,分词,停用词,词干提取,文章数据集 数据概述:...
    packageimg
  • 印度马拉地语新闻标题清理数据集

    2025年4月15日 30 96 17

    印度马拉地语新闻标题清理数据集 数据来源:互联网公开数据 标签:马拉地语,新闻标题,文本清理,数据处理,自然语言处理,SKlearn,分词,文本分析 数据概述: 本数据集包含约12000条经过清理的马拉地语新闻文章标题,源自iNLTK原始数据集。清理步骤包括罗马化、规范化、去除重复项及使用Indic-NLP-...
    packageimg