-
Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1
2026年1月15日 30 7 1
数据集概述 本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。 文件详解...
-
西班牙美洲学术期刊价值观教育数据集2001_2020
2025年12月23日 30 171 142
数据集概述 本数据集对应《西班牙美洲学术期刊价值观教育(2001-2020):数字工具应用研究》一文,包含200篇开放获取文本(PDF或TXT格式),通过REDIB©获取。数据集按出版时间和作者所属国家/机构分为不同语料库,另含参考文献及停用词列表,用于LDAvis主题建模分析。 文件详解 语料库压缩文件(共5个,.zip格式): Corpus A...
-
乌兹别克语停用词列表数据集
2025年12月23日 30 64 17
数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...



