数据集

泰语语料库数据集

泰语语料库数据集数据来源：互联网公开数据
标签：泰语,语料库,自然语言处理,机器学习,文本分析,泰文字体,分词算法

数据概述：
本数据集是一个现代泰语语料库，包含来自泰国多个网站（主要是新闻网站）的文本数据，总计约5000万tokens。为方便非泰语使用者理解和使用，研究人员在每个句子中添加了分隔符（空格）。数据采集使用Scrapy工具，文本分词使用Pythai模块，文本编码为UTF-8。语料库的数据来源包括维基百科和thaigov.go.th网站，分别采用标准维基百科许可证和泰国政府开放许可协议。

数据用途概述：
该数据集适用于泰语自然语言处理研究、机器翻译、文本挖掘、语言模型训练等多种场景。研究人员可利用此数据集进行泰语分词算法的开发与评估，同时可用于训练和测试泰语处理模型，提升泰语文本分析的准确性和效率。此外，数据集也适合用于泰语语言学研究，帮助探索泰语的语法规则和语言特征。

数据与资源

泰语语料库数据集.zipZIP
134.09 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	134.09 MiB
最后更新	2025年4月27日
创建于	2025年4月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

泰语语料库数据集

数据与资源

附加信息

注册成功！