泰语语料库数据集

泰语语料库数据集 数据来源:互联网公开数据
标签:泰语,语料库,自然语言处理,机器学习,文本分析,泰文字体,分词算法

数据概述:
本数据集是一个现代泰语语料库,包含来自泰国多个网站(主要是新闻网站)的文本数据,总计约5000万tokens。为方便非泰语使用者理解和使用,研究人员在每个句子中添加了分隔符(空格)。数据采集使用Scrapy工具,文本分词使用Pythai模块,文本编码为UTF-8。语料库的数据来源包括维基百科和thaigov.go.th网站,分别采用标准维基百科许可证和泰国政府开放许可协议。

数据用途概述:
该数据集适用于泰语自然语言处理研究、机器翻译、文本挖掘、语言模型训练等多种场景。研究人员可利用此数据集进行泰语分词算法的开发与评估,同时可用于训练和测试泰语处理模型,提升泰语文本分析的准确性和效率。此外,数据集也适合用于泰语语言学研究,帮助探索泰语的语法规则和语言特征。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 134.09 MiB
最后更新 2025年4月27日
创建于 2025年4月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。