旁遮普语沙木基语料库词频统计数据集

旁遮普语沙木基语料库词频统计数据集 数据来源:互联网公开数据 标签:旁遮普语,沙木基语,语言学,词频统计,文本分析,自然语言处理,语料库

数据概述: 本数据集基于从互联网收集的旁遮普语沙木基语料库构建而成,包含单字词(unigram)和双字词(bigram)的频率统计信息。

数据文件包括:

unigram-p.csv:包含50,000个单字词及其词频。 bigram-csv.txt:包含55,766个双字词及其词频。 该数据集由 Hamza Anwar, Manesh Vaswani 和 Tafseer Ahmed 制作。

数据用途概述: 该数据集适用于多种语言学研究和自然语言处理应用,包括词频分析、文本挖掘、语言模型构建、机器翻译等。研究人员可以利用此数据研究旁遮普语的词汇分布规律,构建语言模型,进行文本生成和分析,以及探索语言演变趋势。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.5 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。