数据集

BrajText_Saar_Braj语言文化文本预处理数据集

数据集概述

本数据集包含经过预处理的Braj语言文化文本数据，重点关注印度Braj地区的霍利节以及拉达与克里希纳的相关故事。数据源自Manmandir Santhans网站，采用混合预处理技术识别并处理了停用词、特殊字符和数字。经过清洗和预处理的BrajText-Saar数据集适用于文化文本分析、模式挖掘和自然语言处理任务。数据集包含两个文本文件。

文件详解

BrajText-Saar.txt
文件格式：TXT
字段映射介绍：包含经过清洗和预处理的Braj语言文化文本内容，主要涉及Braj地区的霍利节庆祝活动以及拉达与克里希纳的故事叙述。
Braj_Stopwords_N_S_List.txt
文件格式：TXT
字段映射介绍：包含在预处理过程中识别出的Braj语言停用词、特殊字符和数字列表，用于支持文本分析中的特征筛选。

数据来源

Manmandir Santhans网站

适用场景

文化文本分析：研究Braj地区霍利节及相关神话故事中的情感表达、社会价值观和象征意义。
印度区域语言处理：作为Braj语言的数字化资源，支持该语言的文本挖掘和自然语言处理研究。
模式挖掘与特征分析：利用预处理后的文本数据，探索文化文本中的语言模式和词汇特征。
跨文化计算研究：为计算人文领域提供结构化的文化文本数据，促进对印度文化多样性的量化分析。

数据与资源

pg624k2rky-1.zipZIP
0.04 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.04 MiB
最后更新	2025年11月26日
创建于	2025年11月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

BrajText_Saar_Braj语言文化文本预处理数据集

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！