BrajText_Saar_Braj语言文化文本预处理数据集

数据集概述

本数据集包含经过预处理的Braj语言文化文本数据,重点关注印度Braj地区的霍利节以及拉达与克里希纳的相关故事。数据源自Manmandir Santhans网站,采用混合预处理技术识别并处理了停用词、特殊字符和数字。经过清洗和预处理的BrajText-Saar数据集适用于文化文本分析、模式挖掘和自然语言处理任务。数据集包含两个文本文件。

文件详解

  • BrajText-Saar.txt
  • 文件格式:TXT
  • 字段映射介绍:包含经过清洗和预处理的Braj语言文化文本内容,主要涉及Braj地区的霍利节庆祝活动以及拉达与克里希纳的故事叙述。
  • Braj_Stopwords_N_S_List.txt
  • 文件格式:TXT
  • 字段映射介绍:包含在预处理过程中识别出的Braj语言停用词、特殊字符和数字列表,用于支持文本分析中的特征筛选。

数据来源

Manmandir Santhans网站

适用场景

  • 文化文本分析:研究Braj地区霍利节及相关神话故事中的情感表达、社会价值观和象征意义。
  • 印度区域语言处理:作为Braj语言的数字化资源,支持该语言的文本挖掘和自然语言处理研究。
  • 模式挖掘与特征分析:利用预处理后的文本数据,探索文化文本中的语言模式和词汇特征。
  • 跨文化计算研究:为计算人文领域提供结构化的文化文本数据,促进对印度文化多样性的量化分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.04 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。