Urdu_Based乌尔都语攻击性内容数据集及实现代码

数据集概述

本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。

文件详解

  • 数据文件(.xlsx格式,共3个)
  • dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据
  • dataset-tfidf20.xlsx:乌尔都语攻击性内容的TF-IDF(取前20特征)数据
  • dataset-word2vec features.xlsx:乌尔都语攻击性内容的Word2Vec特征数据
  • 代码文件(.py格式,共2个)
  • finaldataextraction.py:数据提取相关的Python代码
  • finalimplementation.py:模型或分析实现相关的Python代码

适用场景

  • 乌尔都语NLP模型复现: 用于重新生成研究论文中关于乌尔都语攻击性内容分析的结果
  • 文本特征工程研究: 对比单字词、TF-IDF、Word2Vec等不同特征在乌尔都语攻击性内容检测中的效果
  • 攻击性语言检测模型优化: 基于现有特征文件扩展乌尔都语攻击性内容检测的研究发现
  • 低资源语言文本分析: 探索乌尔都语等低资源语言的文本处理方法与应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 384.37 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。