Urdu_Based乌尔都语攻击性内容数据集及实现代码

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Urdu_Based乌尔都语攻击性内容数据集及实现代码

数据集概述

本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件，用于复现研究论文结果并扩展相关发现。数据集共含5个文件，无目录层级，主要分为数据文件和代码文件两类，支持乌尔都语文本的攻击性内容分析任务。

文件详解

数据文件（.xlsx格式，共3个）
dataset-unigram.xlsx：乌尔都语攻击性内容的单字词特征数据
dataset-tfidf20.xlsx：乌尔都语攻击性内容的TF-IDF（取前20特征）数据
dataset-word2vec features.xlsx：乌尔都语攻击性内容的Word2Vec特征数据
代码文件（.py格式，共2个）
finaldataextraction.py：数据提取相关的Python代码
finalimplementation.py：模型或分析实现相关的Python代码

适用场景

乌尔都语NLP模型复现: 用于重新生成研究论文中关于乌尔都语攻击性内容分析的结果
文本特征工程研究: 对比单字词、TF-IDF、Word2Vec等不同特征在乌尔都语攻击性内容检测中的效果
攻击性语言检测模型优化: 基于现有特征文件扩展乌尔都语攻击性内容检测的研究发现
低资源语言文本分析: 探索乌尔都语等低资源语言的文本处理方法与应用

数据与资源

7207438.zipZIP
384.37 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	384.37 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？