斯瓦希里语自然语言处理数据集

斯瓦希里语自然语言处理数据集 数据来源:互联网公开数据
标签:斯瓦希里语,自然语言处理,网络内容检测,机器学习,深度学习,人工智能,文本分类,数据安全

数据概述:
本数据集包含通过网络爬取技术从社交媒体和博客中收集的40,886条斯瓦希里语文本数据。其中,39,612条为正常内容,1,267条为性相关内容,另有7条重复数据已被移除。该数据集为开发自然语言处理模型提供了高质量的训练和测试数据,可用于检测网络性内容。

数据用途概述:
该数据集适用于开发和训练自然语言处理模型,以识别和检测网络性内容。研究人员可利用此数据集进行文本分类、内容安全分析和有害信息识别等研究。此外,数据集还可用于学术研究、内容安全技术开发以及社会学分析,帮助识别和应对网络性内容相关的问题。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.38 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。