找到4个数据集

标签: 网络文本

过滤结果
  • 加泰罗尼亚通用网络爬取语料库2020

    2025年12月4日 30 172 23

    数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...
    packageimg
  • 无监督学习网络文本内容数据集

    2025年10月14日 30 78 35

    无监督学习网络文本内容数据集_Unsupervised_Learning_Web_Content_Dataset 数据来源:互联网公开数据 标签:文本挖掘, 无监督学习, 自然语言处理, 网页内容, 文本预处理, 语料库, 数据清洗, 机器学习 数据概述: 该数据集包含来自网络抓取的文本内容,记录了用于无监督学习模型的网页文本信息。主要特征如下:...
    packageimg
  • 土耳其网络数据集TurkishWebDatasettg-2024-1-denizhanahin

    2025年4月23日 30 15 13

    土耳其网络数据集TurkishWebDatasettg-2024-1-denizhanahin 数据来源:互联网公开数据 标签:网络数据,土耳其,数据集,文本分析,机器学习,自然语言处理,社交媒体,数据挖掘 数据概述: 该数据集包含来自土耳其互联网公开数据的信息,记录了土耳其网络环境下的各类文本数据。主要特征如下:...
    packageimg
  • 斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集

    2025年4月14日 30 179 62

    斯洛文尼亚网络文本类型识别数据集-GINCO1-0训练-测试集 数据来源:互联网公开数据 标签:文本分类,自然语言处理,语料库,斯洛文尼亚语,网络文本,文本类型识别,机器学习,GINCO 1.0,语料 数据概述: 本数据集是基于斯洛文尼亚网络文本类型识别语料库GINCO 1.0构建的训练集和测试集,按照80:20的比例划分。GINCO...
    packageimg