找到345个数据集

标签: 维基百科

过滤结果
  • 维基百科双语单标签语料库

    2025年11月28日   

    数据集概述 该数据集是一个西班牙语-英语双语单标签语料库,包含英文文档3019篇、西班牙文文档832篇,覆盖文化艺术、地理与地点、数学与逻辑三类主题,可用于自然语言处理相关研究。 文件详解 文件名称: wikipedia_corpus.zip 文件格式: ZIP (.zip) 内容说明: 可能包含语料库的核心数据文件,如文本数据及分类标签等 文件名称:...
    packageimg
  • 印尼语_英语混合语料数据集

    2025年11月28日   

    数据集概述 该数据集包含印尼语与英语混合的双语文本,用于支持情感分析和词性标注任务。数据来源包括Google Play Store应用评论、印尼维基百科及英语维基百科,分预训练语料库、情感分析语料库和词性标注语料库三部分,覆盖真实场景下的混合语言表达。 文件详解 情感分析语料库文件(位于Code Mixed Dataset/Sentiment...
    packageimg
  • 生物医学信息本体概念嵌入语义相关性测量数据集

    2025年11月28日   

    数据集概述 本数据集围绕生物医学信息本体的概念嵌入与语义相关性测量展开,通过扩展UMLS2015AB中CUI术语的维基百科定义信息,采用文档嵌入技术生成术语向量表示,为生物医学领域语义相似性模型研究提供数据支持。 文件详解 文件名称: MRDEF_WIKI_DOC_LABEL_PATH.csv 文件格式: CSV 字段示例:...
    packageimg
  • 基于主题的英文维基百科与推特用户数据集

    2025年11月27日   

    数据集概述 本数据集收集自英文维基百科与推特平台,包含经预处理的维基百科文章文本及推特用户数据。预处理步骤包括词形还原、俚语转换为标准英语、去除停用词,以及维基百科标记语言处理,最终生成纯文本格式内容。 文件详解 文件名称: Wiki_En.rar 文件格式: RAR压缩包 (.rar) 内容说明:...
    packageimg
  • 维基百科文章段落文本数据集

    2025年10月17日   

    维基百科文章段落文本数据集_Wikipedia_Article_Paragraphs_Text 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 语料库, 文本挖掘, 维基百科, 文本语料, 语义分析, 信息检索 数据概述:...
    packageimg
  • 维基百科文章元数据及内容数据集

    2025年10月17日   

    维基百科文章元数据及内容数据集__Wikipedia_Articles_Metadata_and_Content_Dataset 数据来源:互联网公开数据 标签:维基百科, 元数据, 文章标题, 数据分析, 文本挖掘, 知识图谱, 自然语言处理, 数据集 数据概述: 该数据集包含维基百科文章的元数据信息,记录了文章的标题及相关索引。主要特征如下:...
    packageimg
  • 维基百科页面信息数据集

    2025年10月10日   

    维基百科页面信息数据集_Wikipedia_Page_Information_Dataset 数据来源:互联网公开数据 标签:维基百科, 页面信息, 文本数据, 网页抓取, 数据分析, 泰语, 知识图谱, 数据集 数据概述: 该数据集包含来自维基百科的页面信息,记录了维基百科页面相关的元数据,主要特征如下:...
    packageimg
  • 维基百科页面浏览量预测数据集

    2025年8月30日   

    维基百科页面浏览量预测数据集_Wikipedia_Page_Views_Prediction 数据来源:互联网公开数据 标签:维基百科, 页面浏览量, 时间序列分析, 预测, 数据挖掘, 自然语言处理, 统计分析, 机器学习 数据概述: 该数据集包含来自维基百科的页面浏览量数据,记录了不同维基百科页面在特定时间段内的访问量。主要特征如下:...
    packageimg
  • 中文维基百科2019年文本数据集

    2025年8月25日   

    中文维基百科2019年文本数据集_Chinese_Wikipedia_2019_Text_Dataset 数据来源:互联网公开数据 标签:维基百科, 中文, 文本数据, 自然语言处理, 语料库, 文本分析, 语言模型, 知识图谱 数据概述: 该数据集包含来自2019年中文维基百科的文本数据,记录了维基百科上各种主题的中文文章内容。主要特征如下:...
    packageimg
  • 维基百科知识图谱数据集Wiki-DataKnowledgeGraphDataset-berkayozturkx

    2025年4月26日   

    维基百科知识图谱数据集Wiki-DataKnowledgeGraphDataset-berkayozturkx 数据来源:互联网公开数据 标签:知识图谱,维基百科,数据集,语义网络,数据挖掘,自然语言处理,人工智能,信息检索 数据概述: 该数据集包含来自维基百科的知识图谱数据,记录了维基百科中实体的属性和关系。主要特征如下:...
    packageimg
  • 知识图谱实体关系数据集

    2025年8月13日   

    知识图谱实体关系数据集_Knowledge_Graph_Entity_Relation_Dataset 数据来源:互联网公开数据 标签:知识图谱, 实体识别, 关系抽取, 语义分析, 数据挖掘, 自然语言处理, 维基百科, 知识表示 数据概述: 该数据集包含从维基百科提取的知识图谱相关数据,记录了实体、属性、关系等信息。主要特征如下:...
    packageimg
  • 多语言维基百科文章翻译质量评估数据集

    2025年8月11日   

    多语言维基百科文章翻译质量评估数据集_Multilingual_Wikipedia_Article_Translation_Quality_Assessment 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 语言模型, 文本质量评估, 多语言, 维基百科, 数据标注, 自然语言处理 数据概述:...
    packageimg
  • 在线评论毒性分类数据集

    2025年7月30日   

    在线评论毒性分类数据集_Online_Comment_Toxicity_Classification_Dataset 数据来源:互联网公开数据 标签:文本分类, 毒性检测, 情感分析, 自然语言处理, 机器学习, 评论过滤, 多标签分类, 深度学习 数据概述:...
    packageimg
  • 维基百科评论毒性分类数据集

    2025年7月16日   

    维基百科评论毒性分类数据集_Wikipedia_Comments_Toxicity_Classification 数据来源:互联网公开数据 标签:毒性检测, 文本分类, 自然语言处理, 情感分析, 机器学习, 维基百科, 评论分析, 深度学习 数据概述: 该数据集包含来自维基百科的评论文本,记录了不同评论的毒性程度。主要特征如下:...
    packageimg
  • 多语言维基百科评论毒性分析数据集

    2025年7月5日   

    多语言维基百科评论毒性分析数据集_Multilingual_Wikipedia_Comments_Toxicity_Analysis 数据来源:互联网公开数据 标签:毒性检测, 多语言, 文本分类, 自然语言处理, 机器学习, 评论分析, 情感分析, 机器翻译 数据概述:...
    packageimg
  • 英语文本BERT基础模型未分词双字母组合数据集-2019

    2025年6月4日   

    英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:...
    packageimg
  • STEM领域维基百科语料库数据集

    2025年6月4日   

    STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...
    packageimg
  • 维基百科主题与类别数据集

    2025年6月1日   

    维基百科主题与类别数据集 数据来源:互联网公开数据 标签:维基百科,主题标签,类别分类,NLP,文本分析,数据挖掘,知识图谱,元数据,语义分析 数据概述: 本数据集基于维基百科页面标题及其分类信息,包含超过2300万个主题及其相关类别。每个主题(如“Anarchism”)都附带丰富的元数据,包括所属类别(如“Political...
    packageimg
  • 维基百科人物内容数据集

    2025年6月1日   

    维基百科人物内容数据集 数据来源:互联网公开数据 标签:维基百科,人物,内容分析,文本挖掘,知识图谱,自然语言处理,数据分析 数据概述:...
    packageimg
  • 维基百科推广文章数据集

    2025年6月1日   

    维基百科推广文章数据集 数据来源:互联网公开数据 标签:推广文章,维基百科,文本分类,内容分析,数据挖掘,信息质量,自然语言处理 数据概述: 本数据集包含两类文章:一类是被用户标记为“具有推广性语气”的文章(promotional.csv),另一类是被评估为“优质文章”的文章(good.csv)。 - 每篇推广性文章可能带有多个标签,包括但不限于: -...
    packageimg