HuggingFace平台模型元数据与下载量分析数据集-2021年6月
数据来源:互联网公开数据
标签:Hugging Face, 模型, 机器学习, 自然语言处理, 计算机视觉, 模型库, 元数据, 下载量, 文本分析
数据概述:
本数据集包含了Hugging Face模型中心(Model Hub)上超过10,000个公开上传模型的元数据信息,数据采集时间为2021年6月15日至20日。数据集通过Hugging Face官方提供的API生成,旨在为用户提供对Hugging Face模型库的深入分析与研究基础。
数据集主要包含两个文件:
1. huggingface_models.csv:主文件,包含模型的元数据信息,例如模型名称、标签、最后修改时间、文件名等。
2. huggingface_modelcard_readme.csv:详细文件,包含每个模型README.md文件的内容,README内容以Markdown格式存储,提供关于模型训练、基准测试和作者说明的详细信息。
huggingface_models.csv字段说明:
* modelId:模型在Hugging Face网站上的唯一标识符。
* lastModified:模型最后修改的时间。
* tags:与模型相关的标签(由维护者提供)。
* pipeline_tag:如果存在,表示该模型可用于的pipeline类型。
* files:模型库中可用的文件列表。
* publishedBy:根据modelId生成的自定义列,标识模型的发布者。
* downloads_last_month:模型上个月的下载次数。
* library:模型所属的库名称,例如:transformers, spacy, timm等。
huggingface_modelcard_readme.csv字段说明:
* modelId:模型在Hugging Face网站上的唯一标识符。
* modelCard:模型的README内容,包含模型训练方式、基准测试结果和作者说明等信息。
数据用途概述:
该数据集适用于多种研究和应用场景,包括:模型趋势分析、模型性能评估、模型标签和pipeline分析、模型库生态研究等。数据使用者可以利用此数据进行模型检索、筛选、比较,探索不同模型之间的关系,分析模型下载量与模型特征之间的关联,以及深入研究Hugging Face模型库的发展趋势。此外,该数据集也可用于机器学习、自然语言处理、计算机视觉等领域的教学与研究。