Appen_Based_产品发布未来信息标注网页数据集

数据集概述

本数据集为标注数据集,包含约三万条网页数据,由众包标注员完成标注。每条网页由四至六名标注员标记是否包含未来产品发布信息,标注结果含置信度评分,基于标注员间一致性及信任分数计算。数据可用于识别网页中的未来产品发布相关文本。

文件详解

  • 压缩文件:
  • 文件名称:product_releases_v1_dataset.csv.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含网页标注数据,涉及字段包括网页内容、标注员数量(judgments列)、标注结果(是否含未来产品发布信息)、标注置信度评分等。

数据来源

Appen平台

适用场景

  • 产品发布趋势预测:识别网页中未来产品发布信息,分析行业产品发布趋势。
  • 文本分类模型训练:用于训练和评估网页文本分类模型,识别未来产品发布相关内容。
  • 众包标注质量分析:基于标注员信任分数和一致性,研究众包标注质量评估方法。
  • 网页内容语义分析:探索网页文本中产品发布信息的语义特征和表达模式。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.04 MiB
最后更新 2026年2月7日
创建于 2026年2月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。