数据集

亚马逊机器学习挑战赛2024黑客松图像特征提取数据集

亚马逊机器学习挑战赛2024黑客松图像特征提取数据集数据来源：互联网公开数据标签：图像特征提取,机器学习,产品信息,电子商务,健康医疗,内容审核

数据概述：本数据集用于亚马逊机器学习挑战赛2024黑客松，旨在创建一个能够从图像中提取实体值的机器学习模型。数据集包含产品图像的链接、产品类别代码、产品实体名称及其对应的实体值，适用于医疗健康、电子商务和内容审核等领域，其中实体值包括产品重量、体积、电压、功率、尺寸等关键信息。

数据用途概述：该数据集适用于机器学习模型的训练和评估，可以用于开发能够从图像中提取关键产品信息的算法。这有助于提高数字市场中产品的详细描述，为用户提供更准确的产品信息。此外，该数据集也适用于学术研究和教育培训，帮助研究人员和学习者理解图像特征提取技术的应用和重要性。

举例：数据集中包含以下字段： 1. index: 数据样本的唯一标识符。 2. image_link: 产品图像的公共URL链接。 3. group_id: 产品的类别代码。 4. entity_name: 产品实体名称，例如“item_weight”。 5. entity_value: 产品实体值，例如“34 gram”。

输出格式要求：输出文件应为CSV格式，包含以下两列： 1. index: 数据样本的唯一标识符，需与测试记录的索引匹配。 2. prediction: 预测字符串，格式为“x unit”，其中x为浮点数，unit为允许的单位之一（单位列表见附录）。例如：“2 gram”，“12.5 centimetre”，“2.56 ounce”。

文件描述： - dataset/train.csv: 训练文件，包含标签（entity_value）。 - dataset/test.csv: 测试文件，不包含标签（entity_value），需生成预测结果并格式化输出文件，使其与sample_test_out.csv一致。 - dataset/sample_test.csv: 样本测试输入文件。 - dataset/sample_test_out.csv: 样本测试输出文件，输出格式需与之完全一致。 - src/sanity.py: 用于确保最终输出文件通过所有格式检查的sanity checker脚本。 - src/utils.py: 包含用于从image_link下载图像的辅助函数。 - src/constants.py: 包含每种实体类型的允许单位列表。 - sample_code.py: 可选的示例代码，用于生成符合格式的输出文件。

数据与资源

亚马逊机器学习挑战赛2024黑客松图像特征提取数据集.zipZIP
4.93 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	4.93 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。