Sri_Lankan_分类广告匹配检索研究数据集

数据集概述

本数据集为斯里兰卡分类广告市场的广告匹配、语义检索及意图对齐研究开发,包含54489个广告对,来源覆盖五大平台,含人类验证真实样本与LLM生成样本。覆盖电子、车辆、房产三大类及20个子类,支持低资源子类别模型泛化训练评估。

文件详解

  • 文件名称:sri_lankan_classified_ads_matching_dataset_v1.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:每行包含完整的供应与求购广告文本、两类广告的标题和描述、主类别与子类别标签;主类别包括电子(37.17%)、车辆(33.25%)、房产(29.58%),子类别含汽车、货车、房屋等20种;语言涵盖英语(60.34%)、混合语(34.46%)、僧伽罗语(5.20%)、泰米尔语(0.01%)

数据来源

斯里兰卡五大分类广告平台(ikman.lk、patpat.lk、Riyasewana、adz.lk、Hitad.lk)

适用场景

  • 广告匹配模型训练: 用于训练和评估跨供应与求购广告的意图对齐机器学习模型
  • 低资源语义检索研究: 支持稀缺子类别下的广告检索算法泛化能力验证
  • 多语言广告分析: 探索英语、僧伽罗语、泰米尔语及混合语广告的语义表示差异
  • 分类广告市场研究: 分析斯里兰卡电子、车辆、房产类广告的供需特征与分布规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 21.27 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。