地理位置匹配数据集

地理位置匹配数据集_Geolocation_Matching_Dataset

数据来源:互联网公开数据

标签:地理位置, 实体匹配, 文本相似度, 坐标距离, 数据融合, 机器学习, 地理信息系统, 匹配预测

数据概述: 该数据集包含从不同来源收集的地理位置相关实体的数据,旨在用于实体匹配任务。主要特征如下: 时间跨度:数据未明确标注时间信息,可视为静态数据集。 地理范围:数据覆盖范围未具体说明,但从地名和国家缩写(BE)推测,可能涉及比利时地区。 数据维度:数据集包括两组实体(实体1和实体2)的多个属性,包括: id_1, name_1, latitude_1, longitude_1: 实体1的ID、名称、纬度和经度。 id_2, name_2, latitude_2, longitude_2: 实体2的ID、名称、纬度和经度。 feat_incl: 特征是否包含的标志。 latdiff, londiff: 纬度和经度的差值。 manhattan, euclidean, haversine: 曼哈顿距离、欧几里得距离、以及Haversine距离。 name_geshs, name_levens, name_jaros, name_len_1, name_len_2, name_nlevens: 基于名称的Gensh、Levenshtein、Jaro相似度,以及名称长度和归一化Levenshtein距离。 cat_match: 类别匹配的指标。 address_geshs, address_levens, address_jaros, address_len_1, address_len_2, address_nlevens: 针对地址的相似度指标。 city_geshs, city_levens, city_jaros, city_len_1, city_len_2, city_nlevens: 针对城市的相似度指标。 state_geshs, state_levens, state_jaros, state_len_1, state_len_2, state_nlevens: 针对州的相似度指标。 zip_geshs, zip_levens, zip_jaros, country_geshs, country_levens, country_jaros: 针对邮编和国家的相似度指标。 url_geshs, url_levens, url_jaros, url_len_1, url_len_2, url_nlevens, phone_geshs, phone_levens, phone_jaros: 针对URL和电话号码的相似度指标。 categories_geshs, categories_levens, categories_jaros, categories_len_1, categories_len_2, categories_nlevens: 针对类别的相似度指标。 text: 包含实体的文本描述,使用[SEP]分隔符分割。 target: 匹配标签,表示两个实体是否匹配(0表示不匹配,1表示匹配)。 数据格式:CSV格式,文件名为test_dataset.csv,方便数据分析和模型训练。 该数据集已对地理位置信息、文本信息及其他相关属性进行了处理,并提供了用于实体匹配的特征。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于地理信息系统(GIS)、实体对齐、信息检索等领域的学术研究,如基于多源信息的实体匹配算法研究。 行业应用:为地图服务、地址数据库、商业智能等行业提供数据支持,尤其在地址清洗、POI(Point of Interest,兴趣点)匹配、地点推荐等方面具备实用价值。 决策支持:支持企业进行客户数据整合、市场分析、供应链管理等决策,提高数据驱动的决策效率。 教育和培训:作为地理信息系统、数据挖掘、机器学习等课程的实训材料,帮助学生和研究人员理解实体匹配的原理和方法。 此数据集特别适合用于探索地理位置信息、文本信息和属性特征在实体匹配中的作用,并构建相应的机器学习模型,实现对实体匹配的自动化和智能化,从而优化决策流程。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 701.89 MiB
最后更新 2026年2月20日
创建于 2026年2月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。