地理位置匹配数据集_Geolocation_Matching_Dataset
数据来源:互联网公开数据
标签:地理位置, 实体匹配, 文本相似度, 坐标距离, 数据融合, 机器学习, 地理信息系统, 匹配预测
数据概述:
该数据集包含从不同来源收集的地理位置相关实体的数据,旨在用于实体匹配任务。主要特征如下:
时间跨度:数据未明确标注时间信息,可视为静态数据集。
地理范围:数据覆盖范围未具体说明,但从地名和国家缩写(BE)推测,可能涉及比利时地区。
数据维度:数据集包括两组实体(实体1和实体2)的多个属性,包括:
id_1, name_1, latitude_1, longitude_1: 实体1的ID、名称、纬度和经度。
id_2, name_2, latitude_2, longitude_2: 实体2的ID、名称、纬度和经度。
feat_incl: 特征是否包含的标志。
latdiff, londiff: 纬度和经度的差值。
manhattan, euclidean, haversine: 曼哈顿距离、欧几里得距离、以及Haversine距离。
name_geshs, name_levens, name_jaros, name_len_1, name_len_2, name_nlevens: 基于名称的Gensh、Levenshtein、Jaro相似度,以及名称长度和归一化Levenshtein距离。
cat_match: 类别匹配的指标。
address_geshs, address_levens, address_jaros, address_len_1, address_len_2, address_nlevens: 针对地址的相似度指标。
city_geshs, city_levens, city_jaros, city_len_1, city_len_2, city_nlevens: 针对城市的相似度指标。
state_geshs, state_levens, state_jaros, state_len_1, state_len_2, state_nlevens: 针对州的相似度指标。
zip_geshs, zip_levens, zip_jaros, country_geshs, country_levens, country_jaros: 针对邮编和国家的相似度指标。
url_geshs, url_levens, url_jaros, url_len_1, url_len_2, url_nlevens, phone_geshs, phone_levens, phone_jaros: 针对URL和电话号码的相似度指标。
categories_geshs, categories_levens, categories_jaros, categories_len_1, categories_len_2, categories_nlevens: 针对类别的相似度指标。
text: 包含实体的文本描述,使用[SEP]分隔符分割。
target: 匹配标签,表示两个实体是否匹配(0表示不匹配,1表示匹配)。
数据格式:CSV格式,文件名为test_dataset.csv,方便数据分析和模型训练。
该数据集已对地理位置信息、文本信息及其他相关属性进行了处理,并提供了用于实体匹配的特征。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于地理信息系统(GIS)、实体对齐、信息检索等领域的学术研究,如基于多源信息的实体匹配算法研究。
行业应用:为地图服务、地址数据库、商业智能等行业提供数据支持,尤其在地址清洗、POI(Point of Interest,兴趣点)匹配、地点推荐等方面具备实用价值。
决策支持:支持企业进行客户数据整合、市场分析、供应链管理等决策,提高数据驱动的决策效率。
教育和培训:作为地理信息系统、数据挖掘、机器学习等课程的实训材料,帮助学生和研究人员理解实体匹配的原理和方法。
此数据集特别适合用于探索地理位置信息、文本信息和属性特征在实体匹配中的作用,并构建相应的机器学习模型,实现对实体匹配的自动化和智能化,从而优化决策流程。