数据集

地理位置匹配数据集

地理位置匹配数据集_Geolocation_Matching_Dataset

数据来源：互联网公开数据

标签：地理位置, 实体匹配, 文本相似度, 坐标距离, 数据融合, 机器学习, 地理信息系统, 匹配预测

数据概述：该数据集包含从不同来源收集的地理位置相关实体的数据，旨在用于实体匹配任务。主要特征如下：时间跨度：数据未明确标注时间信息，可视为静态数据集。地理范围：数据覆盖范围未具体说明，但从地名和国家缩写（BE）推测，可能涉及比利时地区。数据维度：数据集包括两组实体（实体1和实体2）的多个属性，包括： id_1, name_1, latitude_1, longitude_1: 实体1的ID、名称、纬度和经度。 id_2, name_2, latitude_2, longitude_2: 实体2的ID、名称、纬度和经度。 feat_incl: 特征是否包含的标志。 latdiff, londiff: 纬度和经度的差值。 manhattan, euclidean, haversine: 曼哈顿距离、欧几里得距离、以及Haversine距离。 name_geshs, name_levens, name_jaros, name_len_1, name_len_2, name_nlevens: 基于名称的Gensh、Levenshtein、Jaro相似度，以及名称长度和归一化Levenshtein距离。 cat_match: 类别匹配的指标。 address_geshs, address_levens, address_jaros, address_len_1, address_len_2, address_nlevens: 针对地址的相似度指标。 city_geshs, city_levens, city_jaros, city_len_1, city_len_2, city_nlevens: 针对城市的相似度指标。 state_geshs, state_levens, state_jaros, state_len_1, state_len_2, state_nlevens: 针对州的相似度指标。 zip_geshs, zip_levens, zip_jaros, country_geshs, country_levens, country_jaros: 针对邮编和国家的相似度指标。 url_geshs, url_levens, url_jaros, url_len_1, url_len_2, url_nlevens, phone_geshs, phone_levens, phone_jaros: 针对URL和电话号码的相似度指标。 categories_geshs, categories_levens, categories_jaros, categories_len_1, categories_len_2, categories_nlevens: 针对类别的相似度指标。 text: 包含实体的文本描述，使用[SEP]分隔符分割。 target: 匹配标签，表示两个实体是否匹配（0表示不匹配，1表示匹配）。数据格式：CSV格式，文件名为test_dataset.csv，方便数据分析和模型训练。该数据集已对地理位置信息、文本信息及其他相关属性进行了处理，并提供了用于实体匹配的特征。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于地理信息系统（GIS）、实体对齐、信息检索等领域的学术研究，如基于多源信息的实体匹配算法研究。行业应用：为地图服务、地址数据库、商业智能等行业提供数据支持，尤其在地址清洗、POI（Point of Interest，兴趣点）匹配、地点推荐等方面具备实用价值。决策支持：支持企业进行客户数据整合、市场分析、供应链管理等决策，提高数据驱动的决策效率。教育和培训：作为地理信息系统、数据挖掘、机器学习等课程的实训材料，帮助学生和研究人员理解实体匹配的原理和方法。此数据集特别适合用于探索地理位置信息、文本信息和属性特征在实体匹配中的作用，并构建相应的机器学习模型，实现对实体匹配的自动化和智能化，从而优化决策流程。

数据与资源

地理位置匹配数据集_Geolocation_Matching_Dataset.zipZIP
701.89 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	701.89 MiB
最后更新	2026年2月20日
创建于	2026年2月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

地理位置匹配数据集

数据与资源

附加信息

注册成功！