谷歌专利短语相似性评估数据集-google
数据来源:互联网公开数据
标签:专利,短语相似性,技术术语,语义匹配,短语分类,自然语言处理,机器学习
数据概述:
本数据集是专注于专利中技术术语的人类评分上下文短语匹配数据集,包含20,000多条短语对及其相似度评分。与其他基准数据集相比,本数据集增加了粒度更细的评分类别,类似于WordNet中的同义词、反义词、超义词、下义词、整体词、部分词、领域相关等类别。数据集用于U.S. 专利短语匹配竞赛。
数据集生成时重点关注以下几点:
1. 短语消歧:某些关键词和短语可能具有多种不同的含义。例如,“mouse”既可以指动物,也可以指计算机输入设备。为了帮助消歧,每个短语对都附带Cooperative Patent Classification (CPC) 类别。
2. 对抗性关键词匹配:存在一些短语,虽然包含匹配的关键词,但其他方面可能无关(例如,“container section” → “kitchen container”,“offset table” → “table fan”)。许多模型在这种数据上表现不佳(例如,词包模型)。我们的数据集旨在包含许多这样的例子。
3. 难负样本:为了改进当前最先进的语言模型,我们使用BERT模型生成了一些目标短语。因此,我们的数据集包含许多BERT可能会错误地识别为非常相似的短语对,但实际上它们可能不相关。
每个数据集条目包含两个短语(锚点短语和目标短语)、上下文CPC类别、评分类别和相似度评分。评分类别的含义如下:
- 4 - 非常高
- 3 - 高
- 2 - 中等
- 2a - 下义词(广义-狭义匹配)
- 2b - 超义词(狭义-广义匹配)
- 2c - 结构匹配
- 1 - 低
- 1a - 反义词
- 1b - 部分词(部分)
- 1c - 整体词(整体)
- 1d - 其他高层领域匹配
- 0 - 无关
数据集分为训练集(75%)、验证集(5%)和测试集(20%)。在分割数据时,所有相同锚点短语的条目保持在同一组中。有106个不同的上下文CPC类别,所有类别都在训练集中有代表。
更多关于数据集的详细信息可在相应的论文中找到。使用该数据集时请引用该论文。