英语双名词短语组合性判断数据集-rtatman

英语双名词短语组合性判断数据集-rtatman 数据来源:互联网公开数据 标签:语言学,组合性,短语,名词,人类判断,数据集,研究

数据概述: 本数据集包含人类对常见英语双名词短语组合性的判断,涉及短语的字面意义与其合成意义之间的关系。数据集由两部分组成:汇总的人类判断数据和单个评判者的注释。所有的判断都在0到5的评分范围内,其中0表示“非字面意义”,5表示“字面意义”。

数据用途概述: 该数据集适用于语言学研究、自然语言处理、语义分析等多个场景。研究人员可以通过分析数据来探索组合性在双名词短语中的表现模式;教育者可以利用这些数据进行语言学或自然语言处理的教学;数据科学家可以将这些判断作为训练模型的基准数据,预测其他双名词短语的组合性。此外,该数据集还可以用于验证语言学假设,例如词语频率与其字面使用频率之间的关系。

举例: 数据集中包含评分从0到5的大量双名词短语,如“The red apple”和“The Big Apple”。通过比较这些评分,可以识别哪些短语是字面意义(评分高),哪些短语是非字面意义(评分低)。例如,“The red apple”评分接近5,表示其组合性为字面意义;而“The Big Apple”评分较低,表示其组合性为非字面意义,实际指的是“纽约市”。这种评分模式可以帮助研究者发现语言中组合性的规律和模式。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.14 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。