SUBTLEX-US英语词频数据集

SUBTLEX-US英语词频数据集 数据来源:互联网公开数据 标签:词频,认知处理,英语,字幕,词形频率,上下文多样性,词性 数据概述: SUBTLEX-US英语词频数据集基于5100万词的美国英语字幕,提供了详细的词频信息。该数据集包括两个主要的频率度量:每百万词的词频(SUBTLEX)和出现在电影中的百分比(SUBTLEX CD)。数据集涵盖了单词的基本信息,包括词形、词频计数、出现的电影数量、词频低频计数、出现的电影低频计数、每百万词的词频、词频的对数、上下文多样性的百分比、上下文多样性的对数、主要词性、主要词性的频率、主要词性的百分比以及所有观察到的词性和各自的频率。 数据用途概述: 该数据集适用于认知科学研究、语言学分析、心理学实验等多种场景。研究人员可以利用此数据集进行词频分析、词性分布研究以及上下文多样性的评估。此外,数据集也适合用于自然语言处理和机器学习领域的特征提取和模型训练。 举例: - 单词:Cat - FREQcount:150000 - CDcount:2000 - FREQlow:100000 - CDlow:1500 - SUBTLWF:2941.20 - Lg10WF:5.1761 - SUBTLCD:23.81 - Lg10CD:3.3010 - Dom_PoS_SUBTLEX:NOUN - Freq_dom_PoS_SUBTLEX:120000 - Percentage_dom_PoS:80.00% - All_PoS_SUBTLEX:NOUN, VERB - All_freqs_SUBTLEX:120000, 30000

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.73 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。