数据集概述
本数据集包含五千三百六十八个英语单词,记录了单词的频率、长度、词性,以及被印度查谟和克什米尔地区大学生、研究生标记为困难的学生数量,为英语单词难度分级研究提供基础数据。
文件详解
- 原始数据文件:
- dataset_english.csv: CSV格式,包含单词、频率(fre)、长度(len)、词性(ps)、标记困难的大学生数量(difficult_ug)、标记困难的研究生数量(difficult_pg)字段,无标记表示未被对应学生群体接触
- 数值转换数据文件:
- dataset_numerical.csv: CSV格式,在原始数据基础上增加词性(POS_n)、单词(words_n)的数值转换字段
- 问卷文档:
- 多个docx格式问卷文件(如English Language Difficulty level Measurement-Questionnaire1.docx、English Language Difficulty level Measurement-QuestionnairePG1.docx等),包含用于收集学生标记结果的英语文本问卷
- 教材压缩包:
- IGNOU English.zip: ZIP格式,包含印度英迪拉·甘地国立开放大学(IGNOU)本科及研究生阶段的英语教材文本
- 其他数据文件:
- word_dataset.csv: CSV格式,未明确具体内容
- dataset_english_with_level.xlsx: XLSX格式,未明确具体内容
适用场景
- 英语教学研究: 分析不同学历学生对英语单词难度的感知差异
- 词汇难度评估: 构建基于学生实际反馈的英语单词难度分级模型
- 教育资源开发: 为英语教材编写、词汇学习工具设计提供难度参考
- 语言认知研究: 探究单词频率、长度、词性等特征与学生难度感知的关联
- 区域教育分析: 研究印度查谟和克什米尔地区学生的英语词汇掌握情况