故事创作与评价数据集
数据来源:互联网公开数据
标签:故事创作,心理学,创造力评估,文本分析,用户画像,个性化推荐,情感分析
数据概述
本数据集来源于《StoriesInTheWild》论文,包含两部分数据,分别存储在 stories.csv 和 ratings.csv 两个 CSV 文件中。数据集旨在研究故事创作过程中的作者特征、写作环境以及读者对故事的评价。数据集涵盖了故事文本、作者特征、读者评价等多个维度,为研究故事创作的创作机制、用户画像、文本质量评估提供了丰富的数据支持。
数据集结构说明
-
stories.csv(故事创作数据)
stories.csv 文件记录了故事文本及其相关信息,包括作者的特征、写作环境等。主要字段定义如下:
-
data_type: 故事的主题提示,通常是一个图像或场景描述,用于激发作者创作故事。
- story_id: 每个故事的唯一标识符,用于关联其他数据。
- story: 故事全文(如果故事是分块创作的,会将各块合并为完整文本)。
- story_chunks: 仅适用于分块创作的故事,每个块之间以特殊标记(如
"")分隔。
- authorAge: 作者的年龄。
- authorGender: 作者的性别。
- authorRace: 作者自报的种族/民族背景。
- authorEducation: 作者受教育年限(从小学开始计算)。
- extraversion: 作者的外向性,基于 TIPI 问卷评估,值域为 [-1, 1]。
- agreeableness: 作者的宜人性,基于 TIPI 问卷评估,值域为 [-1, 1]。
- conscientiousness: 作者的尽责性,基于 TIPI 问卷评估,值域为 [-1, 1]。
- neuroticism: 作者的神经质,基于 TIPI 问卷评估,值域为 [-1, 1]。
- openness: 作者的开放性,基于 TIPI 问卷评估,值域为 [-1, 1]。
-
writing_setup: 作者的写作方式,取值为 allAtOnce(一次性完成)或 inChunks(分块完成)。
-
ratings.csv(故事评价数据)
ratings.csv 文件记录了对故事的评价信息,包括评价者的特征和对故事的多维度评分。主要字段定义如下:
-
AssignmentId: 每次评价的唯一标识符。
- RaterId: 评价者的唯一标识符(已匿名化)。
- story_data_type: 来自写作任务,故事的主题提示(与
stories.csv 中的 data_type 对应)。
- story_writing_setup: 来自写作任务,故事的写作方式(与
stories.csv 中的 writing_setup 对应)。
- story_id: 故事的唯一标识符(用于与
stories.csv 中的 story_id 关联)。
- story: 评价者所评价的故事文本(与
stories.csv 中的 story 对应)。
- raterAge: 评价者的年龄。
- raterEducation: 评价者受教育年限(从小学开始计算)。
- raterGender: 评价者的性别。
- raterRace: 评价者自报的种族/民族背景。
- raterOpenness: 评价者的开放性,基于 MiniIPIP 问卷评估,值域为 [-1, 1]。
- coherent: 故事的连贯性评分,7 点李克特量表(1 表示完全不连贯,7 表示非常连贯)。
- confusing: 故事的困惑性评分,7 点李克特量表(1 表示完全不困惑,7 表示非常困惑)。
- creative: 故事的创造力评分,7 点李克特量表(1 表示完全没有创造力,7 表示非常有创造力)。
- entertaining: 故事的娱乐性评分,7 点李克特量表(1 表示完全没有娱乐性,7 表示非常有趣)。
- grammatical: 故事的语法正确性评分,7 点李克特量表(1 表示语法错误很多,7 表示语法完全正确)。
- like: 评价者对故事的喜好程度,7 点李克特量表(1 表示完全不喜欢,7 表示非常喜欢)。
数据用途概述
此数据集适用于多个研究和应用领域,包括但不限于:
- 故事创作研究
- 分析作者的个性特征(如外向性、宜人性等)对故事创作的影响。
-
研究不同写作方式(一次性完成 vs 分块创作)对故事质量的影响。
-
文本质量评估
- 基于读者评价(连贯性、创造力、娱乐性等),构建故事质量评估模型。
-
研究不同读者特征(如开放性、教育背景)对故事评价的影响。
-
个性化推荐系统
-
结合作者和评价者的特征,构建基于个性化的推荐系统,为用户提供符合其偏好的故事。
-
心理学研究
- 探索作者和评价者的个性特征(如外向性、开放性)如何影响故事创作和评价过程。
-
研究故事主题提示对创作内容和评价结果的影响。
-
教育与培训
- 用于训练故事创作和文本分析相关的自然语言处理模型。
-
帮助教师和学生理解故事创作的规律和技巧。
-
创意产业分析
- 为创意产业提供关于故事创作和评价的洞察,帮助优化创作流程和市场策略。
数据特征
- 数据规模:具体行数和字段数量需根据实际文件查看,但数据集结构清晰,字段定义明确。
- 数据格式:CSV 格式,便于使用常用数据分析工具(如 Python、Pandas、Excel 等)进行处理。
- 数据质量:字段值经过标准化处理,如个性特征评分统一为 [-1, 1] 范围,评价指标使用 7 点李克特量表。
- 数据多样性:涵盖了作者和评价者的多维度特征,以及故事创作和评价的多场景数据。
通过本数据集,研究人员可以深入探索故事创作与评价的内在机制,为相关领域的理论研究和实践应用提供有力支持。