数据集

故事创作与评价数据集

故事创作与评价数据集数据来源：互联网公开数据
标签：故事创作,心理学,创造力评估,文本分析,用户画像,个性化推荐,情感分析

数据概述
本数据集来源于《StoriesInTheWild》论文，包含两部分数据，分别存储在 stories.csv 和 ratings.csv 两个 CSV 文件中。数据集旨在研究故事创作过程中的作者特征、写作环境以及读者对故事的评价。数据集涵盖了故事文本、作者特征、读者评价等多个维度，为研究故事创作的创作机制、用户画像、文本质量评估提供了丰富的数据支持。

数据集结构说明

stories.csv（故事创作数据）
stories.csv 文件记录了故事文本及其相关信息，包括作者的特征、写作环境等。主要字段定义如下：
data_type: 故事的主题提示，通常是一个图像或场景描述，用于激发作者创作故事。
story_id: 每个故事的唯一标识符，用于关联其他数据。
story: 故事全文（如果故事是分块创作的，会将各块合并为完整文本）。
story_chunks: 仅适用于分块创作的故事，每个块之间以特殊标记（如 ""）分隔。
authorAge: 作者的年龄。
authorGender: 作者的性别。
authorRace: 作者自报的种族/民族背景。
authorEducation: 作者受教育年限（从小学开始计算）。
extraversion: 作者的外向性，基于 TIPI 问卷评估，值域为 [-1, 1]。
agreeableness: 作者的宜人性，基于 TIPI 问卷评估，值域为 [-1, 1]。
conscientiousness: 作者的尽责性，基于 TIPI 问卷评估，值域为 [-1, 1]。
neuroticism: 作者的神经质，基于 TIPI 问卷评估，值域为 [-1, 1]。
openness: 作者的开放性，基于 TIPI 问卷评估，值域为 [-1, 1]。
writing_setup: 作者的写作方式，取值为 allAtOnce（一次性完成）或 inChunks（分块完成）。
ratings.csv（故事评价数据）
ratings.csv 文件记录了对故事的评价信息，包括评价者的特征和对故事的多维度评分。主要字段定义如下：
AssignmentId: 每次评价的唯一标识符。
RaterId: 评价者的唯一标识符（已匿名化）。
story_data_type: 来自写作任务，故事的主题提示（与 stories.csv 中的 data_type 对应）。
story_writing_setup: 来自写作任务，故事的写作方式（与 stories.csv 中的 writing_setup 对应）。
story_id: 故事的唯一标识符（用于与 stories.csv 中的 story_id 关联）。
story: 评价者所评价的故事文本（与 stories.csv 中的 story 对应）。
raterAge: 评价者的年龄。
raterEducation: 评价者受教育年限（从小学开始计算）。
raterGender: 评价者的性别。
raterRace: 评价者自报的种族/民族背景。
raterOpenness: 评价者的开放性，基于 MiniIPIP 问卷评估，值域为 [-1, 1]。
coherent: 故事的连贯性评分，7 点李克特量表（1 表示完全不连贯，7 表示非常连贯）。
confusing: 故事的困惑性评分，7 点李克特量表（1 表示完全不困惑，7 表示非常困惑）。
creative: 故事的创造力评分，7 点李克特量表（1 表示完全没有创造力，7 表示非常有创造力）。
entertaining: 故事的娱乐性评分，7 点李克特量表（1 表示完全没有娱乐性，7 表示非常有趣）。
grammatical: 故事的语法正确性评分，7 点李克特量表（1 表示语法错误很多，7 表示语法完全正确）。
like: 评价者对故事的喜好程度，7 点李克特量表（1 表示完全不喜欢，7 表示非常喜欢）。

数据用途概述
此数据集适用于多个研究和应用领域，包括但不限于：

故事创作研究
分析作者的个性特征（如外向性、宜人性等）对故事创作的影响。
研究不同写作方式（一次性完成 vs 分块创作）对故事质量的影响。
文本质量评估
基于读者评价（连贯性、创造力、娱乐性等），构建故事质量评估模型。
研究不同读者特征（如开放性、教育背景）对故事评价的影响。
个性化推荐系统
结合作者和评价者的特征，构建基于个性化的推荐系统，为用户提供符合其偏好的故事。
心理学研究
探索作者和评价者的个性特征（如外向性、开放性）如何影响故事创作和评价过程。
研究故事主题提示对创作内容和评价结果的影响。
教育与培训
用于训练故事创作和文本分析相关的自然语言处理模型。
帮助教师和学生理解故事创作的规律和技巧。
创意产业分析
为创意产业提供关于故事创作和评价的洞察，帮助优化创作流程和市场策略。

数据特征
- 数据规模：具体行数和字段数量需根据实际文件查看，但数据集结构清晰，字段定义明确。
- 数据格式：CSV 格式，便于使用常用数据分析工具（如 Python、Pandas、Excel 等）进行处理。
- 数据质量：字段值经过标准化处理，如个性特征评分统一为 [-1, 1] 范围，评价指标使用 7 点李克特量表。
- 数据多样性：涵盖了作者和评价者的多维度特征，以及故事创作和评价的多场景数据。

通过本数据集，研究人员可以深入探索故事创作与评价的内在机制，为相关领域的理论研究和实践应用提供有力支持。

数据与资源

故事创作与评价数据集.zipZIP
0.66 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.66 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

故事创作与评价数据集

数据与资源

附加信息

注册成功！