故事创作与评价数据集

故事创作与评价数据集 数据来源:互联网公开数据
标签:故事创作,心理学,创造力评估,文本分析,用户画像,个性化推荐,情感分析

数据概述
本数据集来源于《StoriesInTheWild》论文,包含两部分数据,分别存储在 stories.csvratings.csv 两个 CSV 文件中。数据集旨在研究故事创作过程中的作者特征、写作环境以及读者对故事的评价。数据集涵盖了故事文本、作者特征、读者评价等多个维度,为研究故事创作的创作机制、用户画像、文本质量评估提供了丰富的数据支持。

数据集结构说明

  1. stories.csv(故事创作数据)
    stories.csv 文件记录了故事文本及其相关信息,包括作者的特征、写作环境等。主要字段定义如下:

  2. data_type: 故事的主题提示,通常是一个图像或场景描述,用于激发作者创作故事。

  3. story_id: 每个故事的唯一标识符,用于关联其他数据。
  4. story: 故事全文(如果故事是分块创作的,会将各块合并为完整文本)。
  5. story_chunks: 仅适用于分块创作的故事,每个块之间以特殊标记(如 "")分隔。
  6. authorAge: 作者的年龄。
  7. authorGender: 作者的性别。
  8. authorRace: 作者自报的种族/民族背景。
  9. authorEducation: 作者受教育年限(从小学开始计算)。
  10. extraversion: 作者的外向性,基于 TIPI 问卷评估,值域为 [-1, 1]。
  11. agreeableness: 作者的宜人性,基于 TIPI 问卷评估,值域为 [-1, 1]。
  12. conscientiousness: 作者的尽责性,基于 TIPI 问卷评估,值域为 [-1, 1]。
  13. neuroticism: 作者的神经质,基于 TIPI 问卷评估,值域为 [-1, 1]。
  14. openness: 作者的开放性,基于 TIPI 问卷评估,值域为 [-1, 1]。
  15. writing_setup: 作者的写作方式,取值为 allAtOnce(一次性完成)或 inChunks(分块完成)。

  16. ratings.csv(故事评价数据)
    ratings.csv 文件记录了对故事的评价信息,包括评价者的特征和对故事的多维度评分。主要字段定义如下:

  17. AssignmentId: 每次评价的唯一标识符。

  18. RaterId: 评价者的唯一标识符(已匿名化)。
  19. story_data_type: 来自写作任务,故事的主题提示(与 stories.csv 中的 data_type 对应)。
  20. story_writing_setup: 来自写作任务,故事的写作方式(与 stories.csv 中的 writing_setup 对应)。
  21. story_id: 故事的唯一标识符(用于与 stories.csv 中的 story_id 关联)。
  22. story: 评价者所评价的故事文本(与 stories.csv 中的 story 对应)。
  23. raterAge: 评价者的年龄。
  24. raterEducation: 评价者受教育年限(从小学开始计算)。
  25. raterGender: 评价者的性别。
  26. raterRace: 评价者自报的种族/民族背景。
  27. raterOpenness: 评价者的开放性,基于 MiniIPIP 问卷评估,值域为 [-1, 1]。
  28. coherent: 故事的连贯性评分,7 点李克特量表(1 表示完全不连贯,7 表示非常连贯)。
  29. confusing: 故事的困惑性评分,7 点李克特量表(1 表示完全不困惑,7 表示非常困惑)。
  30. creative: 故事的创造力评分,7 点李克特量表(1 表示完全没有创造力,7 表示非常有创造力)。
  31. entertaining: 故事的娱乐性评分,7 点李克特量表(1 表示完全没有娱乐性,7 表示非常有趣)。
  32. grammatical: 故事的语法正确性评分,7 点李克特量表(1 表示语法错误很多,7 表示语法完全正确)。
  33. like: 评价者对故事的喜好程度,7 点李克特量表(1 表示完全不喜欢,7 表示非常喜欢)。

数据用途概述
此数据集适用于多个研究和应用领域,包括但不限于:

  1. 故事创作研究
  2. 分析作者的个性特征(如外向性、宜人性等)对故事创作的影响。
  3. 研究不同写作方式(一次性完成 vs 分块创作)对故事质量的影响。

  4. 文本质量评估

  5. 基于读者评价(连贯性、创造力、娱乐性等),构建故事质量评估模型。
  6. 研究不同读者特征(如开放性、教育背景)对故事评价的影响。

  7. 个性化推荐系统

  8. 结合作者和评价者的特征,构建基于个性化的推荐系统,为用户提供符合其偏好的故事。

  9. 心理学研究

  10. 探索作者和评价者的个性特征(如外向性、开放性)如何影响故事创作和评价过程。
  11. 研究故事主题提示对创作内容和评价结果的影响。

  12. 教育与培训

  13. 用于训练故事创作和文本分析相关的自然语言处理模型。
  14. 帮助教师和学生理解故事创作的规律和技巧。

  15. 创意产业分析

  16. 为创意产业提供关于故事创作和评价的洞察,帮助优化创作流程和市场策略。

数据特征
- 数据规模:具体行数和字段数量需根据实际文件查看,但数据集结构清晰,字段定义明确。
- 数据格式:CSV 格式,便于使用常用数据分析工具(如 Python、Pandas、Excel 等)进行处理。
- 数据质量:字段值经过标准化处理,如个性特征评分统一为 [-1, 1] 范围,评价指标使用 7 点李克特量表。
- 数据多样性:涵盖了作者和评价者的多维度特征,以及故事创作和评价的多场景数据。

通过本数据集,研究人员可以深入探索故事创作与评价的内在机制,为相关领域的理论研究和实践应用提供有力支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.66 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。