Reddit_Comments_Dataset_文本风格迁移任务评论数据集

数据集概述

本数据集为文本风格迁移任务准备,包含Reddit评论及其正式语言翻译。数据来自20个Subreddits,通过GPT-2筛选高困惑度评论进行翻译,分为原始评论、带标签翻译及带风格示例的翻译文件,共5个文件,支持风格迁移模型训练与评估。

文件详解

  • reddit_comments.csv
  • 文件格式:CSV
  • 字段映射介绍:包含subreddit(子版块名)、id(评论ID)、submission_id(帖子ID)、body(评论内容)、created_utc(时间戳)、parent_id(父评论/帖子ID)、permalink(评论链接)、token_size(GPT-2分词数量)、perplexity(GPT-2困惑度),仅保留10-512分词、非移除/删除且无URL的评论。
  • training_labeled.csv、eval_labeled.csv
  • 文件格式:CSV
  • 字段映射介绍:包含Subreddit(子版块名)、Original Comment(原始评论)、Formal Comment(正式翻译评论),筛选自每个Subreddit中GPT-2困惑度最高的150条评论。
  • training_labeled_with_style_samples.json、eval_labeled_with_style_samples.json
  • 文件格式:JSON
  • 字段映射介绍:每条数据含input_sentence(原始评论)、style_samples(同子版块的3条示例评论)、results_sentence(正式翻译评论)、subreddit(子版块名),用于基于示例的风格迁移训练。

适用场景

  • 文本风格迁移模型训练:利用带标签文件训练模型实现非正式到正式语言的风格转换。
  • 风格迁移评估:通过评估集验证模型在不同Subreddit评论风格上的迁移效果。
  • 基于示例的风格迁移研究:使用带风格示例的文件,探索依赖参考示例的风格迁移方法。
  • 自然语言处理任务优化:为对话系统、文本生成等任务提供风格多样化的训练数据。
  • 社交媒体文本分析:分析Reddit评论的风格特征及其与困惑度的关联。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 19.79 MiB
最后更新 2026年1月21日
创建于 2026年1月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。