数据集概述
本数据集为文本风格迁移任务准备,包含Reddit评论及其正式语言翻译。数据来自20个Subreddits,通过GPT-2筛选高困惑度评论进行翻译,分为原始评论、带标签翻译及带风格示例的翻译文件,共5个文件,支持风格迁移模型训练与评估。
文件详解
- reddit_comments.csv
- 文件格式:CSV
- 字段映射介绍:包含subreddit(子版块名)、id(评论ID)、submission_id(帖子ID)、body(评论内容)、created_utc(时间戳)、parent_id(父评论/帖子ID)、permalink(评论链接)、token_size(GPT-2分词数量)、perplexity(GPT-2困惑度),仅保留10-512分词、非移除/删除且无URL的评论。
- training_labeled.csv、eval_labeled.csv
- 文件格式:CSV
- 字段映射介绍:包含Subreddit(子版块名)、Original Comment(原始评论)、Formal Comment(正式翻译评论),筛选自每个Subreddit中GPT-2困惑度最高的150条评论。
- training_labeled_with_style_samples.json、eval_labeled_with_style_samples.json
- 文件格式:JSON
- 字段映射介绍:每条数据含input_sentence(原始评论)、style_samples(同子版块的3条示例评论)、results_sentence(正式翻译评论)、subreddit(子版块名),用于基于示例的风格迁移训练。
适用场景
- 文本风格迁移模型训练:利用带标签文件训练模型实现非正式到正式语言的风格转换。
- 风格迁移评估:通过评估集验证模型在不同Subreddit评论风格上的迁移效果。
- 基于示例的风格迁移研究:使用带风格示例的文件,探索依赖参考示例的风格迁移方法。
- 自然语言处理任务优化:为对话系统、文本生成等任务提供风格多样化的训练数据。
- 社交媒体文本分析:分析Reddit评论的风格特征及其与困惑度的关联。