Reddit_Comments_Dataset_文本风格迁移任务评论数据集

本数据集为文本风格迁移任务准备，包含Reddit评论及其正式语言翻译。数据来自20个Subreddits，通过GPT-2筛选高困惑度评论进行翻译，分为原始评论、带标签翻译及带风格示例的翻译文件，共5个文件，支持风格迁移模型训练与评估。

reddit_comments.csv
文件格式：CSV
字段映射介绍：包含subreddit（子版块名）、id（评论ID）、submission_id（帖子ID）、body（评论内容）、created_utc（时间戳）、parent_id（父评论/帖子ID）、permalink（评论链接）、token_size（GPT-2分词数量）、perplexity（GPT-2困惑度），仅保留10-512分词、非移除/删除且无URL的评论。
training_labeled.csv、eval_labeled.csv
文件格式：CSV
字段映射介绍：包含Subreddit（子版块名）、Original Comment（原始评论）、Formal Comment（正式翻译评论），筛选自每个Subreddit中GPT-2困惑度最高的150条评论。
training_labeled_with_style_samples.json、eval_labeled_with_style_samples.json
文件格式：JSON
字段映射介绍：每条数据含input_sentence（原始评论）、style_samples（同子版块的3条示例评论）、results_sentence（正式翻译评论）、subreddit（子版块名），用于基于示例的风格迁移训练。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	19.79 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。