Reddit社区百万笑话文本数据集-thedevastator

Reddit社区百万笑话文本数据集-thedevastator 数据来源:互联网公开数据 标签:笑话,幽默,Reddit,文本数据,自然语言处理,机器学习,情感分析,内容生成,笑话生成,文本分类 数据概述: 本数据集包含从Reddit社区的r/Jokes子版块抓取的100万条笑话帖子。数据以CSV格式存储,主要字段包括:标题(笑话的标题或开场白)、正文(用户点击帖子内容后显示的笑话内容,即笑话的包袱或结局,但部分帖子正文为空值)、得分(帖子的总投票数,即正向评价的数量)。需要注意的是,由于Reddit的投票机制,帖子的最低得分为0,这可能意味着帖子被用户投了负票。

数据用途概述: 该数据集可用于多种研究和应用场景,包括: 1. 探索性数据分析:通过分析标题、正文和得分等特征,尝试理解影响笑话幽默感的因素。 2. 笑话幽默程度分类:基于帖子的投票得分,建立模型来预测笑话的幽默程度(例如,判断一个笑话是“好笑”还是“不好笑”)。 3. 笑话生成:利用语言生成模型(如GPT系列模型)训练,生成新的笑话。 4. 有趣笑话生成:这是一个更具挑战性的任务,目标是训练模型生成更具幽默感的笑话。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 92.92 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。