数据集

Reddit社区百万笑话文本数据集-thedevastator

Reddit社区百万笑话文本数据集-thedevastator 数据来源：互联网公开数据标签：笑话,幽默,Reddit,文本数据,自然语言处理,机器学习,情感分析,内容生成,笑话生成,文本分类数据概述：本数据集包含从Reddit社区的r/Jokes子版块抓取的100万条笑话帖子。数据以CSV格式存储，主要字段包括：标题（笑话的标题或开场白）、正文（用户点击帖子内容后显示的笑话内容，即笑话的包袱或结局，但部分帖子正文为空值）、得分（帖子的总投票数，即正向评价的数量）。需要注意的是，由于Reddit的投票机制，帖子的最低得分为0，这可能意味着帖子被用户投了负票。

数据用途概述：该数据集可用于多种研究和应用场景，包括： 1. 探索性数据分析：通过分析标题、正文和得分等特征，尝试理解影响笑话幽默感的因素。 2. 笑话幽默程度分类：基于帖子的投票得分，建立模型来预测笑话的幽默程度（例如，判断一个笑话是“好笑”还是“不好笑”）。 3. 笑话生成：利用语言生成模型（如GPT系列模型）训练，生成新的笑话。 4. 有趣笑话生成：这是一个更具挑战性的任务，目标是训练模型生成更具幽默感的笑话。

数据与资源

versions_20250411072749.zipZIP
92.92 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	92.92 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Reddit社区百万笑话文本数据集-thedevastator

数据与资源

附加信息

注册成功！