数据集

网络海量数据俳句文本挖掘与人工校验数据集-2023年10月

网络海量数据俳句文本挖掘与人工校验数据集-2023年10月数据来源：互联网公开数据标签：俳句,诗歌,文本挖掘,自然语言处理,诗歌创作,文本分析,机器学习,网络数据数据概述：本数据集收录了通过网络扫描挖掘出的俳句候选文本，并结合人工校验结果。数据来源于2023年10月对33亿个网页的扫描，扫描目标是识别符合俳句格式（5-7-5音节结构）的三行连续文本。总共识别出21.7万条俳句候选文本，并从中随机抽取了1068条样本进行了人工校验，以确定其是否为有效的俳句。数据包含以下关键组成部分： 1. 网络扫描结果：21.7万条俳句候选文本。 2. 人工校验样本：1068条样本，附带人工标注的有效性标签（即是否为真正的俳句）。 3. 生成数据所用的Python代码及相关支持文件。数据为研究俳句创作、文本挖掘、自然语言处理等领域提供了宝贵的素材。

数据用途概述：该数据集可用于多种研究和应用场景。研究人员可以使用该数据训练和评估自动俳句生成模型，探索文本挖掘技术在诗歌创作中的应用。语言学研究者可以利用数据分析俳句的创作规律和特点。此外，该数据集也可用于教育目的，例如帮助学生理解俳句的结构和创作技巧，或者作为自然语言处理课程的实践案例。

数据与资源

网络海量数据俳句文本挖掘与人工校验数据集-2023年10月.zipZIP
89.94 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	89.94 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

网络海量数据俳句文本挖掘与人工校验数据集-2023年10月

数据与资源

附加信息

注册成功！