网络海量数据俳句文本挖掘与人工校验数据集-2023年10月

网络海量数据俳句文本挖掘与人工校验数据集-2023年10月 数据来源:互联网公开数据 标签:俳句,诗歌,文本挖掘,自然语言处理,诗歌创作,文本分析,机器学习,网络数据 数据概述: 本数据集收录了通过网络扫描挖掘出的俳句候选文本,并结合人工校验结果。数据来源于2023年10月对33亿个网页的扫描,扫描目标是识别符合俳句格式(5-7-5音节结构)的三行连续文本。总共识别出21.7万条俳句候选文本,并从中随机抽取了1068条样本进行了人工校验,以确定其是否为有效的俳句。 数据包含以下关键组成部分: 1. 网络扫描结果:21.7万条俳句候选文本。 2. 人工校验样本:1068条样本,附带人工标注的有效性标签(即是否为真正的俳句)。 3. 生成数据所用的Python代码及相关支持文件。 数据为研究俳句创作、文本挖掘、自然语言处理等领域提供了宝贵的素材。

数据用途概述: 该数据集可用于多种研究和应用场景。研究人员可以使用该数据训练和评估自动俳句生成模型,探索文本挖掘技术在诗歌创作中的应用。语言学研究者可以利用数据分析俳句的创作规律和特点。此外,该数据集也可用于教育目的,例如帮助学生理解俳句的结构和创作技巧,或者作为自然语言处理课程的实践案例。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 89.94 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。