网络海量数据俳句文本挖掘与人工校验数据集-2023年10月
数据来源:互联网公开数据
标签:俳句,诗歌,文本挖掘,自然语言处理,诗歌创作,文本分析,机器学习,网络数据
数据概述:
本数据集收录了通过网络扫描挖掘出的俳句候选文本,并结合人工校验结果。数据来源于2023年10月对33亿个网页的扫描,扫描目标是识别符合俳句格式(5-7-5音节结构)的三行连续文本。总共识别出21.7万条俳句候选文本,并从中随机抽取了1068条样本进行了人工校验,以确定其是否为有效的俳句。
数据包含以下关键组成部分:
1. 网络扫描结果:21.7万条俳句候选文本。
2. 人工校验样本:1068条样本,附带人工标注的有效性标签(即是否为真正的俳句)。
3. 生成数据所用的Python代码及相关支持文件。
数据为研究俳句创作、文本挖掘、自然语言处理等领域提供了宝贵的素材。
数据用途概述:
该数据集可用于多种研究和应用场景。研究人员可以使用该数据训练和评估自动俳句生成模型,探索文本挖掘技术在诗歌创作中的应用。语言学研究者可以利用数据分析俳句的创作规律和特点。此外,该数据集也可用于教育目的,例如帮助学生理解俳句的结构和创作技巧,或者作为自然语言处理课程的实践案例。