数据集概述
本数据集包含Language Science Press图书在Paperhive平台上的社区校对评论数据,通过脚本抓取、处理并存储为TSV、SQLite格式文件,同时提供分析脚本及生成的可视化图表,支持对校对评论的统计与分析。
文件详解
- 评论数据文件(TSV格式):
- 如85.tsv、209.tsv等53个.tsv文件,文件名中的数字对应LangSci图书ID,内容包含评论ID、用户标识、页码、字符位置、评论内容等字段(示例字段:图书ID、评论序号、用户ID、页码、起始字符、结束字符、评论建议)
- 可视化图表文件(PNG格式):
- 如commentsperbook.png(每本书评论数)、booklengths.png(图书长度)、pagesperproofreader_p.png(校对者处理页数)等23个.png文件,展示评论分布、校对者贡献等统计结果
- 数据库文件:
- allcomments.sqlite:SQLite数据库文件,存储所有校对评论数据
- 处理脚本文件:
- paperhive2tsv.py:Python脚本,用于从Paperhive抓取评论数据并生成TSV文件
- tsv2sqlite.sh:Shell脚本,将TSV文件加载到SQLite数据库
- analyzeCPR.py:Python脚本,用于生成可视化分析图表
适用场景
- 出版行业研究:分析学术图书社区校对的参与度与评论分布特征
- 语料库语言学研究:基于校对评论构建学术文本纠错语料库
- 开放科学实践研究:探究社区协作校对模式对学术出版质量的影响
- 数据可视化应用:利用评论数据及图表分析校对工作的效率与贡献分布