Language_Science_Press_Paperhive社区校对评论数据集

数据集概述

本数据集包含Language Science Press图书在Paperhive平台上的社区校对评论数据,通过脚本抓取、处理并存储为TSV、SQLite格式文件,同时提供分析脚本及生成的可视化图表,支持对校对评论的统计与分析。

文件详解

  • 评论数据文件(TSV格式):
  • 如85.tsv、209.tsv等53个.tsv文件,文件名中的数字对应LangSci图书ID,内容包含评论ID、用户标识、页码、字符位置、评论内容等字段(示例字段:图书ID、评论序号、用户ID、页码、起始字符、结束字符、评论建议)
  • 可视化图表文件(PNG格式):
  • 如commentsperbook.png(每本书评论数)、booklengths.png(图书长度)、pagesperproofreader_p.png(校对者处理页数)等23个.png文件,展示评论分布、校对者贡献等统计结果
  • 数据库文件:
  • allcomments.sqlite:SQLite数据库文件,存储所有校对评论数据
  • 处理脚本文件:
  • paperhive2tsv.py:Python脚本,用于从Paperhive抓取评论数据并生成TSV文件
  • tsv2sqlite.sh:Shell脚本,将TSV文件加载到SQLite数据库
  • analyzeCPR.py:Python脚本,用于生成可视化分析图表

适用场景

  • 出版行业研究:分析学术图书社区校对的参与度与评论分布特征
  • 语料库语言学研究:基于校对评论构建学术文本纠错语料库
  • 开放科学实践研究:探究社区协作校对模式对学术出版质量的影响
  • 数据可视化应用:利用评论数据及图表分析校对工作的效率与贡献分布
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 14.62 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。