CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020

数据集概述

本数据集包含巴西联邦审计法院(CGU)网站发布的审计报告原始文本,2020年通过脚本scrape_pdfs.py抓取,用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效,但报告仍可手动获取,含2个文件。

文件详解

  • scrape_pdfs.py
  • 文件格式:.py
  • 字段映射介绍:2020年用于抓取CGU网站审计报告的Python脚本,因网站结构变更已失效
  • text_files.zip
  • 文件格式:.zip
  • 字段映射介绍:压缩包,包含从CGU网站抓取的审计报告原始文本文件

数据来源

论文“A Machine Learning Approach to Analyze and Support Anti-Corruption Policy”

适用场景

  • 反腐败政策文本分析: 利用审计报告原始文本,结合机器学习技术识别腐败风险点与政策漏洞
  • 政府审计数据挖掘: 挖掘CGU审计报告中的高频问题领域与违规模式
  • 公共政策效果评估: 分析审计报告反映的政策执行情况,评估反腐败政策实施效果
  • 自然语言处理模型训练: 以审计报告文本为语料,训练针对政府审计领域的NLP模型
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。