CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020

数据集概述

本数据集包含巴西联邦审计法院（CGU）网站发布的审计报告原始文本，2020年通过脚本scrape_pdfs.py抓取，用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效，但报告仍可手动获取，含2个文件。

文件详解

scrape_pdfs.py
文件格式：.py
字段映射介绍：2020年用于抓取CGU网站审计报告的Python脚本，因网站结构变更已失效
text_files.zip
文件格式：.zip
字段映射介绍：压缩包，包含从CGU网站抓取的审计报告原始文本文件

数据来源

论文“A Machine Learning Approach to Analyze and Support Anti-Corruption Policy”

适用场景

反腐败政策文本分析: 利用审计报告原始文本，结合机器学习技术识别腐败风险点与政策漏洞
政府审计数据挖掘: 挖掘CGU审计报告中的高频问题领域与违规模式
公共政策效果评估: 分析审计报告反映的政策执行情况，评估反腐败政策实施效果
自然语言处理模型训练: 以审计报告文本为语料，训练针对政府审计领域的NLP模型

数据与资源

15129902.zipZIP
407.46 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	407.46 MiB
最后更新	2026年1月26日
创建于	2026年1月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？