数据集

金融监管文本分类数据集FinancialRegulatoryTextClassificationDataset-atharvaingle

数据来源：互联网公开数据

标签：金融监管, 文本分类, 自然语言处理, 法律文本, 监管文件, 机器学习, 多标签分类, 风险管理

数据概述：该数据集包含来自金融监管机构的公开文件，记录了各类金融监管文本，用于文本分类任务。主要特征如下：时间跨度：数据未标明具体时间，但涵盖了2009年至2019年期间的监管文件。地理范围：数据主要涉及美国金融市场监管，但文件内容可能涉及全球金融活动。数据维度：数据集包含多个CSV文件，核心数据项包括：id（文件唯一标识符），name（文件标题），document_text（文件正文），以及多个类别标签，如“Accounting and Finance”（会计与金融）、“Antitrust”（反垄断）、“Banking”（银行业）等，train_folds_5.csv文件还包含fold（交叉验证折叠）字段，用于模型训练。数据格式：CSV格式，文件包括train.csv（训练集，包含类别标签cat_name），test.csv（测试集），train_processed.csv（处理后的训练集，包含与train_folds_5.csv相同的类别标签），train_folds_5.csv（包含交叉验证折叠信息），sample_submission.csv（提交样例）。数据来源：数据来源于金融监管机构的公开文件，已进行基本的文本提取和标签标注。该数据集适合用于金融监管文本的分类、分析和研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于金融风险管理、合规性分析、法律文本分析等领域的学术研究，如监管文件分类、主题建模、情感分析等。行业应用：为金融机构、律师事务所、合规部门提供数据支持，特别是在合规性审查、风险评估、政策分析等方面。决策支持：支持监管机构的政策制定、执法行动、风险监测，以及金融机构的合规策略优化。教育和培训：作为金融法律、监管科技、自然语言处理等课程的辅助材料，帮助学生和研究人员深入理解金融监管领域。此数据集特别适合用于构建文本分类模型，实现对金融监管文件的自动分类，从而提高效率、降低风险，并深入理解金融监管框架。

数据与资源

versions_20250407020456.zipZIP
38.76 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	38.76 MiB
最后更新	2025年5月29日
创建于	2025年5月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

金融监管文本分类数据集FinancialRegulatoryTextClassificationDataset-atharvaingle

数据与资源

附加信息

注册成功！