金融合规问答数据集

金融合规问答数据集_Financial_Compliance_Question_Answering_Dataset

数据来源:互联网公开数据

标签:金融合规, 问答系统, 自然语言处理, 文本匹配, 信息检索, 知识图谱, 机器学习, 语料库

数据概述: 该数据集包含来自金融领域合规文档的问答对数据,旨在支持金融合规领域的智能问答系统开发。主要特征如下: 时间跨度:数据未明确标注时间范围,但可视为反映当前金融合规政策及相关知识。 地理范围:数据未限定特定地理区域,但问题和文档内容可能涉及全球金融市场。 数据维度:包括问题(question)、相关文本片段(raw_text)、问题与文本片段的匹配程度(symbol,数值型,表示匹配程度或相关性)、以及最相关的文本片段(best_text_chunk)。数据集包含JSON格式的问答对文件(ObliQA_dev.json, ObliQA_test.json, ObliQA_train.json)和CSV格式的交叉编码器数据文件(cross_encoder_data.csv),以及用于模型训练和推理的PyTorch模型文件(encoder.pt, encoder_2.pt)。 数据格式:主要数据格式为JSON和CSV,其中CSV文件包含结构化的问答对信息,JSON文件包含更丰富的问答数据结构。此外,还包括用于统计的pickle文件(.pkl)和PyTorch模型文件(.pt)。 来源信息:数据来源于金融合规相关的公开文档和问答系统,已进行清洗和标注,以便用于模型训练和评估。 该数据集适合用于金融合规领域的问答系统、文本匹配、信息检索等研究和应用。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、信息检索、问答系统等领域的学术研究,如基于Transformer的问答模型、文本相似度计算、信息抽取等。 行业应用:为金融科技公司、合规部门提供数据支持,应用于智能合规审查、合规风险预警、法规信息查询等系统。 决策支持:支持金融机构的合规风险管理和政策解读,辅助决策制定和流程优化。 教育和培训:作为金融科技、自然语言处理等相关课程的实训素材,帮助学生和研究人员深入理解金融合规领域。 此数据集特别适合用于构建智能金融合规问答系统,提升信息检索效率和合规审查的自动化水平,从而帮助金融机构更好地管理合规风险。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 797.69 MiB
最后更新 2025年10月26日
创建于 2025年10月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。