印度商品和服务税预测数据集2024-amnydv17
数据来源:互联网公开数据
标签:GST,预测模型,分类,税务,印度,数据科学,机器学习,商业合规,欺诈检测
数据概述:
本数据集包含四个文件,用于训练和评估一个二分类模型,以基于GST-ID数据预测特定结果。模型的目标是根据GST相关数据的特征,将每个条目分类为两个类别之一(二分类)。数据集包括以下四个文件:
X_train:
描述:该文件包含训练特征数据。每一行代表一个特定的GST-ID记录,每一列代表与该GST-ID相关实体(企业或个人)的特征。
结构:行代表单个观测值,列包含不同的特征(例如财务细节、交易历史、申报模式等)。
用途:通过提供分类所需的特征用于训练模型。
Y_train:
描述:该文件包含与X_train数据集每个记录对应的二元目标标签。标签代表我们希望预测的结果,例如一个GST-ID是否属于某一特定类别(如合规与非合规、欺诈与真实等)。
结构:一个二元值(0或1)的单一列,其中每一行对应X_train中的相应行。
用途:这些是用于监督学习的地面真值标签。
X_test:
描述:该文件包含用于测试模型性能的特征数据。与X_train类似,每一行代表一个GST-ID及其相关特征。
结构:与X_train相同,但这些是未见过的记录,未包含在训练过程中。
用途:用于评估模型对新数据的泛化能力。
Y_test:
描述:该文件包含X_test数据集中记录的实际二元标签。这些标签用于将模型的预测结果与真实值进行比较。
结构:一个对应X_test每一行的二元标签列。
用途:这些标签用于计算模型的性能指标,如准确性、精确率、召回率和F1分数。
目标变量(Y_train/Y_test):
0:负类(例如,非合规,欺诈)。
1:正类(例如,合规,真实)。
模型目的:
预测模型旨在根据GST申报和财务模式的历史数据和特征,将每个GST-ID分类为两个二元类别之一。这有助于识别潜在问题,如非合规或欺诈行为。