数据集

印度商品和服务税预测数据集2024-amnydv17

印度商品和服务税预测数据集2024-amnydv17 数据来源：互联网公开数据标签：GST,预测模型,分类,税务,印度,数据科学,机器学习,商业合规,欺诈检测

数据概述：本数据集包含四个文件，用于训练和评估一个二分类模型，以基于GST-ID数据预测特定结果。模型的目标是根据GST相关数据的特征，将每个条目分类为两个类别之一（二分类）。数据集包括以下四个文件：

X_train：描述：该文件包含训练特征数据。每一行代表一个特定的GST-ID记录，每一列代表与该GST-ID相关实体（企业或个人）的特征。结构：行代表单个观测值，列包含不同的特征（例如财务细节、交易历史、申报模式等）。用途：通过提供分类所需的特征用于训练模型。

Y_train：描述：该文件包含与X_train数据集每个记录对应的二元目标标签。标签代表我们希望预测的结果，例如一个GST-ID是否属于某一特定类别（如合规与非合规、欺诈与真实等）。结构：一个二元值（0或1）的单一列，其中每一行对应X_train中的相应行。用途：这些是用于监督学习的地面真值标签。

X_test：描述：该文件包含用于测试模型性能的特征数据。与X_train类似，每一行代表一个GST-ID及其相关特征。结构：与X_train相同，但这些是未见过的记录，未包含在训练过程中。用途：用于评估模型对新数据的泛化能力。

Y_test：描述：该文件包含X_test数据集中记录的实际二元标签。这些标签用于将模型的预测结果与真实值进行比较。结构：一个对应X_test每一行的二元标签列。用途：这些标签用于计算模型的性能指标，如准确性、精确率、召回率和F1分数。

目标变量（Y_train/Y_test）： 0：负类（例如，非合规，欺诈）。 1：正类（例如，合规，真实）。

模型目的：预测模型旨在根据GST申报和财务模式的历史数据和特征，将每个GST-ID分类为两个二元类别之一。这有助于识别潜在问题，如非合规或欺诈行为。

数据与资源

versions_20250407075733.zipZIP
69.69 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	69.69 MiB
最后更新	2025年5月31日
创建于	2025年5月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

印度商品和服务税预测数据集2024-amnydv17

数据与资源

附加信息

注册成功！