剪接点是 DNA 序列上的点,在高等生物的蛋白质构建过程中,从这些点去除“不必要的”DNA。该数据集的问题是给定一个 DNA 序列时,识别外显子(插入后保留的 DNA 序列部分)和内含子(剪接的 DNA 序列部分)之间的边界。该问题包含两个子任务:识别外显子/内含子边界(称为 EI 位点)和定义内含子/外显子边界(IE 位点)。(在生物学界,IE 边界被称为“购买者”,EI 边界被称为“捐赠者”)。数据点由 180 个指示二进制变量标识,问题 3 是识别类(EI、IE、Neither),即外显子(插入后保留的 DNA 序列部分)和内含子(剪接的 DNA 序列)。StatLog DNA 数据集是 Irvine 数据库的处理版本。主要区别在于,代表核苷酸(仅 A、G、T、C)的符号变量被 3 个二进制指示变量所取代。因此,原始的 60 个符号属性被更改为 180 个二进制属性。示例的名称已被删除。不确定的示例已被删除(很少,其中 4 个)。此数据集的 StatLog 版本由 Strathclyde 大学的 Ross King 制作。有关原始详细信息,请查阅 Irvine 数据库文档。指示值赋予核苷酸 A、C、G、T,如下所示:
A -> 1 0
0C -> 0 1
0G -> 0 0 1
它将 3 的二进制组合显示为 T -> 0 0 0。使用 60 个变量获得了 180 个变量,即原始数据中的 60 个核苷酸 3 个二进制组合。因变量具有 3 类结构。 EI:外显子内含子:EI 边界数据集作为“供体”:1 IE:内含子外显子:IE 边界数据集作为“受体”:2 均无:无作为数据集:3 0。对于索引 A0、A1、A2:C A3、A4、A5:T 为第 6 个索引 A0、A1、A2:G A3、A4、A5:A 为第 10 个索引 A0、A1、A2:C A3、A4、A5:A 以便更好地理解。已公布。