人类基因组GRCh38-92注释CSV数据集-alfrandom
数据来源:互联网公开数据
标签:基因组学,基因注释,GRCh38,CSV,基因,转录本,外显子,基因组浏览器,生物信息学
数据概述:
本数据集将人类基因组GRCh38.92版本的基因注释信息转换为CSV格式,方便数据科学家进行分析和探索。人类基因组包含约300亿个碱基对,基因注释旨在帮助科学家更好地理解和利用基因组信息。
简单来说,基因组可以被看作是几十条长链(染色体),我们希望了解其不同区域的功能。例如,从染色体Z的X位置到Y位置可能是一个基因D。现实情况更为复杂,一个区域可以在多个层面上进行注释,例如,一个外显子可能是一个转录本的一部分,而转录本又是基因的一部分。
基因组注释通常以GTF(也称为GFF2)或GFT3格式存储。这些格式与表格格式(例如CSV)非常接近,但对于不熟悉它们的人来说,可访问性较低。
这里,我将最新的(GRCh38.92)人类基因组注释转换为纯CSV格式,以鼓励对基因组学感兴趣的数据科学家探索注释中的结构。
转换过程相对简单,可以在gtf2csv仓库中找到,除了简短的描述外,更详细的技术细节可以在gtf2csv.py中找到。
数据用途概述:
该数据集适用于多种基因组学研究和分析场景,包括基因结构分析、转录本分析、外显子分析、基因组可视化等。数据科学家可以利用此数据进行基因组数据探索、开发创新性可视化方法和分析方法,从而促进对人类基因组的理解。此外,该数据集也适用于生物信息学教学和科研,帮助学习者熟悉基因组注释数据的结构和应用。
感谢:
GTF格式的注释从ftp://ftp.ensembl.org/pub/release-92/gtf/homo_sapiens/Homo_sapiens.GRCh38.92.gtf.gz下载。
灵感:
人类基因组注释信息非常丰富,可视化是理解它的关键。虽然存在几个基因组浏览器(例如UCSC基因组浏览器和Ensembl基因组浏览器),但我认为,通过以易于访问的格式向世界各地的每个数据科学家提供此类信息,将创造和共享更多创新的可视化和分析方法,这将使每个人受益。