(通讯员:刘小磊、尹立林、张浩浩)核心提要:2023年2月22日,学院赵书红教授团队在《Nucleic Acids Research》期刊在线发表了题为“HIBLUP: An integration of statistical models on the BLUP framework for efficient genetic evaluation using big genomic data”的研究成果文章,被期刊评为“突破性进展”论文(BreakthroughArticle)。该研究提出了更适合基因组育种大数据计算的“HE+PCG”新策略,开发出高性能计算新工具HIBLUP,为开展基因组高效选种及精准选配研究和产业应用提供了国产化利器。
2023年2月22日,国际学术期刊《Nucleic Acids Research》刊登了动物遗传育种团队开发的基因组育种大数据计算新工具HIBLUP,中文名为“天权”。论文题为“HIBLUP: An integration of statistical models on the BLUP framework for efficient genetic evaluation using big genomic data”,被期刊评为“突破性进展”论文(BreakthroughArticle)。该研究系统分析了已有遗传评估算法特点,针对现有算法在处理快速增长的基因组育种大数据时面临的瓶颈问题,首创基于V矩阵的“HE+PCG”策略,可完全避免遗传评估计算过程中的大矩阵求逆,开发出更适合基因组育种大数据时代的高性能计算新工具HIBLUP。与现有工具相比,HIBLUP计算速度最快且消耗内存最少,而且基因分型个体在群体中占比越大,优势愈明显。此外,HIBLUP软件功能丰富、操作便捷,可运行于Windows、Linux、macOS等平台,并且全面适配国产Kunpeng(鲲鹏)生态。
图1.HIBLUP论文入选NAR期刊“突破性进展”论文(breakthrough article)
遗传评估是育种的基础,随着基因组育种时代的来临,育种数据规模快速增长,评估算法的计算速度已成为育种中的关键限制因素。遗传评估主要包括方差组分估计及育种值求解两个步骤,其中方差组分估计的计算复杂度高,通常数月或一年更新一次;育种值求解复杂度相对较低,需要日常计算更新。目前,国际现有育种工具(如丹麦的DMU、美国的BLUPF90、英国的ASReml等)采用的评估算法都是以混合模型方程组(Mixedmodelequation, MME)为核心,即MME策略,需要求解个体关系矩阵和MME左手项(Lefthandside, LHS)的逆矩阵(如图2所示)。传统育种利用系谱构建个体亲缘关系矩阵,评估过程涉及的矩阵极其稀疏,FSPAK算法(美国专利)能够以极快速度求解稀疏矩阵LHS的逆矩阵,是基于系谱信息的传统育种计算必不可少的核心程序。然而,随着基因组育种时代的来临,个体亲缘关系矩阵构建逐渐由系谱过渡到基因组信息,关系矩阵及LHS矩阵也相应由全稀疏转变为半稠密或全稠密,FSPAK算法并不适用于稠密矩阵运算,其劣势逐渐显现,虽然FSPAK团队针对性地做出了优化,例如,推出了能够自动鉴别稀疏及稠密块的FSPAK升级版“YAMS”,以及利用区分核心群和非核心群的方式近似求解基因组个体关系逆矩阵的“APY”策略等,一定程度上提升了数据处理能力,但仍然依赖MME框架,无法避免多次大矩阵的求逆运算,当基因分型个体规模累计到数十万时,MME策略面临计算效率低及内存需求大的双重问题,并不能适应基因组大数据时代的育种计算需求。为解决这一难题,HIBLUP首创基于方差协方差V矩阵的“HE+PCG”策略,即利用HE回归法估计方差组分,采用基于V矩阵的PCG迭代法估计育种值(如图2所示),可完全避免遗传评估计算过程中的大矩阵求逆,并且V矩阵的维度(有表型个体数)远低于MME方程的维度(所有个体数×遗传随机效应个数)。因此,无论是计算效率还是内存需求上,HIBLUP全面优于基于MME策略的现有工具,更适合基因组育种时代的大数据计算。
图2.HIBLUP计算策略与国外现有工具MME计算策略的比较。针对基因组大数据的计算特点,HIBLUP首创基于V矩阵的“HE+PCG”策略,可完全避免遗传评估计算过程中的大矩阵求逆,且V矩阵的维度相比于MME方程更小,尤其适用于多随机效应模型,在计算效率和内存需求上,HIBLUP全面优于现有育种计算工具。
HIBLUP针对不同平台链接了华为KML、IntelMKL、OpenBLAS等高性能矩阵数学计算库,结合OpenMP等多种并行技术提升计算效率,同时运用内存映射、单双精度混合运算等技术,大大降低计算过程中的内存消耗。如图3所示,与国际知名育种工具相比,HIBLUP在个体亲缘关系矩阵构建、单性状及多性状模型拟合上,均具有明显的优势,计算速度最快,内存消耗最少。通过模拟UKB级别大数据(50万个体、100万标记)进行测试发现,HIBLUP采用的“HE+PCG”策略能够在1小时完成方差组分估计及育种值求解,其他软件需要长达数周甚至数月的时间。此外,通过模拟不同表型个体数以及不同基因型个体占比的多种组合方式,对比不同软件拟合SSGBLUP模型的效率时发现,基因分型个体在群体中占比越大,HIBLUP的计算性能优势愈明显。
图3.HIBLUP新工具与国外现有工具计算时间及内存消耗对比。测试数据集的群体大小为10000,多性状模型中性状个数为2,均采用32线程并行运算,统一采用GBLUP模型。NA表示对应软件未实现该功能模块。
HIBLUP软件自2018年初全国畜牧总站组织基因组育种算法交流时启动研发,历经5年,在功能模块、计算性能、用户体验等方面不断升级完善,目前已被来自全球50多个国家的用户使用。HIBLUP具备丰富的遗传分析功能,包含常用的单性状模型、重复记录模型、多性状模型等,支持环境互作、遗传互作、环境与遗传互作等分析,是目前唯一兼具基因组选种及基因组精准选配功能的育种计算工具。HIBLUP不仅可运行于Windows、Linux、MacOS等国外平台,而且全面适配国产华为Kunpeng(鲲鹏)生态。目前,HIBLUP已在扬翔、中粮、海大、金旭等多个大型农牧企业应用,为我国种猪基因组高效选育,以及三元商品猪生产精准选配提供了国产化新工具。
安博·体育(China)官方网站博士后尹立林和武汉理工大学博士生张浩浩为论文共同第一作者,安博·体育(China)官方网站赵书红教授、刘小磊教授和李新云教授为论文共同通讯作者。该研究受到国家重点研发计划青年科学家项目、国家自然科学基金、国家生猪体系岗位科学家项目的资助。
HIBLUP软件下载及使用教程网站见:https://www.hiblup.com
原文链接:https://doi.org/10.1093/nar/gkad074