说明

Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants

这篇是徐云碧老师2019年发表在《Plant Communications》上的综述。徐老师是农科院作科所以及CIMMYT的分子育种专家,著有《分子数量遗传学》和《分子植物育种》,提出环境型、遗传增益等非常具有指导意义的理论,是真正的行业大佬。最难得的是,他还是行业内的布道者,大力宣传先进知识,实在是业界良心。

这篇综述是从遗传增益的角度来理解GS,或者是说以GS为中心的遗传增益,积淀了徐老师大量的观点和成果。除了提炼要点,我也会参杂一点自己的理解和看法。

1.前言

  • 农作物遗传增益(单产增长率)正在减缓,未来生产将不能满足需求。
  • 育种发展:PS(表型选择)——BLUP——MAS——GS。
  • 1990年后植物改良过程的七大技术:GS、转基因、QTL作图、关联作图、表型组、环境型、基因编辑。
  • 与GS相关的背景和知识图谱:

遗传增益

公式:ΔG = i σA rMG / t

  • ΔG是期望的遗传增益;
  • i是选择的强度;
  • σA是遗传方差;
  • rMG是选择的准确性(通过实际和估计育种值的相关性判断),如果是表型选择,则等于狭义遗传力的平方根(h);
  • t是育种周期。

提高遗传增益围绕着以上公式展开:增加选择强度,加大遗传方差,提高选择/预测准确性或遗传力,缩短育种周期。

自交和杂交作物育种的GS应用示例:

2.植物GS瓶颈

在动物中,个体价值更高,世代间隔短,因此遗传增益更高。此外,有合适的基因分型平台(价格合理的芯片),标记稳定,广泛的系谱信息及后代测试年限,种群结构少,流程相对简单。奶牛、猪、绵羊、肉牛、鸡等家畜陆续应用GS。

在植物GS中需考虑的影响遗传增益的因素:

  • 群体:类型、大小、新种质、选择比例、选择方法、选择指数、用于估计育种值的种质;
  • 基因型:分子标记、靶向基因(转基因、基因编辑等);
  • 遗传力:田间管理、估计;
  • GS模型:标记效应、GxE、rrBLUP、Bayesian、ML等;
  • 育种方案:育种设计、整合育种平台、加代等。

几个主要影响植物GS的因素:

标记密度、群体大小、统计模型、参考群和候选群的遗传关系、群体结构和表型准确性等。

植物中最大的限制是成本,需要开发出具有高效益成本的基因分型、表型和环境分型平台,创建多样化和可更新的参考群,开发高效和多功能的基因组预测模型,缩短育种周期时间和加快育种过程,建立强大的决策支持系统,并建立开源育种计划。

此外,还要考虑纯种系和建立预测模型的高通量和精密表型,因为基因-环境相互作用(GEI或GxE)对植物的表型影响重大,但对动物的影响有限(在设施中饲养更便于管理)。

动物和植物GS的比较:

  • 可行性:价值链(动物个体价值高,投资回报高,植物反之),成本(动物更耐高成本),效益(动物早期选择和缩短世代的收益更多)。
  • 平台:基因分型(动物提取更容易,有家系和后代测试数据),表型(动物可动,基于个体,数目较少;植物固定,基于群体,数目较大),环境型(动物相对稳定,易测量和控制),信息学和决策支持(动物因数目少,数据量较小,要求较低)。
  • 训练群和育种群:类型(动物大部分是杂合,植物类型多样),大小(动物小),规模(动物血统较小,植物大小不一,取决于物种),共享和更新(动物资源共享和更新较差)。
  • 影响遗传增益的因素:遗传变异(动物无法图位克隆,突变克隆),遗传力(动物相对较高),选择强度(通过增加群体规模或降低选择率来增加增长潜力),周期(动物对早期选择极其敏感,植物可通过DH快速纯合,对光周期敏感,可加代,早期选择不敏感),统计模型(动物易控制群体结构,一种模型可能适合同一群体类型,植物受环境影响大,有不同高层次的群体结构,不同群体类型需要不同模型)。
  • 育种策略:种质评估(动物不能长期维持,不可再生,基于系谱评估,植物可以),前育种(动物不重要,植物重要而实用),压力承受力,开源育种(动物更适用于父母及其群体,植物适用所有情况)。

3.提高GS预测的准确性

根据GS的影响因素,GS预测的准确性可用以下公式来表示:



rGM代表预测准确性,x1-x5分别代表标记密度、群体大小和结构、参考-候选群关系、遗传力、GS模型,系数a-e有可能和rGM并非线性关系。

高密度标记

  • 当标记数目足够大,提高预测精度会达到一个阈值,不会再随标记密度增加而增加。
  • 所需的标记密度随植物种类、群体类型和大小有关,异化授粉作物所需标记密度高于自花授粉作物,自然群体要高于双亲群体(因自然群体的群体结构和高LD状态)。
  • 基因分型成本的解决:GBS,GBTS(靶向GBS),以低成本增加标记密度。标记的数目和密度已不再是问题,可以为所有类型的群体建立一个通用的高密度标记Panel。

增加群体规模,同时平衡参考-候选群关系

  • 通过使用聚类,图形网络分析和遗传交配方案建立训练样本设计的参考群体优于随机抽样构建。可从群体规模较大的真实数据集中重采样来生成不同的训练和测试数据集。
  • 为了在选择阶段保持或优化准确性,应经常更新GS模型,主要是由于重组事件增加导致标记和QTL的LD降低。
  • 参考群和候选群亲缘关系应该足够相近,以共享大范围的单倍型,从而使GS最准确。当两者亲缘关系较近时,GS的预测准确性显著提高。
  • 通过在参考群中包含更多相关(指亲缘关系)的杂交来增加相关性的重要性,而不是通过添加不相关或关联性较小的杂交来增加参考群大小的重要性。训练群Panel设计的重要性!
  • 但持续使用亲缘关系近的群体来获得更好的预测将会缩小遗传基础,减少有利于未来选择的遗传变异,从而减慢长期GS的遗传增益。
  • 因此需要考虑短期和长期选择的遗传增益来平衡和优化参考-候选群关系:一是使用相关遗传区域和靶向分子标记的变体,通过这些变体来使用与参考群密切相关的各种候选群;二是在淡季或异地使用一部分群体作为参考群,来预测其余候选群体。

将标记效应和GWAS结果整合到预测模型中

  • 先前研究中确定和验证的功能标记(如GWAS显著位点,分子实验验证功能基因,模拟研究得到的QTL)可以用作模型中的固定效应,以提高预测准确性。
  • 实际上,在模型中使用少量重要标记作为基因型矩阵可以实现更准确的预测。
  • 可以基于GEBV从育种群体中选择潜在的近交系。通过将GS与MAS或GWAS(具有少量基因相关标记)整合,提高预测准确性,从而提高遗传增益。

在预测模型中加入GxE和非加性效应

  • 几乎所有统计模型都可用于有效捕获和精确估计纯合群体中每个标记的累加遗传效应。但是,当参考群和候选群由杂合群体组成,并且是跨地点和年份(环境)表型时,它们在评估非加性或非遗传效应(包括显性、上位性和G x E效应)方面的能力有限。
  • 基于非线性核算法(如再生核希尔伯特空间RKHS)开发的GS模型具有捕获非遗传效应并提高标记效应估计精度的特定能力。
  • 作物生长模型(CGM)通过捕获组合效应来弥补常规GS的缺陷,能很好地解释了产量的非加性基因作用,成为通用基因组预测模型之一。

通过多组学信息来优化预测模型

  • 将转录组学和代谢组学数据整合到GS模型中可以提高预测准确性,因为它们可以有效地捕获较小效应和非加性的影响,尤其在预测混合性能时。如MLLASSO模型。
  • 这个说实话,离实际应用太遥远了。多组学做过一点,本身准确性和一致性就值得怀疑,用来预测,很难说清楚。加上成本就更加离谱了。

4.GS与现代育种技术结合

从GS的角度来看,有两种不同的策略可以提高植物育种的遗传增益。

  • 一是提高预测准确性。
  • 二是将GS与其他育种技术(如MAS、标记辅助循环选择MARS、转基因、基因组编辑、DH等)结合。

此外,GS还可以与速育方法结合使用,以进一步缩短育种周期。

用于GS的综合育种平台:

  • 育种的本质:创造变异—>挖掘变异—>应用变异

  • 通过前育种将外来种质的相关基因转移到优良种质库中,使用高密度标记评估外来种质的育种价值,以及恢复目标性状的多样性。可以通过策略性采样的参考群预测基因库种质的表现。

  • 遗传力与GS的预测准确性正相关。换句话说,在一定环境下,基于田间试验数据的农艺性状对遗传力的估计越高,预测性能就越好。因此,精细的田间管理减少环境影响和实验误差,从而提高遗传力估计和预测的准确性。

  • GS的预测准确性随群体规模的增加而增加,对于扩大群体和测试规模,DH技术是一种潜在的选择。GS+DH可以生产获得许多纯种系或中间育种材料。在玉米中,跨国种子公司开发了种子芯片技术,基于种子DNA的基因分型来促进在种植之前基于功能标记和GEBV预先选择DH品系,从而大大减少了后续支出。

  • 在杂交育种中,GS用于潜在杂交种的表现预测,通过构建一个合适的参考群,并开发一个能够区分杂交群体、估计一般和特殊配合力的有效模型。在计算机上就可排除大量杂交。

  • 综合育种平台将有助于提高育种效率、扩大测试规模,以提高选择强度,从而最终提高遗传增益。

5.GS开源育种网络

  • 许多研究表明,用于训练GS模型的表型和环境数据之间的相关性越高,预测精度越好,可以实现的育种结果就越有用,这在小麦GS育种中也得到了证实。

  • 跨国育种公司的GS已经可以通过一组完善设备的集中式平台进行实施和管理,可显著降低成本。但小机构应该建立一个开放源代码的育种网络,以在GS育种程序之间共享各种资源,包括表型、基因型、环境型、设施平台、信息管理和决策支持工具。

  • 共享数据:包括同一群体的其他基因型,更多具有相同亲本的群体,在其他环境中测试的相同群体所产生的基因型,表型和环境型(季节,年份和地点),或其某些组合等数据。

  • 开源育种网络:

  • 现有的一些开源育种平台:

    GOBii; http://gobiiproject.org/

    CGIARhttp://excellenceinbreeding.org

    OSSIhttps://osseeds.org/

  • CIMMYT开源育种的GS实践:

    玉米GS共使用7956个DH或F5:6品系,其中3年表型的1926个品系用作参考群,5030个无表型的品系用作预测群,根据GEBV选择了587个品系做进一步的测试和验证。(数据还未发表(X. Zhang and M.S.O., unpublished)

关于GS的开源育种,这个是真的很有意义,康奈尔大学的 Susan R. McCouch也在做类似的事情,详情参见:When more is better: how data sharing would accelerate genomic selection of crop plants

网站:https://www.godan.info/

不过这个实施起来太难了,涉及到太多人的利益,育种家视之如宝的育种材料和数据能轻易共享出去吗?在此打一个大大的问号。实际上,这些开源育种项目也是建立了Partner关系的,类似于育种联盟吧,需要门票,路人无法访问。

【GS文献】从家畜到植物,通过基因组选择提高遗传增益的更多相关文章

  1. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  2. 【GS文献】测序时代植物复杂性状育种之基因组选择

    综述:Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding 要 ...

  3. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

  4. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

  5. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  6. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  7. 【GS基础】植物基因组选择研究人员及数量遗传学发展一览

    目录 1.GS研究 2.数量遗传发展 GS应用主要在国外大型动物和种企,国内仍以学术为主.近期整理相关学术文献,了解到一些相关研究人员,记录下备忘查询,但不可能全面. 1.GS研究 Theo Meuw ...

  8. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  9. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

随机推荐

  1. 2021.9.17考试总结[NOIP模拟55]

    有的考试表面上自称NOIP模拟,背地里却是绍兴一中NOI模拟 吓得我直接文件打错 T1 Skip 设状态$f_i$为最后一次选$i$在$i$时的最优解.有$f_i=max_{j<i}[f_j+a ...

  2. 21.10.18 test

    可可大神出题,四款有趣的游戏推荐,第四个好玩/se T1 loopers \(\color{green}{100}\) 考虑钦定 \(a_1,a_i\) 的位置,固定左边一坨,那么剩下的一坨的 \(\ ...

  3. MyBatis源码分析(四):SQL执行过程分析

    一.获取Mapper接口的代理 根据上一节,Mybatis初始化之后,利用sqlSession(defaultSqlSession)的getMapper方法获取Mapper接口 1 @Override ...

  4. NOIP模拟86(多校19)

    T1 特殊字符串 解题思路 \(f_{i,j}\) 表示前 \(i\) 个字符中结尾为 \(j\) 的最大贡献. 转移枚举当前位置于之前位置结尾的组合加上贡献即可. 对于边界问题,容易发现选择 1 一 ...

  5. Python Numpy matplotlib Histograms 直方图

    import numpy as np import matplotlib.pyplot as plt mu,sigma = 2,0.5 v = np.random.normal(mu,sigma,10 ...

  6. path-sum-ii leetcode C++

    Given a binary tree and a sum, find all root-to-leaf paths where each path's sum equals the given su ...

  7. minimum-depth-of-binary-tree leetcode C++

    Given a binary tree, find its minimum depth.The minimum depth is the number of nodes along the short ...

  8. hdu 2191 珍惜现在,感恩生活(多重背包)

    题意: 有N元经费,M种大米,每种大米有单袋价格p元,单袋重量h,以及对应袋数c. 问最多可以买多重的大米. 思路: 经典多重背包,用二进制的方法. 看代码 代码: struct node{ int ...

  9. java中的泛型设计

    1.为什么要使用泛型程序设计 ArrayList<String> files = new ArrayList<>() 等价于 var files = new ArrayList ...

  10. postman使用(待更新)

    参考文档