• 熱線電話:010-56107385

聯系方式

地 址:北京市昌平區北清路生命科學園博雅CC -9號樓2層
電 話:010-56107385
傳 真:
郵 箱:support@ori-gene.cn

技術資料

您現在的位置:首頁 > 技術支持 > 技術資料
系統發生樹的構建方法

 常用的建樹方法

建樹方法前提是需要設定一個進化模型。建樹標準在一定程度上依賴比對和取代模型。統計學方法、生物信息學方法的應用,計算機的快速發展以及對系統發生認識的進步,人們研究系統發生樹的方法也越來越多,包括距離法、簡約法、似然法、Hadamard結合法與神經網絡法等等。目前常用的建樹方法有最大距離法、最大簡約法、最大似然法和貝葉斯法等。

距離法主要是考察數據組中所有序列的兩兩比對的差異決定進化樹的拓撲結構與樹枝長度,常用的方法如UPGMA、F-M法、Farr法、NJ法和ME等。

同源DNA序列比對確定后,系統發生樹的重建有兩種途徑:一是先把多序列比對的數據合并成一組,然后在全并的基礎上使用標準的建樹方法進行建,此方法一般能得到比較好的結果,但是存在的問題是合并的序列比對中必須包括一組相同的物種,而且只能使用一個核苷酸替換模型對合并的序列比對進行分析;二是先根據各個基因序列分別構建各自的系統發育樹,然后將這些系統樹通過一定的優化技術,如MRP方法合并成一個“super-tree”,此方法可以重建包含較多物種生物類群的完整系統發育樹的方法。建樹的方法雖然很多,不同的方法在不同情況下應用所得到的結果存在差異。了解各種建樹方法的優缺點并根據實際需求選擇合適的方法進行建樹是非常重要的。

  • 鄰接法(Neighbor-Joining method,NJ)

NJ法是基于是最小進化原理,被認為是最小進化法ME的簡化版。在重建系統發生樹時,它取消UPGMA法所作的假定,認為在進化分支上,發生的趨異次數可以不同。此方法通過研究距離最近的成對分類單位來使系統樹的總距離達到最小。優點:建樹相對準確,假設少,計算速度快,只得一棵樹;缺點:將序列的所有位點等同對待,且分析序列的進化距離不能太大。NJ法適合進化距離不大,信息位點少的短序列。

  • 最大簡約法(Maximum parsimony method,MP)

根據離散型性狀包括形態學性狀和分子序列(DNA,蛋白質等)的變異程度,構建生物的系統發育樹,并分析生物物種之間的演化關系。在最大簡約法的概念下,生物演化應該遵循簡約性原則,所需變異次數最少(演化步數最少)的演化樹可能為最符合自然情況的系統樹。MP法基于進化過程中所需核苷酸(或氨基酸)替代數目最少的假說,對所有可能正確的拓撲結構進行計算并挑選出所需替代數最小的拓撲結構作為最優系統樹,也就是通過比較所有可能樹,選擇其中長度最小的樹作為最終的系統發生樹,即最大簡約樹(maximum parsimony tree)。與其他建樹方法相比,MP法無需引入處理核苷酸或者氨基酸替代時所必需的假設(替代模型)。同時,MP法對于分析某些特殊的分子數據(如插入序列和插入/缺失)有用。在分析的序列位點上沒有回復突變或平行突變,且被檢驗的序列位點數很大的時候,MP法能夠獲得正確的(真實)系統樹。但MP法推導的樹不是唯一的,在分析序列上存在較多的回復突變或平行突變,而被檢驗的序列位點數又比較少的時候,最大簡約法可能會出現建樹錯誤。MP法適用于序列殘基差別小,具有近似變異率,包含信息位點比較多的長序列。

  • 最大似然法(maximum likelihood method,MI)

20世紀60年代末期由于對地生物信息學分析實踐震波和水聲信號等處理的需要而發展起來的一種非線性譜估計方法。MI法對所有可能的系統發育樹都計算似然函數,似然函數值最大的那棵樹即為最可能的系統發育樹。利用最大似然法來推斷一組序列的系統發生樹,需首先確定序列進化的模型,如Jukes—Cantor模型、Kimura二參數模型及一般二參數模型等。在進化模型選擇合理的情況下,MI法是與進化事實吻合最好的建樹算法。缺點是計算強度非常大,極為耗時。

  • 貝葉斯法(Bayesian method,BI)

近年來發展起來的一種新的利用貝葉斯演繹法預測種系發生史的系統進化分析方法,它既保留了最大似然法的基本原理,又引進了馬爾科夫鏈的蒙特卡洛方法,來模擬演化樹的較晚期可能性分布,并使計算時間大大縮短。貝葉斯法根據多種分子進化模型,利用馬爾科夫鏈的蒙特卡洛方法產生所有參數的后驗概率估計值,這些參數包括拓撲結構、分支長度和替代模型各參數的估計。貝葉斯法得到的系統進化樹不需要利用自引導法進行檢驗,其后驗概率直觀地反映了系統進化樹的可信程度,是一種系統進化分析的好方法,它既能根據分子進化的現有理論和各種模型用概率重建系統進化關系,又克服了最大似然法計算速度慢、不適用于大數據集樣本的缺陷。貝葉斯法和最大似然法相似,都是選定一個進化模型,然后通過程序搜索模型和序列數據一致的最優系統樹;但二者的不同在于,最大似然法是以觀察數據的最大概率來擬合系統樹,貝葉斯法是通過系統樹對數據及進化模型的最大擬合概率而得到系統樹;最大似然法給出的是數據的概率,而貝葉斯法給出的是模型的概率;最大似然法搜索單一的最相似系統樹,貝葉斯法得到的是具有大致相等似然的系統樹集合。

比較以上幾種主要的構樹方法,通常情況,若有合適的分子進化模型可供選擇,用最大似然法構樹獲得的結果較好;對于近緣物種序列,通常情況下使用最大簡約法;而對于遠緣物種序列,一般使用鄰接法或最大似然法。對于相似度很低的序列,鄰接法往往出現長支吸引現象,有時嚴重干擾進化樹的構建。

對于各種方法重建進化樹的準確性,Hall(2005)認為貝葉斯法最好,其次是最大似然法,然后是最大簡約法。鄰接法和最大似然法是需要選擇模型的。蛋白質序列和DNA序列的模型選擇是不同的。蛋白質序列的構樹模型一般選擇Poisson correction(泊松修正),而核酸序列的構樹模型一般選擇Kimura 2-parameter(Kimura一2參數)。如果對各種模型的理解并不深入,最好不要使用其他復雜的模型。參數的設置推薦使用缺省的參數。

在重建進化樹過程中,均需選擇bootstrap進行樹的檢驗。一般bootstrap的值>70,則認為重建的進化樹較為可靠。如果bootstrap的值太低,則有可能進化樹的拓撲結構有錯誤,進化樹是不可靠的。因此,一般推薦用兩種以上不同的方法構建進化樹,如果所得到的進化樹類似,且bootstrap值總體較高,則得到的結果較為可靠。


系統發育分析常用軟件



如果您有軟件或者進化分析方面的需求,歡迎給我們發郵件溝通哦!軟件下載鏈接


參考文獻

[1] 吳祖建, 高芳鑾, 沈建國. 生物信息學分析實踐[M]. 科學出版社, 2010.

[2] 徐廣, 方慶權, James,等. 分子系統進化關系分析的一種新方法——貝葉斯法在硬蜱屬中的應用[J]. 動物學報(Current Zoology), 2003, 49(3):380-388.

[3] 張麗娜, 榮昌鶴, 何遠,等. 常用系統發育樹構建算法和軟件鳥瞰[J]. Zoological Research, 2013, 34(6):640-650.

[4] Hall P, Wang J Z. Bayesian likelihood methods for estimating the end point of a distribution[J]. Journal of the Royal Statistical Society, 2005, 67(5):717–729. 


大香蕉网站_大伊人香蕉在线_伊人久久大香蕉网_伊人成综合人网_大香焦