• 熱線電話:010-56107385

常見問題答疑

聯系方式

地 址:北京市昌平區北清路生命科學園博雅CC -9號樓2層
電 話:010-56107385
傳 真:
郵 箱:support@ori-gene.cn

常見問題答疑

您現在的位置:首頁 > 技術支持 > 常見問題答疑
生信分析常見問題

Q-1:覆蓋率(Coverage ratio)是什么?覆蓋深度(Coverage depth)是什么?測序深度和基因組覆蓋率的關系如何?

A-1:覆蓋比率,亦簡稱覆蓋率,指被測序到的堿基占全基因組大小的比率。

  覆蓋深度,亦簡稱覆蓋度,指每個堿基被測序的平均次數。

  測序深度指平均堿基測序深度(測序的數據總量比上基因組大小)。測序深度與基因組覆蓋度之間是一個正相關的關系,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。重測序的個體,如果采用的是雙末端或Mate-Pair方案,當測序深度在10-15X以上時,基因組覆蓋度和測序錯誤率控制均得以保證。

Q-2:測序完成后的基因組、基因區域覆蓋度是多少?

A-2:基因組覆蓋度達到95%以上,基因區域覆蓋度98%以上。

Q-3:一致性序列組裝和基因組組裝有什么不同?

A-3:基因組組裝:沒有參考基因組,首先需要構建多個不同插入片段長度的雙末端文庫。根據短readsoverlap關系將其組裝成contig,然后利用大片段文庫雙末端關系和插入片段的大小,將contig又連接成scaffold,每個scaffold可能是由幾個contig組成,中間會有gap的存在,然后再進行補洞。如果該物種有比較好的連鎖圖譜的話,可以將scaffolds定位回染色體。   

  一致性序列組裝:根據與參考序列的比對結果,我們利用貝葉斯模型得到測序個體每個位點可能性最大的基因型,并組裝出該個體的一致序列。

  一致序列的組裝過程中,只有比對參考基因組具有唯一性的reads才能用于生成一致序列,如上面的示意圖沒有覆蓋到部分用N代替。根據比對結果,綜合考慮數據特征、測序質量及實驗方面的影響因素,利用貝葉斯模型,在實際觀察到的數據基礎上計算出每個可能的基因型概率。挑選出概率最大的基因型作為該測序個體的特定位點的基因型,并在此基礎上給出一個反映該基因型準確的質量值,并且得到一致序列。可見一致性序列的組裝必須借助于參考基因組,并且只有唯一比對到參考序列上的reads才保留。

Q-4:重測序都可以檢測哪些遺傳變異?

A-4:重測序目前能夠檢測到的遺傳變異包括SNPsingle nucleotide polymorphism, 單核苷酸多態性)、Indel(Insertion or deletion, 插入或缺失)、SV(structure variation, 結構變異)等。

Q-5Indel(insertion or deletion,插入或缺失)的定義?分析軟件?如何尋找?

A-5:Indel指的是insertion or deletion,Indel包括插入或缺失突變,或兩者兼之。Indel可以作為自然群體特別是進化過程中的遺傳標記。

  源宜基因基于生成的 bam 文件,使用 GATK 軟件識別其中的 SNPInDel 等變異,生成 vcf 格式的變異檢測文件。

Q-6:Structure variation的定義?分析軟件?

A-6:染色體發生的結構變異主要有4種:

(1)缺失:染色體中某一片段的缺失。

(2)重復:染色體增加了某一片段。

(3)倒位:染色體某一片段的位置顛倒了180度,造成染色體內的重新排列。

(4)易位:染色體的某一片段移接到另一條非同源染色體上或同一條染色體上的不同區域。

Q-7:群體重測序進行信息分析我們能獲得什么?

A-7:重測序目前能夠檢測到遺傳變異包括SNPsingle nucleotide polymorphism,單核苷酸多態性)、IndelInsertion or deletion,插入或缺失)、SV(structure variation,結構變異)。除此之外還可以進行連鎖不平衡(LD)、系統進化樹(phylogenetic tree)、群體遺傳結構(Population Genetic Structure)、群體選擇分析(Population Selective Analysis)等。

Q-8:什么是全基因組重測序BSA(WG-BSA)?

A-8:對已有參考基因組序列的所有作圖群體(F1, F2, RIL, DH, BC1等),對親本進行個體重測序,對某個極端性狀后代進行混池重測序,檢測SNPIndel等變異位點,通過關聯分析精細定位與目標性狀相關的基因區域,獲得與性狀緊密關聯的分子標記,并通過功能注釋定位到一些候選基因,BSA分析方法是目前最高效的單一性狀功能基因定位方法。

Q-9:全基因組重測序BSA一般最少要求多少樣本用于構建混池?

A-9:一般需要20-50個個體。

Q-10:連鎖不平衡(Linkage disequilibrium)是什么?分析軟件?

A-10:連鎖不平衡(linkage disequilibrium, LD)指的是一個群體內不同座位等位基因之間的非隨機關聯, 包括兩個標記間或兩個基因/QTL間或一個基因/QTL與一個標記座位間的非隨機關聯。連鎖不平衡與連鎖是相關但完全不同的兩個概念。連鎖不平衡指的是群體內等位基因之間的相關,而連鎖指的是位于同一條染色體上的基因聯合傳遞的現象。緊密連鎖可導致較高的LD水平,但這種LD純粹是由突變產生的等位基因出現后緊密連鎖座位間所有重組事件的結果。連鎖不平衡分析是近年來的一個研究亮點和熱點。基于LD的作圖方法不僅是新基因發掘的有效途徑,而且也是聯系結構基因組學和表型組學的一座橋梁。LD分析軟件有Haploview等。

Q-11:系統進化樹是什么?有哪些分析方法或軟件?

A-11:系統發生樹(phylogenetic tree,又稱evolutionary tree進化樹)就是描述群體間進化順序的分支圖或樹,表示群體間的進化關系。系統分析過程就是指構建群體之間的進化樹,推測其親緣關系的遠近。分析軟件有MEGA4.0PHYLIP 3.68等。

Q-12:什么是主成分分析(Principal component analysis)?

A-12:主成分分析(Principal component analysis,PCA)是一種純數學的運算方法,可以將很多可能相關的變量轉變成數量更少的主成分變量。PCA應用到很多學科,在遺傳學當中,主要用于聚類分析,它是基于個體基因組SNP差異程度,按照不同性狀特征將個體按主成分進行聚類成不同的亞群,同時用于和其它方法做相互驗證。

Q-13:群體遺傳結構(Population Genetic Structure)是什么?分析方法或軟件有哪些?

A-13:群體遺傳結構是指遺傳變異在物種或群體中的一種非隨機分布,即遺傳變異在群體內、群體間的分布樣式以及在時間上的變化。遺傳結構的模式提供了對進化過程的見解,并幫助確定了物種群體基因型和表型關聯的研究。分析軟件有Structure、Frappe 以及Admixture等。

Q-14:群體選擇分析是什么?有哪些分析方法或軟件?

A-14:選擇分析就是篩選那些不同亞群之間(如栽培和野生)之間能夠造成這兩個亞群在進化上為何分開,以及產生重大差異的一些變異位點,從而擴展到基因層面。選擇分析的方法包括Fst value、Heterozygosity、Tajima’s D value、θπ value、HKA test、GORSS test等。

  連鎖不平衡(LD)分析、系統進化樹(phylogeny tree)分析、主成分分析(PCA)、遺傳結構分析和群體選擇分析都是基于SNPs進行的分析,尋找群體差異。例如野生群體和家養群體之間的相似或者差異較大的區域,相似非常高的可能說明在這段區域在這個物種中可能相對保守,而差異較大的區域可能就是由于受人工選擇或者自然選擇的敏感區域,這些區域可能與選擇密切相關,可能是野生群體和家養群體產生差異的主要原因。

Q-15:常染色體和性染色全基因組重測序測序深度的差異問題?

A-15:如果所測樣本為女性(XX),那么常染色體和性染色體重測序深度基本沒有差異;如果所測樣本為男性,因為性染色為 XY,因此在計算測序深度時是分開計算,其深度基本只有常染色體的一半;但由于 X 染色體和 Y 染色體同源性比較高,XY之間也會出現差異較大的情況。

Q-16:選擇性消除分析的常用算法及軟件有哪些?

A-16:選擇消除分析是通過比較不同群體的差異,分析各亞群的多態性、受選擇區域等,進而挖掘出與群體性狀相關基因區域,開發相關分子標記。

  目前文章中常用的算法包括Fst分析(比較亞群分化程度)、Tajima’D分析(分析是否為中性進化或受正向選擇)、pi分析(分析DNA多態性水平)等。常用軟件Vcftools軟件即可對這三種指標進行計算,進而分析群體間受選擇的區域。

Q-17:群體進化的實驗設計思路?

A-17材料選擇:通常需要兩個亞群以上,每個亞群選取10個樣本左右(推薦動物≥10個,植物≥15個,珍稀物種可適當減少個體),總體建議不少于30個樣本。

  測序策略:目前基于Illumina Hiseq 4000平臺進行雙末端測序PE150測序。建議群體進化研究的測序深度不低于10X

  研究方法:一般群體進化的分析包括遺傳多樣性分析、基因交流情況分析、功能基因挖掘以及群體進化動態分析。

Q-18:如果結題項目的結果文件中excel文件過大,如何打開?

A-18:可以使用UltraEdit、Editplus、Notepad++等文本編輯器打開。

Q-19GO分析樣本如何來解讀判斷

A-19Gene Ontology (簡稱GO):是一個國際化的基因功能分類體系,提供了一套動態更新的標準詞匯來描述生物體中基因和基因產物的屬性。包括3Ontology分別描述基因分子功能(molecular function),所處的細胞位置(celluar component),參與的生物學過程(biological process)。

Q-20:如何避免基因組中的重復序列造成的組裝錯誤?

A-20:應用新一代高通量測序技術,構建170bp、500bp、2Kb、5Kb、10Kb、20Kb等不同大小的DNA測序文庫,進行雙末端大量測序,可以避免基因組中的重復序列造成的錯拼。當測序數據量達到基因組大小的60倍以上時,即可保證基因組的完整性和序列中單堿基的準確性。

Q-21:如何檢測基因組組裝的準確性?

A-21:目前,主要可以通過以下幾種方法來檢驗基因組組裝的準確性。

 

①通過構建BACFosmid文庫,并進行常規測序,將所得序列與拼接好的Contigs做比對以判斷基因組組裝的準確率。

 

②將已知的基因序列與拼接好的Scaffolds做比對,查看兩者是否吻合,吻合度越高,表明基因組組裝越好,而且已知的基因序列越多,評價結果越可靠。

③估計組裝后基因組的單堿基準確度,利用新一代測序技術,如果95%以上的基因組單堿基覆蓋度超過20×,則認為該基因組的單堿基準確度較高。


大香蕉网站_大伊人香蕉在线_伊人久久大香蕉网_伊人成综合人网_大香焦