• 熱線電話:010-56107385

聯系方式

地 址:北京市昌平區北清路生命科學園博雅CC -9號樓2層
電 話:010-56107385
傳 真:
郵 箱:support@ori-gene.cn

技術資料

您現在的位置:首頁 > 技術支持 > 技術資料
簡單的聚類分析--自己做主

 今天我們就來談談什么是聚類分析?

聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。 聚類分析也叫分類分析(classification analysis)或數值分類(numerical taxonomy)。按照個體或樣品(individuals, objects or subjects)的特征將它們分類,使同一類別內的個體具有盡可能高的同質性(homogeneity),而類別之間則應具有盡可能高的異質性(heterogeneity)。

聚類分析是一種重要的多變量統計方法,實質是一種數據分析方法,不能進行統計推斷的。它能夠從樣本數據出發,自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。

為了得到比較合理的分類,首先要采用適當的指標來定量地描述研究對象(樣本或變量,常用的是樣本)之間的聯系的緊密程度。常用的指標為“距離”和“相似系數”,假定研究對象均用所謂的“點”來表示。聚類分析一般的規則是將“距離”較小的點或“相似系數”較大的點歸為同一類,將“距離”較大的點或“相似系數”較小的點歸為不同的類。計算聚類——距離指標D(distance)的方法非常多:按照數據的不同性質,可選用不同的距離指標。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-aquare measure) 等;相似性也有不少,主要是皮爾遜相關系數。

聚類分析前所有個體或樣本所屬的類別甚至類別個數都是未知的,分析的依據就是原始數據,沒有任何事先的有關類別的信息可參考。聚類分析一般都涉及不到有關統計量的分布,也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法,而對假設的檢驗還需要借助其它統計方法。


聚類方法的特點:

1. 簡單、直觀;

2. 主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續的分析;

3. 不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;

4. 聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響;

5. 研究者在使用聚類分析時應特別注意可能影響結果的各個因素;

6. 異常值和特殊的變量對聚類有較大影響;

7. 當分類變量的測量尺度不一致時,需要事先做標準化處理。

 

我們再來看看,聚類分析不能做的事情又有哪些?

它不會自動發現和告訴你應該分成多少個類——屬于非監督類分析方法;不要別期望能很清楚的找到大致相等的類;樣本聚類,變量之間的關系需要研究者決定;它不會自動給出一個最佳聚類結果。

 在高通量測序與芯片檢測數據分析中,常對差異mRNA/lncRNA/circRNA/miRNA 進行非監督層次聚類。計算多個樣品兩兩之間的距離,構成距離矩陣,合并距離最近的兩類為一新類,計算新類與當前各類的距離,再合并、計算,直至只有一類為止,用挑選的差異 mRNA/lncRNA/circRNA/miRNA 的表達情況來計算樣品直接的相關性,一般來說,同一類樣品能通過聚類出現在同一個簇中,聚在同一個簇中的 mRNA/lncRNA/circRNA/miRNA 可能具有相似的生物學功能。


 


 

今天就來和大家一起來用MEV軟件做一下miRNA芯片數據的聚類分析。

推薦理由:MEV軟件無需安裝,無需解壓,但需要在使用該軟件之前安裝JAVA,點擊文件夾中的JAVA軟件安裝即可。如果想要這些軟件或資料,就留言給我們吧!留下您的聯系方式,我們會將軟件發送您。


第一步:打開MeV,點擊File--load Data導入數據,導入文件格式.txt。


 

點擊打開后,界面如下:第一列是可以是基因或miRNA名稱,也可以是probe ID、gene symbol、miRNA等,第二列往后,是相應樣本的標準化的信號值。



點擊左上角第一個數據,如上圖紅色標記,load數據。


第二步:數據中位化(一般需對gene進行中位化)


注意:該步驟點擊完成軟件中不會出現任何變化,但實際上內部已經運算完成,切忌重復點擊。

第三步:進行聚類分析


 

點擊HCL,出現以下界面,選擇歐式全連接,如紅色標記處。



第四步: 數據參數設置如下:

 

點擊Set Color Scale Limits后,出現以下界面,請點擊下面劃紅色標記的地方進行參數修改設置,可以設置為-N、0和N。


 

點擊OK按鈕,出現以下界面:


 

去掉紅色劃圈部分,對基因與樣本兩種紅色標記處,設置參數如下:不要勾選“Show node height scale”的選框。

 

第五步:保存圖片

點擊File下面的Save image,可以保存成 .png、.tiff和.jpg等格式的文件。


第六步:保存gene order

 

就是這么簡單,你是不是開始準備使用了呢?


大香蕉网站_大伊人香蕉在线_伊人久久大香蕉网_伊人成综合人网_大香焦