/www.mothur.org/wdki/Siannon)
[0116] Simpson:辛普森多樣性指數(shù),由EdwardHu曲Simpson(1949)提出,在生態(tài)學(xué) 中常用來(lái)定量的描述一個(gè)區(qū)域的生物多樣性。Simpson指數(shù)越大,說(shuō)明群落多樣性越低。 (http://www.mothur.org/wiki/Simpson)
[0117] 測(cè)序深度(Coverage)指數(shù)有:
[0118] Good'sCoverage:是指各樣本文庫(kù)的覆蓋率,其數(shù)值越高,則樣本中序列沒(méi)有被 測(cè)出的概率越低。(ht1:p: //www.mothur.org/wdki/Coverage)
[0119] 各指數(shù)計(jì)算公式可查閱報(bào)告的"4. 2結(jié)果說(shuō)明"部分。 陽(yáng)120] 分析軟件:Qiime平臺(tái)(vl. 7) 陽(yáng)121] 分析方法:采用對(duì)序列進(jìn)行隨機(jī)抽樣的方法,W抽到的有效序列數(shù)進(jìn)行0TU的分 析,并分別計(jì)算各α多樣性指數(shù)。 陽(yáng) 122] ·al地a_rarefaction. xlsα多樣性指數(shù)
[0123]Table6.IColl曰tionof曰Iph曰diversityresults 陽(yáng)124]
[0127] 7.β多樣性分析
[012引 β多樣性值為兩個(gè)樣本間的相異系數(shù),反映不同樣本間的多樣性的差異,利用各 樣品序列間的進(jìn)化和豐度信息計(jì)算樣品間的距離,反映樣品間是否有顯著地微生物群落差 異,可通過(guò)化i化ac分析實(shí)現(xiàn)。 陽(yáng)129] 分析軟件:Qiime平臺(tái)(vl. 7)
[0130] 分析方法:首先利用來(lái)自不同環(huán)境樣品的0TU代表序列構(gòu)建一個(gè)進(jìn)化樹(shù),化i化ac 度量標(biāo)準(zhǔn)根據(jù)構(gòu)建的進(jìn)化樹(shù)枝的長(zhǎng)度計(jì)量?jī)蓚€(gè)不同環(huán)境樣品之間的差異。 陽(yáng)131] 化i化ac分析分為wei曲teduni化ac和unwei曲teduni化ac兩種度量方法,兩者 之間差異在于是否計(jì)入不同環(huán)境樣品的序列相對(duì)豐度。wei曲teduni化ac算法在計(jì)算樹(shù)枝 長(zhǎng)度時(shí)將序列的豐度信息進(jìn)行加權(quán)計(jì)算,因此unwei曲teduni化ac可W檢測(cè)樣品間變化的 存在,而wei曲teduni化ac可W更進(jìn)一步定量的檢測(cè)樣品間不同譜系上發(fā)生的變異。 陽(yáng)132] 結(jié)果展示:
[0133] wei曲ted_unifrac.txtwei曲tedunifrac距離矩陣
[0134] Τ油le7.IWei曲tedunifracdistance 陽(yáng)135]
[0136] ·unwei曲ted_unifrac.txtunwei曲tedunifrac距離矩陣
[0137] Τ油le7. 2Unwei曲tedunifracdistance 陽(yáng)13引
陽(yáng)139] 注康中行列表示不同樣本,表中的數(shù)字表示樣本間的相異系數(shù),值越小,表示兩 個(gè)樣本間的物種多樣性差異越小。
[0140] 8.PCoA分析 陽(yáng)141]PCoA(PrincipalCo-ordinatesAnalysis)分析即主坐標(biāo)分析,是一種研究數(shù)據(jù) 相似性或差異性的可視化方法,它與PCA類(lèi)似,通過(guò)一系列的特征值和特征向量進(jìn)行排序 后,選擇主要排在前幾位的特征值,找到距離矩陣中最主要的坐標(biāo),結(jié)果是數(shù)據(jù)矩陣的一個(gè) 旋轉(zhuǎn),它沒(méi)有改變樣品點(diǎn)之間的相互位置關(guān)系,只是改變了坐標(biāo)系統(tǒng)。兩者的區(qū)別為PCA是 基于樣本的相似系數(shù)矩陣來(lái)尋找主坐標(biāo),而PCoA是基于距離矩陣來(lái)尋找主坐標(biāo)。 陽(yáng)1創(chuàng)分析軟件:Qiime平臺(tái)(vl. 7)
[0143] 分析方法:基于wei曲tedunifrac和unwei曲tedunifrac距離矩陣進(jìn)行PCoA作 圖分析。
[0144] 9.UPGMATree
[0145] 樣本聚類(lèi)分析利用各樣品序列間的進(jìn)化信息來(lái)比較環(huán)境樣品在特定的進(jìn)化譜系 中是否有顯著的微生物群落差異。 陽(yáng)146] 分析軟件:Qiime平臺(tái)(vl. 7) 陽(yáng)147]分析方法:使用UPGMA(Unwei曲tedpairgroupmethodwitharithmeticmean) 聚類(lèi)方法,基于wei曲teduni化ac和unwei曲teduni化ac距離矩陣,將樣品進(jìn)行聚類(lèi)。
[0148]W上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實(shí)例的限制,上述實(shí)例和說(shuō)明書(shū)中描述的只是說(shuō)明本發(fā)明 的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會(huì)有各種變化和改進(jìn),運(yùn)些變化和 改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書(shū)及其等同 物界定。
【主權(quán)項(xiàng)】
1. 一種宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制方法,其特征在于, 其包括如下步驟: (1) 自定義參數(shù)配置文件的生成步驟;導(dǎo)入宏基因組16SrRNA高通量測(cè)序原始序列數(shù) 據(jù),經(jīng)過(guò)篩選和拼接得到理論上有效的16SrRNA可變區(qū)全長(zhǎng)序列,在此基礎(chǔ)上進(jìn)行生物信 息學(xué)參數(shù)分析; (2) 輸入步驟:用戶(hù)根據(jù)需要,輸入設(shè)定的各參數(shù)配置文件; (3) 分析步驟:根據(jù)參數(shù)配置文件,宏基因組高通量數(shù)據(jù)處理流程模塊生成對(duì)應(yīng)的自 動(dòng)化分析流程; (4) 執(zhí)行及輸出步驟:執(zhí)行所描述的自動(dòng)化分析流程,獲得并輸出宏基因組16SrRNA 分析結(jié)果報(bào)告。2. 根據(jù)權(quán)利要求1所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,所述的步驟(1)中,具體包括如下步驟: (A) 導(dǎo)入宏基因組16SrRNA高通量測(cè)序原始序列文件, (B) 對(duì)所述的宏基因組16SrRNA高通量測(cè)序原始序列文件進(jìn)行質(zhì)量控制與統(tǒng)計(jì),并剔 除低質(zhì)量序列數(shù)據(jù),獲得經(jīng)過(guò)篩選的序列數(shù)據(jù); (C) 將所述的經(jīng)過(guò)篩選的數(shù)據(jù)進(jìn)行拼接,組裝成全長(zhǎng)的16SrRNA可變區(qū)序列; (D) 將拼接結(jié)果進(jìn)行質(zhì)量控制,并去除嵌合體,得到理論上有效16SrRNA的全長(zhǎng)序列。3. 根據(jù)權(quán)利要求2所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,所述的步驟(C)中,使用PANDseq拼接軟件,對(duì)重疊區(qū)域進(jìn)行比對(duì)打分, 比對(duì)打分值低于0. 6時(shí)將被去除,重疊區(qū)域小于5bp或者重疊區(qū)域大于2個(gè)mismatch也就 去除,根據(jù)拼接結(jié)果選擇有效序列在400~480bp之間的序列用于下一步分析。4. 根據(jù)權(quán)利要求2所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,所述的步驟(D)中,先UCHIME軟件在de-novo模式下去除嵌合體序列, 然后USEARCH軟件在有參模式進(jìn)一步去除嵌合體序列,最終得到理論上有效的16SrRNA可 變區(qū)全長(zhǎng)序列。5. 根據(jù)權(quán)利要求1所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,所述的步驟(1)中,生物信息學(xué)參數(shù)分析包括對(duì)于獲得的16SrRNA可變 區(qū)全長(zhǎng)序列進(jìn)行聚類(lèi);包括輸入指令采用使用UCLUST方法進(jìn)行0TU聚類(lèi),0TU中序列相似 性設(shè)為97 %,得到0TU列表及0TU代表性序列。6. 根據(jù)權(quán)利要求5所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,所述的步驟(1)中,包括進(jìn)一步對(duì)0TU代表性序列進(jìn)行物種分類(lèi)分析。所 述的物種分類(lèi)分析包括,物種進(jìn)化分析,物種豐富度分析,物種鑒定分析和α多樣性指數(shù) 分析。7. 根據(jù)權(quán)利要求5所述的宏基因組16SrRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制 方法,其特征在于,系統(tǒng)將多樣品0TU代表性序列進(jìn)行聚類(lèi)與差異性分析,包括β多樣性分 析和多樣品聚類(lèi)分析。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種宏基因組16S?rRNA的高通量測(cè)序數(shù)據(jù)處理及分析流程控制方法,其首先由系統(tǒng)生成自定義參數(shù)配置文件,再根據(jù)用戶(hù)設(shè)定參數(shù)后的自定義參數(shù)文件和高通量數(shù)據(jù)處理流程模塊生成與數(shù)據(jù)流程對(duì)應(yīng)的批處理可執(zhí)行文件;由系統(tǒng)執(zhí)行批處理可執(zhí)行文件,實(shí)現(xiàn)數(shù)據(jù)流程自動(dòng)化,最終生成結(jié)果報(bào)告文件。從而能高效的幫助生物信息分析人員完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,甚至可以讓不懂高通量數(shù)據(jù)分析的科研人員自己完成高通量數(shù)據(jù)分析。從而可以達(dá)到優(yōu)化科研人員的工作效率,降低科研成本的目的。本發(fā)明不僅僅可以用于宏基因組16S?rRNA高通量數(shù)據(jù)分析流程,也可用于18S和ITS等高通量測(cè)序分析流程,甚至可以在高通量測(cè)序領(lǐng)域通用,其實(shí)現(xiàn)方法簡(jiǎn)單,應(yīng)用范圍較為廣泛。
【IPC分類(lèi)】G06F19/10
【公開(kāi)號(hào)】CN105279391
【申請(qǐng)?zhí)枴緾N201510556935
【發(fā)明人】朱文杰, 張?chǎng)卫? 袁驍
【申請(qǐng)人】蘇州協(xié)云和創(chuàng)生物科技有限公司
【公開(kāi)日】2016年1月27日
【申請(qǐng)日】2015年9月6日