0] Rank-油undance曲線可反映物種豐度和物種均勻度兩個方面,物種豐度由曲線在 橫軸上的長度來反映,曲線在橫軸上的范圍越大,物種的豐度越高;物種均勻度由曲線的形 狀(平滑度)來反映,曲線越平坦,表示物種的均勻度越高。
[0051] 在本發(fā)明的一個實施方案中,使用qiime平臺,采用隨機(jī)抽樣法,W抽到的序列數(shù) 與它們所能代表0TU的數(shù)目構(gòu)建稀釋曲線。
[0052] 利用本發(fā)明,將宏基因組16SrRNA各分析步驟模塊分和流程分,能夠單獨運(yùn)行一 個模塊或流程中的局部分析模塊,并進(jìn)行模塊內(nèi)規(guī)定數(shù)據(jù)分析流程的快速執(zhí)行。從而通過 不同模塊的選取,幫助科研人員和檢測人員迅速完成一套高通量數(shù)據(jù)的前期數(shù)據(jù)質(zhì)控、功 能分析和結(jié)果報告。該工具能夠優(yōu)化生物信息分析人員和科研人員的工作時間,顯著提高 工作效率,降低科研成本,本發(fā)明的分析流程思路清晰,其實現(xiàn)方法簡單,可廣泛應(yīng)用于微 生物學(xué)研究工作中,也可用于人類腸道菌分析W及臨床相關(guān)應(yīng)用。
[0053] 本發(fā)明的方法首先由系統(tǒng)生成自定義參數(shù)配置文件,再根據(jù)用戶設(shè)定參數(shù)后的自 定義參數(shù)文件和高通量數(shù)據(jù)處理流程模塊生成與數(shù)據(jù)流程對應(yīng)的批處理可執(zhí)行文件;由系 統(tǒng)執(zhí)行批處理可執(zhí)行文件,實現(xiàn)數(shù)據(jù)流程自動化,最終生成結(jié)果報告文件。從而能高效的幫 助生物信息分析人員完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,甚至可W讓不懂高通量數(shù)據(jù) 分析的科研人員自己完成高通量數(shù)據(jù)分析。從而可W達(dá)到優(yōu)化科研人員的工作效率,降低 科研成本的目的。本發(fā)明不僅僅可W用于宏基因組16SrRNA高通量數(shù)據(jù)分析流程,也可用 于18S和ITS等高通量測序分析流程,甚至可W在高通量測序領(lǐng)域通用,其實現(xiàn)方法簡單, 應(yīng)用范圍較為廣泛。
【附圖說明】
[0054] 圖1是宏基因組16S自動化分析流程; 陽化5] 圖2是宏基因組16S生物信息學(xué)分析步驟。
【具體實施方式】
[0056] W下結(jié)合具體實施例對上述方案做進(jìn)一步說明。應(yīng)理解,運(yùn)些實施例是用于說明 本發(fā)明而不是限制本發(fā)明的范圍。實施例中采用的實施條件可W根據(jù)具體應(yīng)用要求的條件 做進(jìn)一步調(diào)整,未注明的實施條件通常為常規(guī)實驗中的條件。
[0057] 首先對原始數(shù)據(jù)進(jìn)行過濾處理,然后去除嵌合體序列,得到有效序列后進(jìn)行聚類 分析,每一個聚類稱為一個物種操作單元的perational化xonomic化its, 0TU),對0TU的 代表序列作分類學(xué)分析?;?TU分析結(jié)果,可W對各個樣本進(jìn)行多種α多樣性指數(shù)分 析,W及對測序深度的檢測;基于分類學(xué)信息,可W在各個分類水平上進(jìn)行群落結(jié)構(gòu)的統(tǒng)計 分析;基于多個樣本可W進(jìn)行化i化ac等分析,在上述分析的基礎(chǔ)上,可W進(jìn)行一系列統(tǒng)計 學(xué)和可視化分析。 陽05引1.巧U序數(shù)據(jù)腫data)進(jìn)行數(shù)據(jù)量和測序質(zhì)量的統(tǒng)計。
[0059] Table1.IStatisticsofPFdata
[0060]
[0064] 2.測序數(shù)據(jù)質(zhì)量優(yōu)化 陽0化]高通量測序中通常會出現(xiàn)一些點突變等測序錯誤,而且序列末端的質(zhì)量比較低, 為了得到更高質(zhì)量及更準(zhǔn)確的生物信息分析結(jié)果,需要對測序原始數(shù)據(jù)進(jìn)行優(yōu)化處理。
[0066]分析軟件:Pandaseq(v2.7)、Trimmomatic(vO.30)、Usearch(v8.0)
[0067] 優(yōu)化步驟及參數(shù):
[0068] 使用pandaseq(v2. 7)將兩條序列進(jìn)行比對,根據(jù)比對的末端重疊區(qū)進(jìn)行拼接,拼 接時保證至少有20bp的重疊區(qū),去除拼接結(jié)果中含有N的序列; W例使用Trimmomatic(vO. 30)去除引物和接頭序列,去除兩端質(zhì)量值低于20的堿基, 去除長度小于4(K)bp的序列;
[0070] 使用usearch(v8. 0)將上面拼接過濾后的序列與數(shù)據(jù)庫進(jìn)行比對,去除其中的嵌 合體序列(chimerasequence),得到最終的有效數(shù)據(jù)。
[0071] 結(jié)果展示:
[0072]effective_stat.txt各樣本有效數(shù)據(jù)統(tǒng)計表
[0073]T油le2.IStatisticsofeffectivedata
[0074]
陽0巧]列名解釋:
[0076]
[0077] 3.OTU分析
[0078]OTU是在群體遺傳學(xué)研究中,為了便于分析,人為給某一個分類單元(屬、種、分組 等)設(shè)置的統(tǒng)一標(biāo)志。在生物信息分析中,測序得到的每一條序列來自于一個菌種,要了解 一個樣本測序結(jié)果中的菌種、屬等數(shù)目信息,就需要對序列進(jìn)行歸類操作。通過歸類操作, 將序列按照彼此的相似性歸類為許多小組,一個小組就是一個0TU。通常在97%的相似水 平下對所有序列進(jìn)行0TU劃分并進(jìn)行生物信息統(tǒng)計分析。 陽0巧]軟件平臺:Qiime平臺(vl. 7)
[0080] 分析方法:使用U化UST方法進(jìn)行OTU聚類,OTU中序列相似性設(shè)為97%,得到OTU 列表及OTU代表性序列; W81] ·otu_teble.xls各樣本0TU中序列數(shù)統(tǒng)計表
[0082]T油le3. 10TUt油le
[0083]
[0086] 4.物種分類分析
[0087] 為了得到0TU對應(yīng)的物種分類信息,對每個0TU選擇一條代表性序列,使用RDP classifier對代表性序列進(jìn)行物種分類注釋,從而得到每個樣本的群落組成。 陽0蝴軟件平臺:使用Qiime平臺(vl. 7)
[0089] 分析方法:使用畑P classifier貝葉斯算法對97%相似水平的OTU代表序列進(jìn) 行分類學(xué)分析,并在各個水平統(tǒng)計每個樣本的群落組成,比對數(shù)據(jù)庫為Silva_11116S rRNA database(http://www. arb-silva. de/)〇
[0090] Table 4. taxonomy treefile
[0091]
[0094] ·〇化_131316_111〇2_師_13^_3〇別6(1_12每個樣本在口水平下個物種的百分比統(tǒng)計 表
[00巧]Table 4. 2Taxa Statistics at Phylum level
[0096]
[0097] 列名解釋;
[0098]
[0099] · 03_Taxonomy/taxa_summary_by_sample/Sample_tax_stat.xls每個樣本在不 同分類水平下(Π、綱、目、科、屬)物種種類數(shù)目統(tǒng)計表
[0100]Table4.SStatisticsofTaxonomicComposition
[0101]
陽102] 注:上表中統(tǒng)計的物種種類數(shù)目為物種百分比統(tǒng)計表中不為0的分類數(shù)目,包含 other的類目。 陽103]列名解釋; 陽104]
[0105] 5.稀釋曲線
[0106] 基于ObservedOTUs數(shù),構(gòu)建的稀釋曲線(rarefaction州rve),是用于描述隨著 樣品量的加大,可能檢測到的物種種類隨之增加的狀況,是調(diào)查樣品的物種組成和預(yù)測樣 品中物種豐度的有效工具,在生物多樣性和群落調(diào)查中,被廣泛用于判斷樣品量是否充分 W及估計物種豐富度。因此,通過稀釋曲線不僅可W判斷樣品量是否充分,在樣品量充分的 前提下,運(yùn)用稀釋曲線還可W對物種豐富度進(jìn)行預(yù)測。 陽1〇7] 分析軟件:Qiime平臺(vl. 7)
[0108] 分析方法:采用對序列進(jìn)行隨機(jī)抽樣的方法,W抽到的序列數(shù)與它們所能代表 0TU的數(shù)目構(gòu)建稀釋曲線。 陽109] 6.α多樣性指數(shù)分析
[0110] 群落生態(tài)學(xué)中,α多樣性主要關(guān)注單樣本的多樣性分析,可W反映微生物群落中 物種的數(shù)目,通過一系列統(tǒng)計學(xué)指數(shù)的分析來估計環(huán)境群落的物種豐度和多樣性。 陽111] 計算菌群豐度(Communityrichness)的指數(shù)有:
[0112] ACE:用來估計群落中含有0TU數(shù)目的指數(shù),由化ao提出,是生態(tài)學(xué)中估計物種總 數(shù)常用指數(shù)之一。(ht1:p: //www.mothur.org/wdki/Ace)
[0113] 化ao:是用化aol算法估計樣品中所含OTU數(shù)目的指數(shù),化ao在生態(tài)學(xué)中常用來 評估物種總數(shù)。(ht1:p://www.mothur.org/wdki/Qiao)
[0114] 計算菌群多樣性(Communitydiversity)的指數(shù)有:
[0115] 化annon:常用于反映α多樣性指數(shù),用來估算樣品中微生物多樣性?;痑nnon值 越大,說明群落多樣性越高。(ht1:p:/