本發(fā)明涉及轉(zhuǎn)錄組學、特別是全轉(zhuǎn)錄組鳥槍測序(“RNA-seq”)領(lǐng)域。更具體地,其涉及適合于通過RNA-seq或微陣列分析或定量PCR(qPCR)分析的樣品中的RNA轉(zhuǎn)錄物變體的鑒定和定量的方法和產(chǎn)物。
背景技術(shù):
::當對核酸樣品進行測序時,下一代測序(NGS)技術(shù)產(chǎn)生大量短的讀長(read)。下一代測序中的一個重要步驟是文庫制備(librarypreparation,或者簡寫為libraryprep)。該過程使用mRNA或cDNA作為輸入并產(chǎn)生短cDNA片段的文庫,每個片段對應于mRNA分子的一段。然后通過NGS測序儀對這些片段進行測序,通常不是全部,而是部分地在其起始和/或終止時。這導致稱為讀長的短核苷酸序列,并且最通常由NGS測序儀存儲為代表遺傳密碼核堿基的一組四個ASCII字符(諸如A、C、G、T或0、1、2、3)的序列。為了推斷哪些mRNA分子存在于原始樣品中,將所述讀長作圖或比對到參照基因組或轉(zhuǎn)錄組上,或基于序列重疊從頭組裝。下一代測序已經(jīng)用于各種基因組作圖程序(US2013/110410A1)或DNA鑒定方法,例如,通過使用經(jīng)作圖的基因組將序列讀長與某種生物體變體相關(guān)聯(lián)(WO2009/085412A1)。WO2009/091798A1描述了用于獲得生物體的轉(zhuǎn)錄組譜的方法,所述方法包括:對一個或多個cDNA分子進行測序以獲得測序讀長;將每個測序讀長與參照序列比對。然而,使用短序列讀長的轉(zhuǎn)錄組分析的主要內(nèi)在問題是在如下文段落中描述的轉(zhuǎn)錄物變體的情況下的比對步驟。通常難以將短序列讀長正確地與一個轉(zhuǎn)錄物變體進行比對,特別是難以可靠地定量樣品中存在的所有轉(zhuǎn)錄物變體。EP2333104A1涉及對來源于潛在不同RNA分子庫的核酸分子片段序列進行排序的RNA分析方法?;虿粌H在一個轉(zhuǎn)錄物變體中表達,而且許多轉(zhuǎn)錄物同種型可以從給定的基因組區(qū)域轉(zhuǎn)錄(參見例如Nilsen和Graveley,2010;Wang等人,2009;Koscielny等人,2009),其外顯子-內(nèi)含子組成和轉(zhuǎn)錄起始(TSS)和終止位點(TES)有變化。轉(zhuǎn)錄物同種型也可以在其豐度上不同達六個數(shù)量級,增加了額外的復雜度層(Aird等人,2013)。Zhang等人的文獻涉及合成的選擇性剪接數(shù)據(jù)庫。通過RNA-Seq分析轉(zhuǎn)錄組中的復雜度需要將短的讀長與注釋的參照基因組比對,并從獨特的特征(諸如重疊群覆蓋和告訴外顯子-外顯子連接)得到轉(zhuǎn)錄物類似物和假說(參見例如Wang等人,2009)。這些算法遠不準確,遭受不足和不同的注釋以及分辨相似特征并以相似水平表達的轉(zhuǎn)錄物變體的固有問題。不使用基因組序列和注釋的轉(zhuǎn)錄組從頭組裝甚至更加困難和低效,并且主要應用于未充分表征的生物體。本發(fā)明的目的是提供允許樣品中轉(zhuǎn)錄物變體的更準確評估(即鑒定和定量)的方法和產(chǎn)品。發(fā)明概述本發(fā)明提供了用于在一個或多個樣品中受控鑒定和/或定量轉(zhuǎn)錄物變體的方法,包括:a)提供模擬轉(zhuǎn)錄物變體的人工核酸(NA)分子的參照集,包括至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個不同家族的NA分子,每個家族由至少兩種、優(yōu)選至少三種、更優(yōu)選至少四種、特別是至少五種不同NA分子組成,其中,獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,和其中,獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80個核苷酸(nt)、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列,并且所述每個家族的至少兩種NA分子相差至少80nt長度、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列,和其中所述NA分子中至少兩種、優(yōu)選每種以預設的摩爾量存在;和b)將所述參照集作為外部對照添加到包含轉(zhuǎn)錄物變體的一個或多個樣品;和c1)基于讀長生成和分配進行NA測序,其中使用參照集的讀長產(chǎn)生參照讀長分配,并且所述參照讀長分配用于控制、驗證或修飾一個或多個樣品的轉(zhuǎn)錄物變體的讀長分配;或者c2)對所述一個或多個樣品進行NA檢測或定量方法,優(yōu)選微陣列分析或qPCR,其中至少一個探針結(jié)合參照集的至少一個NA分子,并且基于從至少一個探針結(jié)合參照集的至少一個NA分子產(chǎn)生的信號的測量結(jié)果用于控制、驗證或修飾基于在所述NA檢測或定量方法中一個或多個樣品的轉(zhuǎn)錄物變體結(jié)合探針產(chǎn)生的信號的測量結(jié)果。本發(fā)明進一步提供了非常適合用于上述方法的人工NA分子的參照集,以及產(chǎn)生這樣的參照集的方法,以及適合包含在這樣的參照集中的NA分子。除非明確指出,否則以下詳細描述和優(yōu)選實施方案適用于本發(fā)明的所有方面,并且可以彼此組合而沒有限制。優(yōu)選實施方案和方面在權(quán)利要求中進一步限定。發(fā)明詳細公開內(nèi)容內(nèi)部、外部、相對和絕對標準對于確定包含轉(zhuǎn)錄物變體(適用于幾乎所有來自真核細胞的轉(zhuǎn)錄物樣品)的樣品和努力分析這樣的復雜轉(zhuǎn)錄物樣品的方法的不同質(zhì)量度量是必要的。定量數(shù)據(jù)可以用相對或絕對術(shù)語表示。每種不同的方法(例如微陣列、qPCR或NGS)在關(guān)于標準化測量結(jié)果的數(shù)據(jù)分析中具有許多特性。對于微陣列和qPCR中的相對定量,使用內(nèi)部或外部對照在樣品之間比較RNA水平,以對樣品濃度和上樣的差異進行標準化。NGS實驗使用不同的標準化程序來測定讀長的數(shù)量,以及鑒定的轉(zhuǎn)錄物的長度。結(jié)果取決于許多變量,如基因注釋的質(zhì)量和狀態(tài),或文庫制備與比對和裝配算法的測序偏差之間的一致性。例如需要對照以補償文庫制備效率的差異。對照是在整個樣品集中以恒定水平表達的內(nèi)部基因(內(nèi)部參照)或摻入的RNA(外部參照)。對于表示實驗基因的表達水平的定量信號強度(熒光單位或讀長計數(shù)),外顯子或標簽與含有已知量或比率的標準相關(guān),并且所述標準被定義為絕對或相對參照。US2004/009512A1公開了使用內(nèi)部對照探針分析mRNA剪接產(chǎn)物的方法(該文獻的權(quán)利要求7,第[0097]和[0106]段)。沒有公開代表具有本發(fā)明涉及的分子長度的變體的內(nèi)部對照。市售有許多復雜RNA標準樣品,例如通用人參照RNA和通用人腦參照RNA(Ambion,LifeTechnologies)。這些標準從多個供體和若干組織/腦區(qū)域匯集,因此旨在用于基因表達的廣泛無偏和可再現(xiàn)的覆蓋。對這些標準樣品的實驗提供參照數(shù)據(jù),并用于驗證和評價實驗方法。為了將未知樣品的測量與彼此和所述標準樣品聯(lián)結(jié)起來,需要內(nèi)部或外標。內(nèi)部RNA標準是在所有待分析的樣品中以相對恒定的水平表達的基因。內(nèi)標應在生物體的不同組織之間、在所有發(fā)育階段以及對照和實驗處理的細胞類型中同樣地表達,并且通常稱為“持家”基因。不幸的是,盡管在最廣泛的實驗條件下18SrRNA似乎接近是理想的內(nèi)部對照,在所有這些情況下沒有具有恒定表達水平的單一RNA。然而,rRNA的相對高豐度導致文庫制備方法,其特異性耗盡rRNA以釋放測序空間。因此,有必要為特定的實驗問題確定合適的對照RNA,其將最可能是mRNA。這進而需要考慮mRNA同種型對標準的適用性的影響。雖然可以發(fā)現(xiàn)一些內(nèi)標(β-肌動蛋白、甘油醛-3-磷酸脫氫酶(GAPDH)或親環(huán)蛋白mRNA),只有外標提供受控且可靠的參照值。來自其他物種的RNA樣品的恒定來源可以用作外標,例如,細菌轉(zhuǎn)錄組加入到哺乳動物樣品中。然而,因為甚至更簡單的生物體如原核生物已經(jīng)具有如此大量的轉(zhuǎn)錄物,在整個動態(tài)(濃度)范圍內(nèi)的平衡表示將浪費太多的測序空間。因此,以前開發(fā)了低復雜度但可比動態(tài)范圍的外標,ERCC。由國家標準與技術(shù)研究所(NIST,美國)牽頭并由37個實體組成的ERCCConsortium通過合成DNA序列或源自枯草芽孢桿菌(Bacillussubtilis)或深海通氣孔微生物詹氏甲烷球菌(Methanocaldococcusjannaschii)基因組的DNA的體外轉(zhuǎn)錄合成對照RNA。這些轉(zhuǎn)錄物旨在是單外顯子的(monoexonic)和非同種型的,即它們不代表剪接或其它轉(zhuǎn)錄物變體。該聯(lián)合會決定在19-25個腺苷(23個腺苷中值)之間的多聚(A)尾長,長度為250-2000nt,GC含量為約30-55%。這些不同的序列顯示內(nèi)源轉(zhuǎn)錄物的至少一些性質(zhì),諸如GC含量和長度的多樣性。ERCCRNA顯示與來自測序的真核生物的內(nèi)源轉(zhuǎn)錄物的最小序列同源性(ExternalRNAControlsConsortium,2005a)。ERCC混合物的開發(fā)記錄在特殊報告(ExternalRNAControlsConsortium,2005)中。Blomquist等人的文獻涉及通過NGS進行的DNA測序,并且使用采用合成內(nèi)標的方法(該文獻的摘要和圖1)。在RNA處理過程中,使用ERCC摻入對照內(nèi)標(該文獻的第4頁左欄)。Devonshire等人的文獻也涉及ERCC。Ambion(LifeTechnologies的一部分)商業(yè)性提供92種ERCC轉(zhuǎn)錄物,其被以獨立混合物(濃度跨越6個數(shù)量級)或2種混合物的形式設計為摻入應被比較差異基因表達的兩種樣品(測量測定倍數(shù)變化的準確性;UserGuide:ERCCRNASpike-InControlMixes,Ambion)。雖然最初設想用于qPCR和微陣列系統(tǒng),它們現(xiàn)在廣泛應用于RNA-SeqNGS實驗。這種不同的有意的目的使得目前使用ERCC是有問題的。ERCC的限制在于它們i)其大小范圍受限,ii)僅含有短的多聚(A)尾和iii)無帽結(jié)構(gòu)。然而,ERCC的主要缺點是它們不含任何種類的轉(zhuǎn)錄物變體。因此,它們不適合于轉(zhuǎn)錄物變體的受控鑒定和/或定量,并且不適于在這方面評估測序方法(或其他分析方法)。另一個缺點是它們與已知序列(芽孢桿菌和甲烷球菌)具有相似性。Sun等人的文獻涉及選擇性剪接轉(zhuǎn)錄物的定量。人端粒酶逆轉(zhuǎn)錄酶的剪接變體用作對照。已知約20種剪接變體,其中4種在腫瘤中是常見的(該文獻的第319頁中間欄)。在該文獻(該文獻的第320頁中間欄和圖1;第321頁左欄;表1)中已經(jīng)研究了這些常見的4種。然而,該文獻不涉及人工轉(zhuǎn)錄物變體,并且該文獻的對照僅限于單個人類基因,不像本發(fā)明允許代表性且準確地模擬選擇性剪接事件而不必依賴于天然序列(其依賴于天然序列實際上可能干擾實驗)。本發(fā)明克服了這些缺點。在本發(fā)明的過程中,開發(fā)和表征了許多不同的方法和參照集,以便得出特別適合于解決鑒定和定量轉(zhuǎn)錄物變體的本發(fā)明問題的方法和產(chǎn)品。因此,在本發(fā)明的一個方面,提供了用于一個或多個樣品中受控鑒定和/或定量轉(zhuǎn)錄物變體的方法,包括:a)提供模擬轉(zhuǎn)錄物變體的人工核酸(NA)分子的參照集,包括至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個不同家族的NA分子,每個家族由至少兩種、優(yōu)選至少三種、更優(yōu)選至少四種、特別是至少五種不同NA分子組成,其中,獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,和其中,獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80個核苷酸(nt)、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列,并且所述每個家族的至少兩種NA分子相差至少80nt長度、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列,和其中所述NA分子中至少兩種、優(yōu)選每種以預設的摩爾量存在(其使得參照集特別適用于本方法,因為其允許例如將樣品讀長分配相對參照(即對照)讀長分配進行標準化);和b)將所述參照集作為外部對照添加到包含轉(zhuǎn)錄物變體的一個或多個樣品中(所述參照集可以物理地添加到相同的樣品容器中和/或到分開的容器中用于分析。此外或者備選地,它也可以在計算機實現(xiàn)的方法步驟中通過使用來自相同分析儀器、相同的分析儀器模型或其他分析儀器模型的參照集的先前測量而非物理地添加);和c1)基于讀長生成(讀長可以具有任何長度)和分配(即將讀長作圖到參照序列上)進行NA測序,其中使用參照集的讀長產(chǎn)生參照讀長分配,并且所述參照讀長分配用于控制、驗證或修飾一個或多個樣品的轉(zhuǎn)錄物變體的讀長分配;或者c2)對所述一個或多個樣品進行NA檢測或定量方法,優(yōu)選微陣列分析或qPCR,其中至少一個探針結(jié)合參照集的至少一個NA分子,并且基于從至少一個探針結(jié)合參照集的至少一個NA分子產(chǎn)生的信號的測量結(jié)果用于控制、驗證或修飾基于在所述NA檢測或定量方法中一個或多個樣品的轉(zhuǎn)錄物變體結(jié)合探針產(chǎn)生的信號的測量結(jié)果。在qPCR中,探針可以是在PCR反應中延伸的引物或標記的DNA探針;在微陣列分析中,探針可以是固定在DNA芯片上的DNA探針。NA可以是DNA或RNA。優(yōu)選地,它是RNA。本領(lǐng)域技術(shù)人員可以自由選擇何時應用參照集作為DNA或RNA。技術(shù)人員還知道如何制備用于NA測序或NA檢測或定量方法的樣品。有利地,在應用NA測序或NA檢測或定量方法之前,在樣品制備期間早期添加參照集,使得參照集在所有或大多數(shù)樣品制備步驟期間存在。為此,其優(yōu)選作為RNA加入,因為轉(zhuǎn)錄物變體(目的分子)通常是在樣品制備的早期的mRNA分子。如在本文全文中使用的“人工NA分子”或“人工基因”或“人工序列”中的術(shù)語“人工”是指稱為不存在于天然生物有機體(諸如微生物、動物或植物)但是被人故意地思考和創(chuàng)造的人工實體。然而,諸如人工NA分子或人工基因的人工實體仍然可以在重組生物體中產(chǎn)生(例如引入天然存在的大腸桿菌(E.coli)細胞中并在天然存在的大腸桿菌細胞中表達)而不失去其是人工的質(zhì)量。人工NA分子特別適合于本發(fā)明的方法,特別是當它們與已知NA序列不具有或僅具有可忽略的序列同源性時。這允許即使對于下一代測序讀長中典型的短序列(例如在40-80nt之間或甚至在20-200nt之間),將讀長明確分配為“參照讀長”(即產(chǎn)生參照讀長分配)。通常,轉(zhuǎn)錄物是來自一個基因(例如來自DNA模板)的轉(zhuǎn)錄產(chǎn)物(例如通過RNA聚合酶合成),其由從轉(zhuǎn)錄起始位點到轉(zhuǎn)錄終止位點的RNA序列組成。為了本發(fā)明的目的,轉(zhuǎn)錄物是包含至少一個外顯子的NA分子。該詞轉(zhuǎn)錄物描述的是單個分子或具有相同序列的所有分子的組。眾所周知,在真核生物中,mRNA(轉(zhuǎn)錄物)被從前mRNA(也稱為異源核核糖核酸)加工(特別是通過剪接)以得到成熟轉(zhuǎn)錄物。根據(jù)定義,從轉(zhuǎn)錄物剪接掉的序列區(qū)域稱為內(nèi)含子,保留在成熟轉(zhuǎn)錄物中的序列區(qū)域稱為外顯子。一個成熟轉(zhuǎn)錄物變體中的外顯子可以是另一個成熟轉(zhuǎn)錄物變體的內(nèi)含子(由于不存在于該變體中)。當所有轉(zhuǎn)錄物變體的序列已知時,技術(shù)人員顯然清楚如何將基因序列區(qū)域注釋為外顯子和內(nèi)含子。如本文所使用的,外顯子是可以是在任何變體中是外顯子的序列區(qū)域。它通常通過位于封閉的內(nèi)含子區(qū)域的兩端的相當保守的序列來進行表征,并且與相鄰外顯子形成所謂的外顯子-外顯子接頭(junction),也參見表2。天然外顯子可以是編碼區(qū)的一部分(或反之亦然),然而,在本發(fā)明的人工NA分子的情況下,外顯子優(yōu)選不是人工蛋白質(zhì)或天然蛋白質(zhì)的編碼區(qū)的一部分(或反之亦然),因為本發(fā)明的人工序列被設計為缺乏與生物體中存在的已知轉(zhuǎn)錄物的相似性并且不含有具有起始和終止密碼子的閱讀框或僅具有起始密碼子的開放閱讀框(ORF)。包含在本發(fā)明的人工NA分子中的外顯子是人工外顯子,因為它們包含人工序列。除非另有說明,否則本文中的詞“轉(zhuǎn)錄物”應解釋為表示“成熟轉(zhuǎn)錄物”。在最廣義的術(shù)語中,轉(zhuǎn)錄物“變體”是基因的轉(zhuǎn)錄物,其中存在所述基因的至少兩個轉(zhuǎn)錄物,其中轉(zhuǎn)錄物與至少兩個轉(zhuǎn)錄物中的另一個轉(zhuǎn)錄物相差至少一個核苷酸(由“選擇性轉(zhuǎn)錄事件”生成)。然而,在本發(fā)明方法的上下文中,每個(轉(zhuǎn)錄物)家族的人工NA分子對于每個家族獨立地共有長度為至少80個核苷酸(優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt)的序列,并且每個家族的至少兩個NA分子對于每個家族獨立地與至少另一個序列相差至少80個核苷酸長度(優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt)。該家族的其他成員可以與其它成員僅差一個核苷酸,但是優(yōu)選變體之間的更大差異——例如在家族的所有成員之間低至僅80nt或100nt或150nt或200nt的一段序列(stretch)的序列同一性。本文中,(人工基因的)“模擬轉(zhuǎn)錄物變體”是指具有代表天然存在的真核生物(優(yōu)選動物或植物、更優(yōu)選脊椎動物、甚至更優(yōu)選哺乳動物、特別是人)基因的天然存在的真核生物(優(yōu)選動物或植物、更優(yōu)選脊椎動物、甚至更優(yōu)選哺乳動物、特別是人)轉(zhuǎn)錄物。本領(lǐng)域技術(shù)人員熟悉轉(zhuǎn)錄物變體的這些典型特征。這些特征包括以下一種或多種:是一個或多個選擇性剪接事件的結(jié)果(參見下文和表1),具有某些內(nèi)含子剪接位點二核苷酸(參見下文和表2),具有選擇性轉(zhuǎn)錄起始和終止位點(參見下文),是反義轉(zhuǎn)錄物,與其他基因/轉(zhuǎn)錄物重疊,被多聚腺苷酸化(參見Wang等人,2008)。另外或者備選地,可以使用Wang等人,2008、特別是圖2中定義的特征。有利地,參照集的NA(RNA或DNA)分子的整體具有前兩句中所述的參照集中所述的特征中的至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、甚至更優(yōu)選至少四個、特別是至少五個,其中每個NA分子彼此獨立地在至少一個或至少兩個或至少三個或至少四個分開的實例中具有在前面句子中所述的特征中沒有特征、有一個、兩個、三個、四個、五個或六個特征。本發(fā)明的NA分子不必是RNA分子以模擬轉(zhuǎn)錄物變體。轉(zhuǎn)錄物變體的模擬也可能使用DNA或其他NA分子。為了本發(fā)明的目的,可以產(chǎn)生包含人工基因的人工基因組(在計算機中通過排列序列而在概念上產(chǎn)生)。該人工基因組的序列也可用于讀長分配。人工基因具有從天然存在的基因已知的特征,諸如啟動子、轉(zhuǎn)錄起始位點、轉(zhuǎn)錄區(qū)和轉(zhuǎn)錄終止位點(也稱為終止子)。因為本發(fā)明涉及模擬人工基因的轉(zhuǎn)錄物變體(而不是人工基因或來自所述人工基因本身的相應蛋白的物理合成),所以啟動子區(qū)對于本發(fā)明的目的是不相關(guān)的。作為相同人工基因(即人工NA分子家族的成員)的參照轉(zhuǎn)錄物變體的人工NA分子以與天然存在的基因彼此相關(guān)并且與所述天然存在的基因相關(guān)的相同的方式彼此相關(guān)并與所述人工基因相關(guān)(通過參數(shù)諸如大小和序列)。它們的共同特征可以是轉(zhuǎn)錄物變體共有從它們轉(zhuǎn)錄自相同假設基因之間的外顯子(或其部分)。對于本領(lǐng)域技術(shù)人員顯而易見的是,對于本發(fā)明的目的,人工基因僅僅是定義人工NA分子的概念,并且不必超過定義人工NA分子所必需的進行定義(例如,如前所述,基因的啟動子區(qū)不必定義)。有利地,模擬轉(zhuǎn)錄物變體的人工多核酸NA(RNA或DNA)分子的參照集具有在先前段落中提及的典型轉(zhuǎn)錄物特征的類似于(至少+/-50%、優(yōu)選至少+/-25%、特別是至少+/-10%)真核生物(優(yōu)選動物或植物、更優(yōu)選脊椎動物、甚至更優(yōu)選哺乳動物、特別是人)轉(zhuǎn)錄組中典型轉(zhuǎn)錄物特征的相應平均頻率(例如如以下段落中所指定的)的頻率,在至少一個或至少兩個或至少三個或至少四個分開的實例中具有在參照集中存在的典型轉(zhuǎn)錄物特征中至少一個、優(yōu)選至少兩個,更優(yōu)選至少三個、特別是至少四個特征,特別是所有典型轉(zhuǎn)錄物特征。選擇性剪接事件(AS):術(shù)語選擇性剪接用于生物學中以描述其中初級轉(zhuǎn)錄物(前mRNA)可以以多于一種模式被剪接以產(chǎn)生多個不同的成熟mRNA的任何情況。最常見的選擇性剪接事件類型示于表1中。在人類中,外顯子跳讀是發(fā)現(xiàn)的最常見剪接事件的選擇性5'和3'剪接位點各約25%。此外,選擇性剪接位點通常一起發(fā)生(Barbazuk等人,2008;Roy等人,2013)。腦組織和睪丸組織被發(fā)現(xiàn)擁有大量的AS事件(Roy等人,2013)。有利地,參照集的NA分子的整體具有表1中列舉的特征中的至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、甚至更優(yōu)選至少四個、特別是至少五個,其中每個NA分子彼此獨立地在至少一個或至少兩個或至少三個或至少四個分開的實例中具有在前面句子中列舉的特征中沒有特征、有一個、兩個、三個、四個、五個、六個或七個特征。表1|選擇性剪接事件。該表顯示了源自Ensembl基因注釋的若干選擇性剪接事件。Ensembl基因集包括自動和手動注釋,其中所有轉(zhuǎn)錄物基于實驗證據(jù)(也參見Wang等人,2008)。反義轉(zhuǎn)錄物和重疊基因:設計單外顯子的反義轉(zhuǎn)錄物以及重疊變體,因為后者構(gòu)成了基因子集的所有轉(zhuǎn)錄物的顯著共有部分(在人中為9%,在小鼠中為7.4%;Sanna等人,2008)。重疊變體可以是單外顯子的或剪接的(例如只有末端外顯子重疊的3個外顯子)和有義或反義方向。反義導向的基因可以比在相同方向上的重疊基因的頻繁10倍。有利地,參照集的NA分子的整體在有義和/或反義方向上包含至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、甚至更優(yōu)選至少五個重疊轉(zhuǎn)錄物。優(yōu)選地,這樣的轉(zhuǎn)錄物的頻率是參照集中存在的所有轉(zhuǎn)錄物的約10%。兩個人工轉(zhuǎn)錄物變體之間的反義重疊長度可以為10nt-500nt。選擇性轉(zhuǎn)錄物起始位點和終止位點(TSS和TES):除了導致選擇性第一個和/或最后一個外顯子(AFE和ALE)的選擇性剪接事件之外,還在注釋外顯子內(nèi)或跨外顯子的轉(zhuǎn)錄物的實際起始或終止位點的變異也是可能的。對于微觀變異,與注釋位點的精確偏差是有爭議的,但通常小于20nt。此外,它們是功能上相似的,即取決于相同的啟動子或相同的聚腺苷酸化信號,因此它們的調(diào)節(jié)共改變。對于宏觀變異,這些選擇性TSS和TES通常依賴于選擇性啟動子或多腺苷酸化信號,并且可以位于相同的第一個或最后一個外顯子內(nèi)或位于相鄰的外顯子中。它們的位置被分開得更遠,即500nt可以作為啟動子的參照距離(Xin等人,2008),并且40nt被視為多聚(A)位點測量中的調(diào)節(jié)距離(Yoon等人,2012)。因此,有利地,參照集的NA分子的整體包含至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、甚至更優(yōu)選至少五個TSS和/或TES。優(yōu)選地,一個家族中的至少兩個轉(zhuǎn)錄物變體在20nt、優(yōu)選在10nt的長的5'或3'末端區(qū)域中相差至少1nt、優(yōu)選2nt、3nt、4nt、5nt或更多。特別優(yōu)選不同的nt在5'或3'末端本身。本文中,選擇性剪接事件,選擇性轉(zhuǎn)錄物起始位點和終止位點以及反義轉(zhuǎn)錄物和重疊基因被歸入術(shù)語“選擇性轉(zhuǎn)錄事件”。內(nèi)含子剪接位點二核苷酸:大多數(shù)內(nèi)含子在其5'和3'末端附近具有由剪接體組分識別的共同的共有序列,并且是剪接體形成所需的(圖1)。對于主要類別,剪接接頭對是高度保守的,并且典型地包含內(nèi)含子供體和受體序列GT-AG(注釋的接頭的98.70%),接著是GC-AG和AT-AC的頻率(表2)。在更一般的觀點中,最常見的外顯子-內(nèi)含子序列可以描述為:外顯子...AT(切割)GT...內(nèi)含子...AG(切割)G...下一個外顯子。在表2中,給出了供體-受體對的頻率。為了說明這種保守和中度變異性,所有接頭的97%是GT-AG,2%是GC-AG和1%是AT-AC。此模擬應允許對齊器(例如TopHat)使用和評估其現(xiàn)有接頭表。外顯子邊界應當是5'AG和3'AT,其中它們不干擾更重要的內(nèi)含子接頭二核苷酸。有利地,參照集的NA分子的整體包含外顯子的一個、優(yōu)選兩個、特別是所有內(nèi)含子供體-受體二核苷酸(諸如選自GU-AG、GC-AG、AU-AC),優(yōu)選各自具有存在的所有內(nèi)含子供體-受體二核苷酸的約97%、2%和1%的頻率。表2|規(guī)范和非規(guī)范供體受體對。源自外顯子坐標信息(ICE)數(shù)據(jù)庫、10,803個人類基因的基因組剪接位點(SS)的剪接位點二核苷酸。從256個理論上可能的供體和受體二核苷酸對中,三個最具代表性的特異性對(GT-AG、GC-AG和AT-AC)覆蓋所有情況的99.56%(91,846個中的91,022個)(Chong等人,2004)。多聚腺苷酸化:已知成熟真核轉(zhuǎn)錄物具有多聚(A)尾。有利地,本發(fā)明或用于本發(fā)明方法的人工NA分子具有至少10個、優(yōu)選至少20個、特別是至少30個腺苷的聚(A)尾,其支持實際轉(zhuǎn)錄物的近似模擬。此外,它確保(特別是用至少30個腺苷)適當寡聚(dT)珠純化,并且還有助于平衡具有T7啟動子和聚(A)結(jié)合引物的PCR擴增反應中5'/3'引物解鏈溫度(Tm),用于普遍擴增所有構(gòu)建體。本發(fā)明的上述方法優(yōu)選包括基于讀長生成(讀長可以具有任何長度)和分配(即將讀長作圖到參照序列上)進行NA測序,其中參照讀長分配通過參照集的讀長產(chǎn)生,所述參照讀長分配用于控制、驗證或修飾一個或多個樣品的轉(zhuǎn)錄物變體的讀長分配。本領(lǐng)域中已知如何使用外部對照來控制,驗證或修飾讀長分配(例如Jiang等人,2011)。在本發(fā)明的過程中發(fā)現(xiàn),在容器中提供例如由樣品本身溶解的干燥形式的人工NA分子的參照集而降低處理誤差(也參見實施例8)。此外,NA分子(特別是RNA分子)在干燥時通常更穩(wěn)定。因此,在特別優(yōu)選的實施方案中,在容器中提供干燥、優(yōu)選冷凍干燥的人工NA分子的參照集。通常,為每個樣品提供具有參照集的分開容器。優(yōu)選地,在干燥之前、期間或之后,特別是在干燥之前,將穩(wěn)定劑(減少NA、特別是RNA的降解)添加到參照集中。這樣的穩(wěn)定劑包括抗氧化劑、EDTA、DDT、其他核酸酶或RNAse抑制劑(例如Promega的Biomatrica的GenTegra的-RNA)。通常,額外的穩(wěn)定化對于RNA分子比對于DNA分子更重要。根據(jù)前一段,在另一個高度優(yōu)選的實施方案中,通過將樣品添加到所述容器中,從而將干燥的參照集溶解在樣品中,來進行作為外部對照的參照集的添加。以下描述了如何控制、驗證或修飾一個或多個樣品的轉(zhuǎn)錄物變體的讀長分配的實例:在該設置中,基因1(G1)具有兩個轉(zhuǎn)錄物變體G1T1和G1T2,它們彼此不同在于一個僅保留內(nèi)含子序列。當校準器使用編程的概率算法(其使用不同模型的加權(quán)預設或如起始位點分布、序列偏差、長度偏差和上述剪接位點二核苷酸注釋(表2))在G1基因座內(nèi)分布所產(chǎn)生的讀長時,最終分配的讀長計數(shù)并標準化為例如每百萬經(jīng)作圖的片段的外顯子的每千堿基片段(FPKM),以獲得G1T1和G1T2之間的相對轉(zhuǎn)錄物濃度和比率的一種量度。根據(jù)實驗設置,F(xiàn)PKM值含有從非常相同的實驗中的技術(shù)重復或從以前的參照實驗估計的置信區(qū)間。如果對齊算法施加假偏差并產(chǎn)生假表達值,則G1T1和G1T2的結(jié)果仍然是錯誤的,而且當樣本本身或?qū)嶒灄l件改變時,結(jié)果可以是完全任意的。只有參照集Ref1T1和Ref1T2的具有相似復雜度(例如相似長度、該距離(proximity)處的內(nèi)含子保留)的基礎(chǔ)真實知識允許從文庫生成、通過測序直到讀長分配來評估特定實驗的性能并計算類似復雜度的基因和轉(zhuǎn)錄物變體分布的置信區(qū)間。因此,參照讀長分配可以用于調(diào)整或移動樣品讀長的統(tǒng)計讀長分配,諸如基于標準化,優(yōu)選基于FPKM值??梢杂捎趨⒄占囊阎M成和量(預定值,其可以適合于給定平臺適當?shù)剡x擇)來校正參照集的讀長分配中的錯誤,并且所述校正可以被應用以修飾樣本讀長分配?;蛘撸景l(fā)明的上述方法優(yōu)選包括對一個或多個樣品進行NA檢測或定量方法,優(yōu)選微陣列分析或qPCR,其中至少一個探針結(jié)合參照集的至少一個NA分子,并且基于從至少一個探針結(jié)合參照集的至少一個NA分子產(chǎn)生的信號的測量結(jié)果用于控制、驗證或修飾基于在所述NA檢測或定量方法中一個或多個樣品的轉(zhuǎn)錄物變體結(jié)合探針產(chǎn)生的信號的測量結(jié)果。在本領(lǐng)域中已知如何使用外部對照來控制、驗證或修飾測量結(jié)果。參見例如Devonshire等人,2010。在本發(fā)明的過程中,出乎意料地發(fā)現(xiàn),上述方法的適應性特別適合于評估NA測序方法。它也非常適合于評估NA測序方法,或用于評估NA檢測或定量方法。因此,在本發(fā)明的另一方面,提供了一種用于評估NA測序方法或用于評估NA檢測或定量方法的方法,包括:a)提供模擬轉(zhuǎn)錄物變體的人工NA分子的參照集(如前所述),包括至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個不同家族的NA分子,每個家族由至少兩種、優(yōu)選至少三種、更優(yōu)選至少四個種、特別是至少五個不同NA分子組成,其中,獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,和其中,獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80nt、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列,并且所述每個家族的至少兩種NA分子的區(qū)別在于至少80nt長度、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列,和其中所述NA分子中至少兩種,優(yōu)選每種以預設的摩爾量存在;和b1)對于評估NA測序方法,基于讀長生成和分配執(zhí)行NA測序,其中利用所述參照集的讀長來生成參照讀長分配;或者b2)對于評估NA檢測或定量方法,對參照集執(zhí)行所述NA檢測或定量方法,其中至少一種探針結(jié)合所述參照集的至少一個NA分子;和c)將任意參照集的至少一種NA分子的步驟b)的輸出結(jié)果,特別是輸出摩爾量,輸出濃度,和/或,在評估NA測序方法的情況下,分配讀長的數(shù)量,和/或所述參照集的至少兩種NA分子的上述結(jié)果的至少一個比率,與所述預設的摩爾量進行比較和/或,在評估NA測序方法的情況下與分配讀長的數(shù)量,和/或由此計算或預期的比率和/或輸出進行比較。本質(zhì)上,本發(fā)明提供了“用基準測試”(或比較或評估)各種NA分析方法的方法,從而允許研究者(或NA分析方法和/或NA分析儀器的生產(chǎn)者)優(yōu)化他們的方法,特別是關(guān)于能夠可靠地鑒定和/或定量轉(zhuǎn)錄物變體(如對于復雜生物體的轉(zhuǎn)錄組是典型的)。從關(guān)于參照集的已知參數(shù)(例如濃度、存在的序列等-即參照集表示在這種情況下的已知對照),技術(shù)人員能夠計算或預測預期結(jié)果(例如讀長的數(shù)量、外推濃度等等)。通過將(實際)輸出結(jié)果與預期結(jié)果進行比較,技術(shù)人員能夠確定實際結(jié)果與預期結(jié)果之間的差異(divergence),從而評估核酸測序方法。值得注意的是,還可以通過(重復地)使用參照集的先前測序測量和(迭代地)改變測序方法的計算部分來評估核酸測序方法的計算方面,以便評估不同的計算方法部分(例如算法),或者以便改進方法部分(例如,一個或多個算法)。有利地,本發(fā)明的任何參照集(參見下文)適用于本發(fā)明的上述方法,特別是當所述參照集的至少兩種、優(yōu)選每種NA分子以預設的摩爾量存在時。在本發(fā)明的過程中,表征了許多不同的參照集(及其生產(chǎn)方法),并且最終找到了特別適合于前述方法的參照集(及其生產(chǎn)方法)。(然而,前述方法不限于使用本發(fā)明的參照集;其它參照集也可以是合適的(但是也比本發(fā)明的參照集更少))。因此,在本發(fā)明的另一方面,提供了產(chǎn)生模擬轉(zhuǎn)錄物變體的人工NA分子、優(yōu)選RNA或DNA分子的參照集的方法,包括:A)從天然存在的真核生物基因、優(yōu)選動物或植物基因、更優(yōu)選脊椎動物基因、甚至更優(yōu)選哺乳動物基因、特別是人類基因的組選擇至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個基因。在本領(lǐng)域中已知在哪兒找到這樣的基因。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。例如,可以從公共可訪問的數(shù)據(jù)庫(諸如Ensembl、美國國家生物技術(shù)信息中心(NCBI)GenBank或其它NCBI數(shù)據(jù)庫)獲得它們(或它們的注釋序列或其用于其他公共數(shù)據(jù)庫的名稱)。舉例來說,對于人類基因,可以從以下NCBI搜索查詢中選擇基因:http://www.ncbi.nlm.nih.gov/gene/?term=Homo+sapiens[Orgn]備選地或另外,可以在Ensembl數(shù)據(jù)庫(http://www.ensembl.org)中瀏覽基因組。優(yōu)選地,該基因關(guān)于其轉(zhuǎn)錄物變體(轉(zhuǎn)錄物表)是良好注釋的,并且注釋了內(nèi)含子/外顯子。B)為每個選擇的基因選擇至少兩個、優(yōu)選至少三個、更優(yōu)選至少四個、特別是至少五個天然存在的mRNA轉(zhuǎn)錄物變體,其中每個轉(zhuǎn)錄物變體具有至少100nt的長度,并且包含至少一個外顯子。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。舉例來說,Ensembl數(shù)據(jù)庫包含基因(例如人類基因)的良好注釋的轉(zhuǎn)錄物變體(也稱為轉(zhuǎn)錄物表)。例如:http://www.ensembl.org/Homo_sapiens/Gene/Summary?g=ENSG00000139618;r=13:32889611-32973805顯示基因BRCA2的轉(zhuǎn)錄物表。Ensembl還含有注釋的剪接事件(ASE)(Wang等人,2008;Koscielny等人,2009)。序列注釋,作為基于文本的格式的FASTA文件表示純核苷酸序列,并且通常與通常保存在GTF文件(通用傳送格式)中的轉(zhuǎn)錄物變體注釋一起使用,其包含所有相關(guān)信息,如seqname-染色體或支架的名稱;染色體名稱可以帶有或不帶有'chr'前綴;源-生成此特征的程序或數(shù)據(jù)源(數(shù)據(jù)庫或項目名稱)的名稱;特征-特征類型名稱,例如基因、變異、相似性;起始-特征的起始位置,序列編號從1開始;終止-特征的終止位置,序列編號從1開始;評分-浮點值;鏈-定義為+(正向)或-(反向);框-'0'、'1'或'2'之一。'0'表示特征的第一個堿基是密碼子的第一個堿基,'1'表示第二個堿基是密碼子的第一個堿基,等等;屬性-以分號分隔的標記值對列表,提供有關(guān)每個特征的附加信息。從GTF文件,不同的轉(zhuǎn)錄物可以通過具有縮放功能的程序顯示,用于視覺檢查。C)提供每個所述選擇的包含至少一個外顯子的天然存在的mRNA轉(zhuǎn)錄物變體的序列,任選地其中所述序列被轉(zhuǎn)換為另一種NA類型,諸如DNA序列。將RNA轉(zhuǎn)換為DNA序列是微不足道的。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。有利地,mRNA轉(zhuǎn)錄物變體是成熟轉(zhuǎn)錄物。D)通過以下步驟修飾步驟C)的每個序列:獨立地對于每個外顯子,將每個序列的每個外顯子的序列替換為大約相同長度的序列(作為外顯子序列),其中所述大約相同長度的序列選自:病毒序列、噬菌體序列、其反向序列,任何其他反向的天然存在的序列(反向防止比對軟件將序列與其原始基因座比對以及還與其原始互補序列雜交),非天然存在的隨機序列及其組合,優(yōu)選所述大約相同長度的序列選自:病毒序列、噬菌體序列、其反向序列,非天然存在的隨機序列及其組合,更優(yōu)選所述大約相同長度的序列選自:病毒序列、噬菌體序列、其反向序列及其組合,優(yōu)選其中所述大約相同長度的序列通過任意其它二核苷酸,優(yōu)選通過GT、GC或AT替換至多3個、優(yōu)選至多2個、特別是至多1個二核苷酸而相互獨立地修飾,或通過任意其它二核苷酸,優(yōu)選通過AG、AC或AT替換至多3個、優(yōu)選至多2個、特別是至多1個二核苷酸,優(yōu)選彼此獨立地,優(yōu)選條件是進行該二核苷酸交換,使得外顯子編碼的內(nèi)含子接頭二核苷酸的豐度是90-100%(GT-AG)、0-10%(GC-AC)和0-2%(AT-AT),以反映天然存在的頻率,如例如外顯子坐標信息(ICE)數(shù)據(jù)庫(Chong等人,2004)中給出的(一個序列中的外顯子可以是另一個轉(zhuǎn)錄物的內(nèi)含子,通過不存在于所述另一個轉(zhuǎn)錄物中)。從而獲得人工轉(zhuǎn)錄序列(包含至少一個人工外顯子)集,條件是從相同選擇的基因的所選擇的天然存在的mRNA轉(zhuǎn)錄物變體的序列所獲得的人工轉(zhuǎn)錄物序列共有長度至少為80nt的序列,其優(yōu)選包含在單個外顯子序列中,和優(yōu)選條件是當步驟C)的序列的外顯子序列與步驟C)的序列的另一個外顯子序列相同時,外顯子序列和另一個外顯子序列被大約相同長度的同一所述序列替換。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。該步驟(和所有隨后的優(yōu)選計算步驟)可以例如用廣泛使用的軟件CLCMainWorkbench(QIAGEN)、Bioconductorpackage、UCSCGenomeBrowser或其他來執(zhí)行。序列也可以組合以形成大約相同長度的序列,特別是如果病毒序列、噬菌體序列、其反向序列,任何其他反向天然存在的序列或非天然存在的隨機序列序列太短而不能填充整個外顯子。有利地,病毒序列、噬菌體序列、其反向序列或任何其他反向天然存在的序列或非天然存在的隨機序列的長度為至少10nt、優(yōu)選至少20nt、更優(yōu)選至少50nt、特別是至少100nt,特別是為了避免組合太多的短序列段從而無意中產(chǎn)生與真核序列太同源的序列。優(yōu)選地,通過序列的拼接(concatenation)進行組合。有利地,通過引入單點突變從人工轉(zhuǎn)錄序列中去除某些限制性位點(例如去除XhoI和NsiI的限制性位點),以允許在克隆中更好的操作。E)任選地復制步驟D)的集中的至少一個人工轉(zhuǎn)錄物序列,并將所述復制的序列添加到所述集中,從而獲得包括用于步驟F)-K)中的一個或多個中的選擇性修飾的拷貝的集。此復制允許模擬應當存在于參照集中的轉(zhuǎn)錄物變異事件(因為參照集更適合則關(guān)于選擇性轉(zhuǎn)錄事件其獲得的更全面),但不與所選擇的基因一起發(fā)生。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。F)任選地將至少一個序列插入所述集中至少一個人工轉(zhuǎn)錄物序列,其中所述至少一個插入的序列中的每一個彼此獨立地相同于步驟D)中的任何人工轉(zhuǎn)錄序列的相同長度的有義或反義序列(即反向互補序列)并優(yōu)選具有5nt至10000nt之間的長度,特別是10nt至1000nt之間的長度。有利地,每個人工轉(zhuǎn)錄物序列進行至多5個、優(yōu)選至多4個、更優(yōu)選至多3個、特別是至多2個插入。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。G)任選地從所述集中至少一個人工轉(zhuǎn)錄物序列中去除至少一個長度范圍為1nt至10000nt的序列,其中所述一個或多個人工轉(zhuǎn)錄序列中的每一個保持在至少100nt的大小并且保持包含至少一個外顯子序列。有利地,每個人工轉(zhuǎn)錄物序列進行至多五次、優(yōu)選至多四次、更優(yōu)選至多三次、特別是至多兩次去除。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。通過步驟E-G的組合,可能包括不存在于所選擇的天然存在的mRNA轉(zhuǎn)錄物中的額外的選擇性轉(zhuǎn)錄事件。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。H)任選地通過5'截短序列直到5'末端是鳥苷,通過將第一堿基改變?yōu)轼B苷或通過在5'末端添加鳥苷,建立每個人工轉(zhuǎn)錄序列的第一核苷酸為鳥苷,優(yōu)選通過5'截短序列直到5'末端是鳥苷或通過將第一堿基改變?yōu)轼B苷,特別是通過5'截短序列直到5'末端是鳥苷。具有作為第一堿基的鳥苷允許通過T7聚合酶的有效轉(zhuǎn)錄。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。I)任選地修飾所述集中的至少一個人工轉(zhuǎn)錄物序列,使得所述人工轉(zhuǎn)錄物序列集具有基本上隨機分布出現(xiàn)的5'起始三核苷酸,所述5'起始三核苷酸選自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸選自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’終止二核苷酸,所述3’終止二核苷酸選自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。這使得所產(chǎn)生的參照集兼容并且特別適合于WO2011/095501A1中描述的復雜度降低方法。在本文中,以及在整個發(fā)明的上下文中,具有“基本上隨機分布出現(xiàn)”(為了本發(fā)明的目的)(其可以是“基本上均勻分布出現(xiàn)”)是指-當將廣泛使用的卡方檢驗(如由皮爾森開發(fā))應用于出現(xiàn),其中離散均勻分布(即每個事件同樣可能)為擬合分布-所得到的p值(通常相對于卡方值制表)大于0.1、優(yōu)選大于0.2、更優(yōu)選大于0.3、甚至更優(yōu)選大于0.5、特別是大于0.8。如何應用卡方檢驗在本領(lǐng)域中是眾所周知的。參見關(guān)于如何應用卡方檢驗的實施例4。J)優(yōu)選將多聚(A)尾序列添加到該集中人工轉(zhuǎn)錄物序列中的一個或多個、優(yōu)選全部人工轉(zhuǎn)錄物序列,優(yōu)選由至少10個、特別是至少20個腺苷組成。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。任選地,在多聚(A)尾后將索引序列(DNA條形碼或序列標記)添加到該集中人工轉(zhuǎn)錄物序列中的一個或多個、優(yōu)選全部人工轉(zhuǎn)錄物序列。索引序列使得在參照集的制備期間能夠使用選擇性定量和驗證方法,但是在作為參照集應用期間需要被盲化(blindout)??梢酝ㄟ^將索引序列置于多聚尾以外的索引序列來實現(xiàn)盲化,所述索引序列由特定的后續(xù)工作流程(RNA測序操作方案包括多聚(A)引發(fā))不可見,或者索引序列必須在任何潛在讀長和在參照注釋中被掩蔽。優(yōu)選地,該方法步驟是用軟件實現(xiàn)的計算機執(zhí)行的。K)或優(yōu)選步驟E-J中的至少兩個的任何組合,優(yōu)選其中每個方法步驟僅進行一次;和L)對于所述集中的每個人工轉(zhuǎn)錄物序列:物理合成包含完整人工轉(zhuǎn)錄物序列的NA分子。在本領(lǐng)域中已知如何合成NA,特別是DNA和RNA分子。DNA和RNA可以通過體內(nèi)(在重組細胞、例如大腸桿菌中表達)或體外生物化學方法(例如,通過DNA/RNA聚合酶的合成/擴增,例如聚合酶鏈式反應-PCR)以及化學合成而產(chǎn)生。如果人工NA是DNA,則其優(yōu)選通過從頭DNA合成并通過PCR擴增而合成。通過克隆入質(zhì)粒、轉(zhuǎn)化入微生物、序列驗證和轉(zhuǎn)化的微生物的生長來進行體內(nèi)擴增也是可能的??梢酝ㄟ^用T7RNA聚合酶從DNA模板轉(zhuǎn)錄來合成RNA。優(yōu)選地,如果NA是RNA,則其從DNA轉(zhuǎn)錄,特別是通過T7RNA聚合酶轉(zhuǎn)錄;M)優(yōu)選地,如果步驟L)的NA分子是RNA分子,則向RNA分子物理添加5'帽結(jié)構(gòu)。這實現(xiàn)了更接近真實的真核轉(zhuǎn)錄物的模擬。mRNA的加帽可以酶促進行,例如通過牛痘加帽系統(tǒng)(NewEnglandBioLabs,Inc.)。參見例如WO2009/058911A2;從而物理地獲得模擬轉(zhuǎn)錄物變體的人工NA分子的參照集,優(yōu)選是RNA或DNA分子的參照集。在優(yōu)選的實施方案中,進行步驟D)-G),優(yōu)選所有步驟,條件是人工NA分子的參照集應當模擬真核生物基因(優(yōu)選為動物或植物基因、更優(yōu)選為脊椎動物基因、甚至更優(yōu)選為哺乳動物基因、特別是人類基因)的天然存在的選擇性轉(zhuǎn)錄事件,并且所述事件優(yōu)選選自:選擇性轉(zhuǎn)錄物起始位點(TSS)、選擇性轉(zhuǎn)錄物終止位點(TES)、反義轉(zhuǎn)錄物、重疊轉(zhuǎn)錄物,并且選擇性剪接事件選自跳讀的盒式外顯子(CE)、內(nèi)含子保留(IR)、相互排斥的外顯子(MXE)、選擇性3'剪接位點(A3SS)、選擇性5'剪接位點(A5SS)、選擇性第一個外顯子(AFE)、選擇性最后一個外顯子(ALE)和反式剪接。在另一個優(yōu)選的實施方案中,人工NA分子的參照集模擬選自以下的至少一種、優(yōu)選至少兩種、更優(yōu)選至少三種、甚至更優(yōu)選至少五種、特別是所有的選擇性轉(zhuǎn)錄事件:選擇性轉(zhuǎn)錄物起始位點(TSS)、選擇性轉(zhuǎn)錄物終止位點(TES)、反義轉(zhuǎn)錄物、重疊轉(zhuǎn)錄物,并且選擇性剪接事件選自跳讀的盒式外顯子(CE)、內(nèi)含子保留(IR)、相互排斥的外顯子(MXE)、選擇性3'剪接位點(A3SS)、選擇性5'剪接位點(A5SS)、選擇性第一個外顯子(AFE)、選擇性最后一個外顯子(ALE)和反式剪接。在另一個優(yōu)選的實施方案中,人工NA分子的參照集的所有外顯子序列內(nèi)的所有內(nèi)含子起始二核苷酸的至少50%、優(yōu)選至少75%、特別是至少95%是GT,其中每個所述內(nèi)含子起始二核苷酸是在參照集的另一種人工NA分子中不存在并從而代表所述另一種人工NA分子的內(nèi)含子的序列的5'末端二核苷酸,和/或(優(yōu)選“和”)在人工NA分子的參照集的所有外顯子序列內(nèi)的所有內(nèi)含子末端二核苷酸的至少50%、優(yōu)選至少75%、特別是至少95%是AT,其中每個所述內(nèi)含子末端二核苷酸是在參照集的另一種人工NA分子中不存在并從而代表所述另一種人工NA分子的內(nèi)含子的序列的5'末端二核苷酸。在另一個優(yōu)選的實施方案中,人工NA分子的參照集具有500nt至2000nt、優(yōu)選750nt至1500nt、特別是1000nt至1400nt的平均序列長度;并且優(yōu)選具有300nt至1200nt、優(yōu)選600nt至900nt、特別是700nt至800nt的標準偏差;其最小大小為至少100nt;并且優(yōu)選具有10000nt的最大大小。在另一個優(yōu)選的實施方案中,人工NA分子的參照集具有基本上隨機分布出現(xiàn)的5'起始三核苷酸,所述5'起始三核苷酸選自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸選自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’終止二核苷酸,所述3’終止二核苷酸選自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT。這使得所產(chǎn)生的參照集兼容并且特別適合于WO2011/095501A1中描述的復雜度降低方法。在另一個優(yōu)選的實施方案中,參照集的至少50%、優(yōu)選全部人工NA分子具有25%至55%的平均GC含量。優(yōu)選地,平均GC含量被選擇為與其所選自的天然存在的基因的物種(或系統(tǒng)發(fā)生組)的轉(zhuǎn)錄物的平均GC含量相同。在另一個優(yōu)選的實施方案中,參照集的每個人工NA分子具有鳥苷作為5'起始核苷酸。在另一個優(yōu)選的實施方案中,參照集的至少一個、優(yōu)選每個人工NA分子(如果其是RNA分子)具有5'帽結(jié)構(gòu)。在另一個優(yōu)選的實施方案中,所述方法還包括提供人工NA分子的參照集,其中參照集的至少兩種、優(yōu)選每種NA分子以預設的摩爾量存在,優(yōu)選存在于相同的容器中。有利地,其以可隨時使用的試劑盒的形式提供。優(yōu)選地,至少兩種NA分子的各自的摩爾量相差至少兩個量級,優(yōu)選至少三個量級,更優(yōu)選至少五個量級,特別是至少六個量級,并且特別是其中至少提供溶解于液體中或準備溶解或稀釋于液體中的兩種NA分子,其中它們各自的濃度或最終濃度范圍介于0.01阿托摩爾(attomole)/μl與100飛普托摩爾(femtomole)/μl之間或介于100仄普托摩爾(zeptomole)/μl與1飛普托摩爾/μl之間。如上所述,穩(wěn)定化和降低處理誤差是重要的。因此,在高度優(yōu)選的實施方案中,本發(fā)明的方法包括干燥(優(yōu)選冷凍干燥)物理獲得的參照集,優(yōu)選在容器中,優(yōu)選與穩(wěn)定劑一起的步驟。在另一個優(yōu)選的實施方案中,人工NA分子的參照集的序列與其NCBIGenBank數(shù)據(jù)庫登錄號在表3中列出的序列不具有相似性(即,與大多數(shù)已知真核序列不具有相似性),優(yōu)選與在表3和表4任何一個序列不具有相似性(即,與大多數(shù)已知的真核和大多數(shù)已知的原核/病毒序列不具有相似性),特別是與2014年6月15日的NCBIGenBank數(shù)據(jù)庫版本202的所有序列不具有相似性,具有統(tǒng)計顯著性閾值(期望閾值)小于10-1,優(yōu)選小于1,特別是小于10。相似性通過具有以下參數(shù)的BLASTn程序確定:字大小為28,過濾低復雜度區(qū)域,線性缺口成本和匹配/錯配分數(shù)為1,-2。參見Karlin和Altschul,1990,對統(tǒng)計顯著性閾值的解釋,和Benson等人,2013,對GenBank的介紹。該實施方案特別非常適合于解決本發(fā)明的問題,因為其允許參照集的序列的明確鑒定(假定它們具有例如30nt的最小長度,其例如通過RNA-seq容易可實現(xiàn))即使將其加入到復雜樣品中。當前GenBank版本可免費下載:ftp://ftp.ncbi.nlm.nih.gov/genbank/,BLAST軟件可免費下載:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/。易于使用的GenBank的BLAST搜索也可以在http://blast.ncbi.nlm.nih.gov/Blast.cgi(核苷酸blast,選擇的數(shù)據(jù)庫核苷酸集合(nr/nt),高度相似的序列(megablast))進行。本發(fā)明還提供了可通過本發(fā)明的上述方法的任何實施方案(特別是通過本文明確提及的實施方案)獲得的模擬轉(zhuǎn)錄物變體的人工NA分子的參照集。表3-已發(fā)表的動物或植物染色體序列的GenBank登錄號(包括條目版本號“.N”;GenBank數(shù)據(jù)庫版本202,2014年6月15日)表4–已公開的原核生物染色體和質(zhì)粒序列和病毒序列的GenBank登錄號(包括條目版本號“.N”;GenBank數(shù)據(jù)庫版本202,2014年6月15日)在本發(fā)明的另一方面,提供了模擬轉(zhuǎn)錄物變體、優(yōu)選RNA分子或DNA分子、特別是RNA分子的人工NA分子的參照集,其包含至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個家族的NA分子,每個家族由至少兩種、優(yōu)選至少三種、更優(yōu)選至少四種、特別是至少五種不同的NA分子組成,其中,獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,和其中,獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80nt、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列和所述每個家族的至少兩個NA分子相差至少80nt、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列。在本發(fā)明的過程中,發(fā)現(xiàn)人工NA分子的參照集,其對于本發(fā)明的目的而言是特別合適的。這些分子被稱為SIRV(摻入RNA變體),并且對于本發(fā)明這些分子被公開于SEQIDNO:1-148中(參見實施例1)。因此,在另一方面,本發(fā)明提供了NA分子、優(yōu)選DNA分子或RNA分子,其包含與選自SEQIDNO:1-148的完整序列具有至少50%、優(yōu)選至少60%、更優(yōu)選至少70%、甚至更優(yōu)選至少80%、還甚至更優(yōu)選至少90%或至少95%、特別是100%同一性的序列。這些序列的大變異是可能的,因為鑒于序列僅用作NA分析方法中的參照序列,不需要保留生物學功能。優(yōu)選地,如上所述,這些SEQIDNO的變體與表3的序列不具有相似性。這些變體可以通過上述方法獲得。由于SIRV的外顯子本身非常適合于本發(fā)明的目的,即使它們包括在另一序列中,本發(fā)明還提供了NA分子、優(yōu)選DNA分子或RNA分子,其包含序列與選自SEQIDNO:156-334的完整序列具有至少50%、優(yōu)選至少60%、更優(yōu)選至少70%、甚至更優(yōu)選至少80%、還甚至更優(yōu)選至少90%或至少95%、特別是100%同一性的序列。此外,當它們包括在另一NA分子中時,SIRV的片段也可用于本發(fā)明的目的。因此,本發(fā)明還提供了包含至少80個、優(yōu)選至少150個、優(yōu)選至少200個、更優(yōu)選至少300個、特別是至少400個連續(xù)核苷酸的序列的NA分子、優(yōu)選DNA分子或RNA分子,其序列與具有選自SEQIDNO:1-148的序列的序列片段具有至少50%、優(yōu)選至少60%、更優(yōu)選至少70%、甚至更優(yōu)選至少80%、還甚至更優(yōu)選至少90%或至少95%、特別是100%的同一性,所述序列的最小大小為至少80nt、優(yōu)選至少150nt、優(yōu)選至少200nt、更優(yōu)選至少300nt、特別是至少400nt。在優(yōu)選的實施方案中,本發(fā)明的NA分子作為模擬轉(zhuǎn)錄物變體的人工NA分子的參照集提供,其包含至少一個、優(yōu)選至少兩個、更優(yōu)選至少三個、特別是至少五個家族的NA分子,每個家族由本發(fā)明的至少兩種、優(yōu)選至少三種、更優(yōu)選至少四種、特別是至少五種不同的NA分子組成,其中獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,并且其中獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80nt、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列,并且所述每個家族的至少兩種NA分子相差至少80nt長度、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列。優(yōu)選地,本發(fā)明的任何參照集模擬選自以下的至少一種、優(yōu)選至少兩種、更優(yōu)選至少三種、甚至更優(yōu)選至少五種、特別是所有的選擇性轉(zhuǎn)錄事件:選擇性轉(zhuǎn)錄物起始位點(TSS)、選擇性轉(zhuǎn)錄物終止位點(TES)、反義轉(zhuǎn)錄物、重疊轉(zhuǎn)錄物,并且選擇性剪接事件選自跳讀的盒式外顯子(CE)、內(nèi)含子保留(IR)、相互排斥的外顯子(MXE)、選擇性3'剪接位點(A3SS)、選擇性5'剪接位點(A5SS)、選擇性第一個外顯子(AFE)、選擇性最后一個外顯子(ALE)和反式剪接。在本發(fā)明的任何參照集的另一個優(yōu)選實施方案中,人工NA分子的參照集的所有外顯子序列內(nèi)的所有內(nèi)含子起始二核苷酸的至少50%、優(yōu)選至少75%、特別是至少95%是GT,其中每個所述內(nèi)含子起始二核苷酸是在參照集的另一種人工NA分子中不存在并從而代表所述另一種人工NA分子的內(nèi)含子的序列的5'末端二核苷酸,和/或(優(yōu)選“和”)在人工NA分子的參照集的所有外顯子序列內(nèi)的所有內(nèi)含子末端二核苷酸的至少50%、優(yōu)選至少75%、特別是至少95%是AT,其中每個所述內(nèi)含子末端二核苷酸是在參照集的另一種人工NA分子中不存在并從而代表所述另一種人工NA分子的內(nèi)含子的序列的5'末端二核苷酸。在另一個優(yōu)選的實施方案中,本發(fā)明的任何參照集具有500nt至2000nt、優(yōu)選750nt至1500nt、特別是1000nt至1400nt的平均序列長度;并且優(yōu)選具有300nt至1200nt、優(yōu)選600nt至900nt、特別是700nt至800nt的標準偏差;其最小大小為至少100nt;并且優(yōu)選具有10000nt的最大大小。在另一個優(yōu)選的實施方案中,本發(fā)明的任何參照集具有25%至55%的平均GC含量。在另一個優(yōu)選的實施方案中,本發(fā)明的任何參照集具有基本上隨機分布出現(xiàn)的5'起始三核苷酸,所述5'起始三核苷酸選自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT,或者5'起始二核苷酸,所述5'起始二核苷酸選自AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,和/或3’終止二核苷酸,所述3’終止二核苷酸選自AC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TT。在另一個優(yōu)選的實施方案中,本發(fā)明的任何參照集的每個人工NA分子具有鳥苷作為5'起始核苷酸。在另一個優(yōu)選的實施方案中,如果是RNA分子,則本發(fā)明任何參照集中的至少一個、優(yōu)選每個人工NA分子具有5'帽結(jié)構(gòu)和/或具有多聚(A)尾的至少10、優(yōu)選至少20、特別是至少30個腺苷。優(yōu)選地,本發(fā)明的任何參照集的序列與其NCBIGenBank數(shù)據(jù)庫登錄號在表3中列出的序列不具有相似性,優(yōu)選與在表3和表4任何一個序列不具有相似性,特別是與2014年6月15日的NCBIGenBank數(shù)據(jù)庫版本202的所有序列不具有相似性,具有統(tǒng)計顯著性閾值(期望閾值)小于10-1,優(yōu)選小于1,特別是小于10,其中相似性通過具有以下參數(shù)的BLASTn程序確定:字大小為28,過濾低復雜度區(qū)域,線性缺口成本和匹配/錯配分數(shù)為1,-2。在特別優(yōu)選的實施方案中,提供本發(fā)明的任何參照組的人工NA分子,其中至少兩種、優(yōu)選每種NA分子以預設的摩爾量存在,優(yōu)選存在于相同的容器中;并且優(yōu)選其中至少兩種NA分子的各自的摩爾量相差至少兩個量級,優(yōu)選至少三個量級,更優(yōu)選至少五個量級,特別是至少六個量級,并且特別是其中至少提供溶解于液體中或準備溶解或稀釋于液體中的兩種NA分子,其中它們各自的濃度或最終濃度范圍介于0.01阿托摩爾(attomole)/μl與100飛普托摩爾(femtomole)/μl之間或介于100仄普托摩爾(zeptomole)/μl與1飛普托摩爾/μl之間。具有大范圍的濃度允許例如更好地評估儀器和方法(例如在RNA-seq中),因為開發(fā)具有高動態(tài)檢測范圍的儀器和方法更具挑戰(zhàn)性。如上所述,穩(wěn)定化和降低處理誤差是重要的。因此,在另一個特別優(yōu)選的實施方案中,本發(fā)明的人工NA分子的參照集以在容器中干燥(優(yōu)選冷凍干燥),優(yōu)選與穩(wěn)定劑一起提供??梢詫NA序列轉(zhuǎn)換為RNA序列(核苷酸的交換:T→U),反之亦然(核苷酸的交換:U→T)。因此,每當序列作為本文(包括序列表)的DNA序列給出時,它也應當作為其各自的RNA序列閱讀,反之亦然。如本文所用,RNA通常是單鏈的,而DNA分子通常是雙鏈的。然而,本發(fā)明還要求保護雙鏈/單鏈形式的相應RNA/DNA,以及與所要求保護的序列互補的序列(例如cDNA)。至少一個或多個、例如所有NA分子可以是例如100至1000000核苷酸,優(yōu)選130至100000個核苷酸或150至10000個核苷酸。在優(yōu)選的實施方案中,天然存在的或人工的基因編碼蛋白質(zhì)(例如mRNA),但也規(guī)定了非蛋白質(zhì)編碼的轉(zhuǎn)錄物,諸如調(diào)節(jié)或催化性RNA,包括微RNA、snoRNA或rRNA,以及它們的前體,特別是前微RNA或前-rRNA。如本文所用,“基因”涉及具有被轉(zhuǎn)錄以形成一個或多個轉(zhuǎn)錄物的序列的基因核苷酸。如本文所用,“同種型”或“轉(zhuǎn)錄物變體”用于涉及轉(zhuǎn)錄物的特定變體。本文所用的“約”可以指與給定值相同的值或相差+/-10%的值。本文使用的“包含”應理解為開放的定義,允許如在包含中的其它成員。另一方面,“由……組成”被認為是不含所組成的定義特征的另外元素的封閉定義。因此,“包含”是更寬的定義并且包含“由……組成”定義。本文使用“包含”語言的任何定義也可以在本發(fā)明的特定實施例中用所組成的限制來閱讀。核酸測序步驟可以通過本領(lǐng)域已知的任何方法進行,諸如PCR測序。此類方法包括Maxam-Gilbert測序、鏈終止法、鳥槍測序、橋式PCR、大規(guī)模平行指紋測序(MPSS)、Polony測序、焦磷酸測序、Illumina(Solexa)測序、SOLiD測序、離子半導體測序、DNA納米球測序、Heliscope單分子測序、單分子實時(SMRT)測序、納米孔DNA測序、通過雜交的測序、使用質(zhì)譜的測序、微流體Sanger測序、基于顯微鏡技術(shù)、RNAP測序、體外病毒高通量測序。如本文所使用的,“數(shù)量級”是指“十進制數(shù)量級”,例如跨越“六個數(shù)量級”(在本文中也稱為“六個數(shù)量級”)意味著跨越例如從1至1×106或從2×10-7至0.2的值。除非明確排除,否則任何本發(fā)明的方法或步驟可以作為計算機實現(xiàn)的方法執(zhí)行。甚至測序和合成NA分子的通常濕化學步驟也可以通過計算機輔助,例如來控制和獲得來自自動或半自動序列閱讀器的數(shù)據(jù)。計算機程序產(chǎn)品或存儲器設備還可以設置有讀長生成組件,其從諸如測序儀(優(yōu)選地包括計算機組件的測序儀)的樣品獲得短讀長。例如,計算機可讀介質(zhì)可以包括但不限于磁存儲設備(例如硬盤、軟盤、磁條......)、光盤(例如壓縮盤(CD)、數(shù)字通用盤(DVD)......)、智能卡和閃存設備(例如卡、棒、鑰匙驅(qū)動器......)。相對于參照核苷酸序列的序列“同一性百分比(%)”定義為在比對序列并在必要時引入缺口之后,候選序列中與參照序列中的核苷酸相同的核苷酸的百分比,以實現(xiàn)最大序列同一性百分比,并且不考慮任何保守取代作為序列同一性的一部分。缺口導致缺乏同一性。用于確定核苷酸序列同一性百分比的比對可以以本領(lǐng)域技術(shù)內(nèi)的各種方式實現(xiàn),例如使用可公開獲得的計算機軟件,諸如BLAST、BLAST-2、ALIGN、ALIGN-2、Megalign(DNASTAR)或EMBOSS軟件包的“針”成對序列比對應用。本領(lǐng)域技術(shù)人員可以確定用于比對序列的適當參數(shù),包括在被比較序列的全長上實現(xiàn)最大比對所需的任何算法。然而,為了本文的目的,使用EMBOSS軟件包的計算機程序“針”(可從歐洲分子生物學實驗室公開獲得;Rice等人,EMBOSS:theEuropeanMolecularBiologyOpenSoftwareSuite,TrendsGenet.2000Jun;16(6):276-7,PMID:10827456)的序列比對計算核苷酸序列同一性%值。針程序可以在網(wǎng)站http://www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html下訪問,或者作為EMBOSS包的一部分從http://emboss.sourceforge.net/下載用于本地安裝。它運行在許多廣泛使用的UNIX操作系統(tǒng)上,諸如Linux。為了比對兩個核苷酸序列,針程序優(yōu)選用以下參數(shù)運行:命令行:needle-auto-stdout-asequenceSEQUENCE_FILE_A-bsequenceSEQUENCE_FILE_B-datafileEDNAFULL-gapopen10.0-gapextend0.5-endopen10.0-endextend0.5-aformat3pair-snucleotide1-snucleotide2(Align_format:pairReport_file:stdout)給定核苷酸序列A對、與、相對給定核苷酸序列B的核苷酸序列同一性%(或者可以表示為給定核苷酸序列A具有或包含與給定核苷酸序列A對、與、相對給定的核苷酸序列B的某一核苷酸序列同一性%)計算如下:100倍的分數(shù)X/Y其中X是通過序列比對程序針在序列A和B的比對中評分為相同匹配的核苷酸數(shù)目,并且其中Y是B中核苷酸的總數(shù)。應當理解,當核苷酸序列A的長度不等于核苷酸序列B的長度,A對B的核苷酸序列同一性%將不等于B對A的核苷酸序列同一性%。在其中“A的序列與B的整個序列具有至少N%同一性”的情況下,Y是B的全長。除非另有特別說明,否則本文使用的所有核苷酸序列同一性%值均如上一段所述使用針計算機程序獲得。“序列相似性”、“序列同一性”、“共有序列”和類似術(shù)語也應適用于序列的反向互補序列,即表述“序列A與序列B具有80%的同一性”也應當對于如果“序列A與序列B的反向互補序列(或反義序列)具有80%的同一性”是真的。本文中,關(guān)于NA序列的術(shù)語“插入”也可以指直接在5'或3'端插入(即在5'或3'端添加)。示例性實施方案本發(fā)明方法的特別優(yōu)選的實施方案是:一種用于在一個或多個樣品中受控鑒定和/或定量轉(zhuǎn)錄物變體的方法,包括:a)提供模擬轉(zhuǎn)錄物變體的人工NA分子的參照集,包括至少三個不同家族的NA分子,每個家族由至少三種不同的NA分子組成,其中,獨立地對于每個家族,所述每個家族的所有NA分子是相同人工基因的參照轉(zhuǎn)錄物變體,和其中,獨立地對于每個家族,所述每個家族的NA分子共有長度為至少80個核苷酸(nt)、優(yōu)選至少100nt、更優(yōu)選至少150nt、特別是至少200nt的序列,并且所述每個家族的至少兩種NA分子相差至少80nt長度、優(yōu)選至少100nt、更優(yōu)選至少150nt、甚至更優(yōu)選至少200nt、特別是至少300nt的至少另一個序列,和其中每種人工NA分子以預設的摩爾量存在;和進一步其中每種人工NA分子:-具有至少100nt的長度并且包含至少一個人工外顯子,其中所述共有序列包含在單個人工外顯子序列中,和其中所述NA分子的參照集:-具有25%至55%的平均GC含量,和-模擬至少五個選擇性轉(zhuǎn)錄事件,所述選擇性轉(zhuǎn)錄事件選自:選擇性轉(zhuǎn)錄物起始位點(TSS)、選擇性轉(zhuǎn)錄物終止位點(TES)、反義轉(zhuǎn)錄物、重疊轉(zhuǎn)錄物,并且選擇性剪接事件選自跳讀的盒式外顯子(CE)、內(nèi)含子保留(IR)、相互排斥的外顯子(MXE)、選擇性3'剪接位點(A3SS)、選擇性5'剪接位點(A5SS)、選擇性第一個外顯子(AFE)、選擇性最后一個外顯子(ALE)和反式剪接,和其中所述人工NA分子的參照集的外顯子序列的所有5'起始二核苷酸的至少75%是GT,并且所述人工NA分子的參照集的外顯子序列的所有3'終止二核苷酸的至少75%是AT,和其中所述參照集的序列與其NCBIGenBank數(shù)據(jù)庫登錄號在表3和表4中的任一個中列出具有小于10的統(tǒng)計顯著性閾值(預期閾值)的序列不具有相似性,其中所述相似性由具有以下參數(shù)的BLASTn程序確定:字大小為28,具有過濾低復雜度區(qū)域,線性缺口成本和匹配/錯配分數(shù)為1,-2;和b)將所述參照集作為外部對照添加到包含轉(zhuǎn)錄物變體的一個或多個樣品;和c)基于讀長生成和分配進行NA測序,其中使用參照集的讀長產(chǎn)生參照讀長分配,并且所述參照讀長分配用于控制、驗證或修飾所述一個或多個更多樣品的轉(zhuǎn)錄物變體的讀長分配。參考文獻AirdSD,etal.,(2013)Quantitativehigh-throughputprofilingofsnakevenomglandtranscriptomesandproteomes(OvophisokinavensisandProtobothropsflavoviridis).BMCGenomics14:790.BensonDA,etal.,"GenBank."Nucleicacidsresearch(2012).doi:10.1093/nar/gks1195.Blomquist,ThomasM.,etal."TargetedRNA-sequencingwithcompetitivemultiplex-PCRampliconlibraries."(2013):e79120.BrenneckeP,etal.,(2013)Accountingfortechnicalnoiseinsingle-cellRNA-seqexperiments.NatureMethods10(11):1093.ChaitanyaRS,etal.(2008)Overlappinggenesinthehumanandmousegenomes.BMCGenomics2008,9:169.CroninM,etal.,(2004)UniversalRNAReferenceMaterialsforGeneExpression.ClinicalChemistry50(8):1464–1471.DevonshireAS,etal.,(2010)"EvaluationofexternalRNAcontrolsforthestandardisationofgeneexpressionbiomarkermeasurements."BMCgenomics11.1:662.ExternalRNAControlsConsortium,(2005)ProposedmethodsfortestingandselectingtheERCCexternalRNAcontrols.BMCGenomics6:150.Availableatwww.biomedcentral.com//1471-2164/6/150.ExternalRNAControlsConsortium,(2005a)TheExternalRNAControlsConsortium:aprogressreport.NatureMethods2:731–734.ERCCUserGuide:ERCCRNASpike-InControlMixes(English).LifeTechnologies(2012).PublicationNumber4455352,RevisionD.HuY,etal.,(2014)PennSeq:accurateisoform-specificgeneexpressionquantificationinRNA-Seqbymodelingnon-uniformreaddistribution.NucleicAcidsResearch42:3e20.JamesHB,etal.,(2010)Evaluationofstatisticalmethodsfornormalizationanddifferentialexpressioninmrna-seqexperiments.BMCBioinformatics,11:94.JiangL,etal.,(2011)Syntheticspike-instandardsforRNA-seqexperiments.GenomeResearch21:1543-1551.LinCY,etal.,(2012)TranscriptionalAmplificationinTumorCellswithElevatedc-Myc.Cell151:56–67.KarlinS,andAltschulSF,(1990)"Methodsforassessingthestatisticalsignificanceofmolecularsequencefeaturesbyusinggeneralscoringschemes."ProceedingsoftheNationalAcademyofSciences87(6):2264-2268.KoscielnyG,etal.,(2009)ASTD:TheAlternativeSplicingandTranscriptDiversitydatabase.Genomics.93(3):213-20.LovénJ,etal.,(2012)RevisitingGlobalGeneExpressionAnalysis.Cell151:476-482.MAQCConsortium,(2006)TheMicroArrayQualityControl(MAQC)projectshowsinter-andintraplatformreproducibilityofgeneexpressionmeasurements.NatureBiotechnology,24(9):1151–1161..NilsenTW,andGraveleyBR,(2010)Expansionoftheeukaryoticproteomebyalternativesplicing.Nature463.7280:457-463.RapaportF,etal.,(2013)ComprehensiveevaluationofdifferentialgeneexpressionanalysismethodsforRNA-seqdata.GenomeBiology,14:R95.ReidL(ERCC),(2005)ProposedmethodsfortestingandselectingtheERCCexternalRNAcontrols.BMCGenomics2005,6:150.RiceP,etal.,(2000)EMBOSS:theEuropeanMolecularBiologyOpenSoftwareSuite,TrendsGenet,16(6):276-7.RobertsA,etal.,(2011)ImprovingRNA-Seqexpres-sionestimatesbycorrectingforfragmentbias.GenomeBiol,12(3):R22.ShippyR,etal.,(2006)UsingRNAsampletitrationstoassessmicroarrayplatformperformanceandnormalizationtechniques.NatBiotechnol.24(9):1123–1131.Sun,Bing,LianTao,andYun-LingZheng."SimultaneousquantificationofalternativelysplicedtranscriptsinasingledropletdigitalPCRreaction."BioTechniques56.6(2014):319.TrapnellC,etal.,(2010)TranscriptassemblyandquantificationbyRNA-Seqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology28,511–515.WangET,etal.,(2008)AlternativeIsoformRegulationinHumanTissueTranscriptomes.Nature456,470-476.WangZ,etal.,(2009)"RNA-Seq:arevolutionarytoolfortranscriptomics."NatureReviewsGenetics10(1):57-63.XinD,etal.,(2008)AlternativePromotersInfluenceAlternativeSplicingattheGenomicLevel,PLOSOne,DOI:10.1371/journal.pone.0002377.YoonOK,etal.,(2012)GeneticsandRegulatoryImpactofAlternativePolyadenylationinHumanB-LymphoblastoidCells.PLoSGenet.e1002882,doi:10.1371/journal.pgen.1002882.Zhang,Fan,andReneeDrabier."SASD:theSyntheticAlternativeSplicingDatabaseforidentifyingnovelisoformfromproteomics."BMCbioinformatics14.Suppl14(2013):S13.通過下面的附圖和實施例進一步說明本發(fā)明,但不限于本發(fā)明的這些實施方案,其中每個元素可與本發(fā)明的任何其它實施方案組合。附圖:圖1:SIRV設計原理的示意圖。圖2:DNA合成后所選擇的SIRV的質(zhì)粒線性化的示例性結(jié)果。SIRV具有正確的大小并且可以用于通過T7聚合酶的RNA轉(zhuǎn)錄。圖3:對于所選擇的SIRV和條件,通過T7聚合酶的轉(zhuǎn)錄產(chǎn)量的示例性結(jié)果。轉(zhuǎn)錄在大多數(shù)所選擇的條件下成功。o/n,過夜。圖4:KLK5和SIRV1家族比對。該圖顯示了SIRV1和相應參照基因的轉(zhuǎn)錄物比對。注意,SIRV1-100是主轉(zhuǎn)錄物。SIRV1-101-105是規(guī)范轉(zhuǎn)錄物(類似于KLK5轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV1-106-109是人工轉(zhuǎn)錄物,其中后三個是重疊(反義)轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖5:LDHD和SIRV2家族比對。該圖顯示了SIRV2和相應的參照基因的轉(zhuǎn)錄物比對。注意,SIRV2-100是主轉(zhuǎn)錄物。SIRV2-201-204是規(guī)范轉(zhuǎn)錄物(類似于LDHD轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV2-205和206是人工單外顯子反義轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖6:LGALS17A和SIRV3家族比對。該圖顯示了SIRV3和相應的參照基因的轉(zhuǎn)錄物比對。注意,SIRV3-100是主轉(zhuǎn)錄物。SIRV3-301-306是規(guī)范轉(zhuǎn)錄物(類似于LGALS17A轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV3-307-311是人工轉(zhuǎn)錄物,其中后者是單外顯子反義轉(zhuǎn)錄物。轉(zhuǎn)錄物SIRV3-308-310是重疊反義轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖7:DAPK3和SIRV4家族比對。該圖顯示了SIRV4和相應的參照基因的轉(zhuǎn)錄物比對。注意,SIRV4-100是主轉(zhuǎn)錄物。SIRV4-401-407是規(guī)范轉(zhuǎn)錄物(類似于DAPK3轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV4-408-410是人工轉(zhuǎn)錄物,其中后兩者是重疊反義轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖8:HAUS5和SIRV5家族比對。該圖顯示了SIRV5和相應參照基因的轉(zhuǎn)錄物比對。注意,SIRV5-100是主轉(zhuǎn)錄物。SIRV5-501-510是規(guī)范轉(zhuǎn)錄物(類似于HAUS5HAUS轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV5-511和512是人工轉(zhuǎn)錄物,其中后者是單外顯子反義轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖9:USF2和SIRV6家族比對。該圖顯示了SIRV6和相應的參照基因的轉(zhuǎn)錄物比對。注意,SIRV6-100是主轉(zhuǎn)錄物。SIRV6-601-615是規(guī)范轉(zhuǎn)錄物(類似于USF2轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV6-616-618是人工轉(zhuǎn)錄物,其中后兩種是單外顯子反義轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖10:TESK2和SIRV7家族比對。該圖顯示了SIRV7和相應的參照基因的轉(zhuǎn)錄物比對。注意,SIRV7-100是主轉(zhuǎn)錄物。SIRV7-701-707是規(guī)范轉(zhuǎn)錄物(類似于TESK2轉(zhuǎn)錄物)。轉(zhuǎn)錄物SIRV7-708是人工轉(zhuǎn)錄物。MT=主轉(zhuǎn)錄物。圖11:SIRV布局。所有SIRV盒從XhoI限制位點開始,隨后是T7啟動子、鳥苷和SIRVmRNA主體。每個SIRV在其3'末端具有30個腺苷的多聚(A)尾部以及NsiI限制性位點以使得能夠進行run-off轉(zhuǎn)錄。圖12:FPKM相關(guān)性圖。樣品1和樣品2的FPKM值相對于彼此進行繪制。圖13:顯示人工基因SIRV1覆蓋的Genomebrowser屏幕截圖。所有具有SIRV1標記的轉(zhuǎn)錄物都對應于給定的注釋。Cufflinks另外導出五個轉(zhuǎn)錄物變體命名為Cuff.8和.9,其引入誤差。圖14:SIRV混合方案以獲得混合物E0、E1和E2。A)中,8個預混合物含有6至11個長度不同的SIRV,使得SIRV可以在Bioanalyzer曲線中明確地鑒定。兩個預混合物各自以相等的比例組合以總共產(chǎn)生四個子混合物。然后進而將這些以確定的比例混合以獲得最終混合物E0、E1和E2。測量的跡線以紅色顯示,從預混合物跡線計算以驗證子混合物和最終混合物的跡線以藍色顯示。圖15:具有對照的RNA。SIRV混合物也可作隨時用于測試的參照RNA樣品RC-0、RC-1和RC-2。第一個樣品,通用人參照RNA(UHRR,來自10個合并的癌細胞系,AgilentTechnologies,Inc.)摻有ERCCExFold混合物1;第二個樣品,人腦參照RNA(HBRR,來自23個供體的多個腦區(qū)域,LifeTechnologies,Inc.)摻入ERCCExFold混合物2,并且對于第三個樣品,兩者以2:1的比例組合。然后將3個樣品摻有SIRV混合物E0、E1和E2,以獲得如估算的圖所示的質(zhì)量比,作為與總RNA中的2%mRNA含量相比的相對測量值。圖16:作為將SIRVNGS讀長分配給正確的注釋SIRV_C的結(jié)果的SIRV的輸入-輸出相關(guān)性,A)在含有E1的樣品RC-1和含有E2的RC-2中,以及B)E2和E1之間的差異表達比率。單個數(shù)據(jù)點由小的灰色符號顯示,平均值由大的黑色符號突出顯示。各行標記標準偏差?;疑本€突出對角線。實施例實施例1:SIRV特征表5:SIRV(本發(fā)明的人工NA分子,模擬轉(zhuǎn)錄物變體)的特征。SEQIDNO:75-148分別與SEQIDNO:1-74相同,但沒有30個腺苷的多聚(A)尾?!盁o模板”是指SIRV不具有直接的人轉(zhuǎn)錄模型模板,而是可通過具有步驟E)-G)的本發(fā)明產(chǎn)物方法獲得。SIRV家族提供相同人工基因的轉(zhuǎn)錄物變體,并模擬人模型基因的條件。表6:SIRV的所選特征(x表示特征存在的次數(shù))還參見圖1和4-10。為了說明的目的,產(chǎn)生SIRV轉(zhuǎn)錄物家族1-7的七種人工SIRV基因(SIRV1-SIRV7)列于SEQIDNO:149-156。SIRV基因僅由其外顯子序列(即,在至少一個轉(zhuǎn)錄物中是外顯子的序列,它們可以是內(nèi)含子,即對于其他轉(zhuǎn)錄物不存在)的序列來定義,因為它們由它們產(chǎn)生的轉(zhuǎn)錄物所定義。如本文所提及的,如果它們僅僅作為概念存在就足夠了。SIRV的外顯子列在SEQIDNO:156-334中。SIRVs缺乏與NCBI數(shù)據(jù)庫中通過blast搜索核苷酸和蛋白質(zhì)水平所顯示的條目的同一性。在從人工SIRV轉(zhuǎn)錄組產(chǎn)生50nt的NGS讀長的計算機模擬實驗中,SIRV組(SIRVome)也不與來自模式生物體人、小鼠、擬南芥(Arabidopsisthaliana)、秀麗隱桿線蟲(C.elegans)、黑腹果蠅(D.Melanogaster)、大腸桿菌(CGA1.20),釀酒酵母(S.Cerevisiae)和熱帶假絲酵母(X.tropicalis)的注釋轉(zhuǎn)錄組顯著對齊,但非常好地作圖到SIRV組。此外,任何脫靶比對可以容易地鑒定為讀長摻入。因此得出結(jié)論,SIRV轉(zhuǎn)錄物將與所測試的模型生物體轉(zhuǎn)錄物高度不同,并且當用作這些基因組中的摻入對照時不可能干擾轉(zhuǎn)錄物發(fā)現(xiàn)和定量。通過外推,并且因為除了ntblast之外還測試來自許多不同的系統(tǒng)類別的基因組,可以合理地假設人工SIRV序列不會干擾任何已知的基因組系統(tǒng)。SIRV也可以與ERCC聯(lián)合使用,因為脫靶到ERCC摻入轉(zhuǎn)錄物的作圖幾乎不存在。74個SIRV轉(zhuǎn)錄物·可用作NGSRNA-Seq實驗和其他NA分析方法(諸如微陣列分析或qPCR)中的摻入轉(zhuǎn)錄物,·是人工序列,允許唯一作圖到SIRV組,具有非常低的脫靶比對,·模擬關(guān)于長度、GC含量、內(nèi)含子剪接位點二核苷酸和外顯子-內(nèi)含子結(jié)構(gòu)的天然mRNA,·可與ERCC一起使用,·可以成本有效地產(chǎn)生為T7RNA聚合酶轉(zhuǎn)錄物。SIRV允許·基于多聚(A)的選擇和擴增,·同種型檢測,·基于注釋的同種型作圖和假設建設,·同種型豐度估計,·對數(shù)倍數(shù)變化驗證(通過使用具有不同SIRV濃度的2種混合物),·同種型豐度估計算法的訓練和驗證,·同種型從頭組裝,·在SQUARE系統(tǒng)中同種型分離(segregation)(在WO2011/095501A1中描述的復雜度降低方法)。實施例2:SIRV產(chǎn)生為了產(chǎn)生SIRV,通過外部DNA合成提供者合成體外轉(zhuǎn)錄模板。這些構(gòu)建體包含5'至3'(a)獨特的限制性位點(XhoI),緊接在(b)T7RNA聚合酶啟動子的上游,其3'G是(c)SIRV序列的第一個核苷酸,無縫地接著(d)與(e)獨特的NsiI限制性位點融合的A(30)尾(圖11)。T7啟動子的融合以及NsiI位點整合入A(30)尾部允許產(chǎn)生以5'G(SIRV序列的一部分以及T7啟動子的一部分)開始并以多聚(A)尾而沒有額外的3'核苷酸結(jié)束產(chǎn)生序列-真實RNA的轉(zhuǎn)錄。DNA合成提供者遞送克隆到載體中的基因盒,質(zhì)粒pUC57沒有固有的T7啟動子。長度為2710bp的質(zhì)粒pUC57是pUC19的衍生物,通常用作大腸桿菌中的克隆載體。載體含有用于氨芐青霉素抗性的bla基因和用于白/藍選擇的lacZ基因。GenBank登錄號Y14837.1,圖由BioBasic,Inc.提供。接收8-10μg的每種載體,其足以進行限制酶切和轉(zhuǎn)錄測定。用XhoI和NsiI雙重消化顯示正確的插入物大小和限制酶切的完成。然而,對于大規(guī)模制備轉(zhuǎn)錄,以50μg批量規(guī)模產(chǎn)生SIRV質(zhì)粒。質(zhì)粒線性化:產(chǎn)生大量RNA的初始默認方法是含有SIRV表達盒的NsiI限制性載體的run-off轉(zhuǎn)錄。為此,將幾μg質(zhì)粒消化以獲得精確的3'末端。盡管完全的PstI/NsiI限制酶切已經(jīng)由BioBasic顯示用于所有構(gòu)建體,我們檢查了單獨的NsiI的有效切割(參見圖2),因為轉(zhuǎn)錄起始是體外轉(zhuǎn)錄反應的限制性步驟之一,并且在模板制備中即使少量的環(huán)狀質(zhì)粒將產(chǎn)生大比例的轉(zhuǎn)錄物。NsiI限制酶切產(chǎn)生3'突出端。這可能啟動第二鏈轉(zhuǎn)錄,在這種情況下,我們訴諸鈍化粘性。為此,使用T4DNA聚合酶的3'-5'外切核酸酶活性。T7轉(zhuǎn)錄使用EpicentreAmpliScribe試劑盒HighYield和Flash:將線性化轉(zhuǎn)錄物用作商業(yè)T7轉(zhuǎn)錄試劑盒,Epicenter的AmpliScribeT7HighYield轉(zhuǎn)錄試劑盒(Art.No150408)和AmpliScribeT7Flash轉(zhuǎn)錄試劑盒(Art.No150405)中的模板??刂芓7轉(zhuǎn)錄的主要因素是使用具有耐受高dNTP濃度的轉(zhuǎn)錄條件的試劑盒。這允許高產(chǎn)量,即1μg質(zhì)??僧a(chǎn)生至多160-180μgRNA(例如Epicentre的HighYield試劑盒)。此外,直到絕對限制,更多的模板將產(chǎn)生更多的RNA。對于不同長度的模板,必須考慮摩爾比,短模板不會產(chǎn)生與較長模板相同的RNA質(zhì)量,因為轉(zhuǎn)錄起始是限制性步驟,T7聚合酶延伸的一個階段覆蓋高達600nt(來自Epicentre的網(wǎng)站的信息)。更長的孵育時間增加了起始可能性,對較短模板的產(chǎn)量具有更大的影響。因此,有時建議孵化不是標準的2小時,而是4-6小時甚至過夜。然而,更長的孵育可導致RNA降解,因為T7轉(zhuǎn)錄緩沖液含有Mg2+陽離子。將T7轉(zhuǎn)錄酶反應溫度從37℃增加到42℃可以導致產(chǎn)量的強烈增加。這對于更復雜(富含GC,結(jié)構(gòu)化)的模板可能更加明顯(參見圖3)。痕量的GuSCN、苯酚、SDS、RNA或金屬離子可抑制T7轉(zhuǎn)錄酶活性。嚴格純化線性化的質(zhì)粒,例如推薦Whatman純化?;蛘?,可以增加反應體積或降低質(zhì)粒輸入體積。模板DNA應通過DNA酶去除。根據(jù)Epicentre(AmpliScribe手冊),可將1單位的所包含的DNA酶直接添加至轉(zhuǎn)錄中,進一步在37℃溫育15分鐘。將測試DNA酶處理是否影響RNA完整性,即,如果其由于殘留的核糖核酸酶而降解RNA?;蛘?,也可以通過酸性酚提取,也在SPLIT操作方案變體中除去DNA。然而,GuSCN可能不需要隨后的氧化硅柱結(jié)合。剩余的質(zhì)粒DNA可以在Bioanalyzer運行中檢測或在使用引物GCTAATACGACTCACTATA*G(SEQIDNO:337)和TTTTTTTTTTTTTTTTTTTTTTTTT*V(SEQIDNO:338)的qPCR測定中(甚至使用RNA-特異性染料)定量地檢測,其中(*)是具有硫代磷酸酯鍵的核苷酸。推薦的SIRV純化方法如下所述。PAGE:用于以NGS摻入轉(zhuǎn)錄物所需的高質(zhì)量純化體外轉(zhuǎn)錄的RNA的標準方案是PAGE洗脫,但是麻煩的,不是非常精確的,可能誘導UV交聯(lián),并且其不適合于>1kb的轉(zhuǎn)錄物?;谘趸璧募兓杭兓畛鮾H通過本領(lǐng)域技術(shù)人員已知的Whatman操作方案進行,從核酸中除去dNTP、添加劑和蛋白質(zhì)。然而,這個過程是易損的;高達60%的測試標記物在標準程序中沒有洗脫。此外,DNA模板將共洗脫。應該測試洗脫緩沖液EB或儲存緩沖液SB是否可用于有效的洗脫。磁性寡聚(dT)珠純化轉(zhuǎn)錄物:當轉(zhuǎn)錄反應不能產(chǎn)生全長RNA(直至NsiI限制性位點)時,則該RNA不含有A(30)尾。因此,寡聚(dT)珠純化可用于選擇性純化全長轉(zhuǎn)錄物。然而,這種方法不會區(qū)分由運行轉(zhuǎn)錄或第二鏈轉(zhuǎn)錄產(chǎn)生的異常RNA,因為這些RNA也含有最小一個拷貝的A(30)-一段序列。注意,DNA模板的一條鏈也將含有多聚(A)的一段序列。需要確定DNA是否以其dsDNA形式存在(因為轉(zhuǎn)錄物從其模板釋放)并且不能參與寡聚(dT)雜交。在該方法的一個變體中,寡核苷酸將是RNA,并且結(jié)合步驟之后可以進行RNA酶H消化,去除通過其編碼的A(30)一段序列與珠結(jié)合的任何質(zhì)粒DNA?;蛘?,通過DNA酶處理除去DNA。Pippin制備:SageScientificPippin制備是自動凝膠洗脫系統(tǒng),其被設計用于從1.5%或2%天然瓊脂糖盒洗脫dsDNA(例如NGS文庫)。由于RNA不會根據(jù)Pippin制備的外部或內(nèi)部DNA標準運行,因此不可能進行長度估計。然而,足夠純度的SIRV運行在單個主峰中,其可以用大小選擇操作方案“峰”進行檢測,在設定的閾值堿基對值之后自動收集下一個峰。質(zhì)量控制和定量對于預測SIRV混合物是重要的。Nanodrop定量:光度測量給出A260/A230和A260/A280比例形式的濃度(并因此,產(chǎn)率)和純度。重要的是,純化不充分是有問題的,因為如在Nanodrop儀器(NanodropInstruments)中進行的吸光度測量也測量微量的在260nm處具有超比例吸光度的dNTP。Qubit測量(LifeTechnologies)可以作為第三個參照。AgilentBioanalyzerRNA納米芯片:可以在AgilentBioanalyzerRNA芯片上評估SIRV轉(zhuǎn)錄物的正確長度、數(shù)量、RNA完整性(即折斷或降解產(chǎn)物)和異常(更長)產(chǎn)物。變性凝膠電泳:與Bioanalyzer互補,RNA也可以在變性PAA或瓊脂糖凝膠上分析,這取決于它們的大小。這可以使得能夠更準確地評估轉(zhuǎn)錄物長度,但是沒有定量和Bioanalyzer提供的范圍。qPCR:為了評估摻入轉(zhuǎn)錄物的完整性并導出互補定量,全長cDNA合成之后可以是位于轉(zhuǎn)錄物的5'、中間和3'區(qū)域中的多個擴增子的qPCR。作為外標,PCR轉(zhuǎn)錄模板可以在相同的設置中擴增。這些設置也適用于確定SIRV混合物中的相對濃度。這些SIRV特異性引物需要仔細設計以各自僅靶向一種特異性SIRV,而不是靶向例如給定基因的所有SIRV共有的外顯子。實施例3:SIRV作為外部對照在RNA-seq中的用途廣泛假設由以下步驟組成的實驗程序i)樣品收集,ii)RNA純化,iii)NGS文庫生成,iv)NGS測序,v)讀長與參照注釋的比對,以及vi)后續(xù)生物信息處理準確計算相對轉(zhuǎn)錄物豐度。然而,不同的方法,例如不同的樣品制備以及與下面實施例中所示相同的實驗數(shù)據(jù)集的生物信息學處理程序也是可能的。只有非常少的含有部分驗證的轉(zhuǎn)錄物豐度的數(shù)據(jù)集。其中之一是來自微陣列質(zhì)量控制(MAQC)樣品(MAQCConsortium,2006),并且含有通用人參照RNA(UHRR)和人大腦參照RNA(HBRR)。對于兩種RNA樣品,用1044個Taqman探針衍生qPCR測量。這些測量可從GeneExpressionOmnibus以登錄號GSE5350獲得。此外,UHR和腦RNA樣品在IlluminaGenomeAnalyzer的七個泳道上測序,產(chǎn)生35bp單端讀長(James等人,2010)。這些讀長可從NCBI讀長檔案庫以登錄號SRA010153獲得,使用TopHat2作圖到Ensembl注釋GRCh37版本75。從1044個Taqman探針中僅保留906個探針,根據(jù)GSE5350,它們作圖到單個Refseq注釋。由于在實驗中使用Ensembl注釋,通過要求Taqman探針的Refseq注釋在Ensembl中具有獨特的等同物,進一步減少了該組Taqman探針。最后,從這些894個Taqman探針,只使用那些Ensembl轉(zhuǎn)錄標記被保留在具有多個轉(zhuǎn)錄物的基因內(nèi)的那些。這導致最終的一組798個Taqman探針。使用Pennseq(Hu等人,2014)、方法1和具有和沒有偏差校正的cufflinks、方法2和3(Roberts等人,2011;Trapnell等人,2010)來對798轉(zhuǎn)錄物導出以FPKM值形式估計的濃度。通過不同方法獲得的FPKM值與qPCR值之間的相關(guān)性顯示在表7中。相關(guān)性用對數(shù)空間中的R2值和斯皮爾曼相關(guān)性ρ測量。由于接近零的值可以顯著扭曲對數(shù)空間中的統(tǒng)計量,對于所有方法,低于1e-3的FPKM值設置為1e-3。或者,可以認為FPKM低于1e-3的轉(zhuǎn)錄物未被檢測到。表7.在UHRRNA泳道SRR037445上FPKM和qPCR之間的相關(guān)性和未檢測(ND)轉(zhuǎn)錄物(即具有FPKM<1e-3的轉(zhuǎn)錄物)的性質(zhì)。如表7所示,一方面,對于Pennseq,R2值為0.418,對于沒有偏差校正的Cufflinks,R2值為0.3317,對于具有偏差校正的Cufflink,R2值為0.3943。另一方面,對于Pennseq,斯皮爾曼相關(guān)性為0.7129,對于沒有偏差校正的Cufflinks,斯皮爾曼相關(guān)性為0.6541,對于具有偏差校正的Cufflinks,斯皮爾曼相關(guān)性為0.7312。引人注目的分別是,有和沒有偏差校正的Cufflinks沒有檢測到通過qPCR顯示存在的轉(zhuǎn)錄物的14.61%和15.48%,而Pennseq沒有檢測到2.79%。重要的是,在qPCR驗證實驗中,通過3種計算方法未確定的轉(zhuǎn)錄物具有-1.65至-1.76的高平均log10豐度。該實施例通過選擇798個TaqmanqPCR驗證的基因座,其含有超過一個的Ensembl轉(zhuǎn)錄物注釋(兩個不同的生物信息算法)和一個具有兩個不同的偏差校正(Cufflinks),產(chǎn)生三個顯著不同的結(jié)果。比對將大量基因內(nèi)的閱讀分布到錯誤的轉(zhuǎn)錄物。絕對相關(guān)是不可能的,因為接地槽(groundtrough)我們是未知的。僅存在于與天然存在的基因中的轉(zhuǎn)錄物相似的復雜設置中的已知豐度的人工轉(zhuǎn)錄物變體使得能夠定量評估測量方法的精確性,無論是單獨的步驟和整個工作流程。實施例4:用于測試隨機分布的卡方檢驗舉例來說,將解釋如何將卡方檢驗應用于“人工轉(zhuǎn)錄物序列集具有基本上隨機分布出現(xiàn)的5'起始三核苷酸,所述5'起始三核苷酸選自GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT”。不同案例或細胞數(shù)(n):16(GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT)人工轉(zhuǎn)錄物序列數(shù)(N):745'起始核苷酸的出現(xiàn)次數(shù)(計數(shù))(O1,O2,O3,…,On):自由度(df):n-p=15(對于離散的均勻分布p=1)任何細胞的預期出現(xiàn)是(在離散均勻分布的零假設下):Ei=N/n=4.625。這意味著具有三核苷酸的(完美)均勻分布的組將假想地具有每個所提及的三核苷酸的4.625作為5'起始三核苷酸。卡方(皮爾森的累積檢驗統(tǒng)計量)定義為:上述Oi、Ei和n的值直接應用于上述公式得到:卡方=5.57。在眾所周知的表(所謂的卡方表)中列出了某個卡方值(在該實施例中為5.57)和某些自由度(在該實施例中為15)的概率值(“p值”)。p值還可以通過廣泛使用的辦公軟件(諸如MicrosoftExcel、LibreOffice或OpenOffice(其中它們中的后兩個是可免費獲得的))或者利用可自由使用的R軟件包來計算。在MicrosoftExcel2003的英語版本中,此函數(shù)稱為CHIDIST。與卡方=5.57和df=15相關(guān)聯(lián)的p值為0.9861。因此,本實施例中起始核苷酸的出現(xiàn)滿足如本文所定義的“基本上隨機分布”的條件。實施例5:SIRV評估來自上述SEQIDNO1-74給出的集的74個SIRV中的60個被合成、克隆、表達、純化、質(zhì)量控制和通過電泳測量(RNAnano和pico芯片和Bioanalyzer中的測定,Agilent)測定其濃度,然后合并成兩個主混合物并濃縮至高于10ng/μl的濃度用于進一步的樣品制備。SIRV混合物1含有相等質(zhì)量的所有60個SIRV。根據(jù)混合方案制備SIRV混合物2,其以1:10:100的隨機比率改變SIRV基因中的個體SIRV的量高達2個數(shù)量級。在該SIRV混合物2中,每個SIRV基因作為所有附屬的SIRV的總和以相等的質(zhì)量提供。制備三種RNA樣品。樣品1僅含有通用SIRV轉(zhuǎn)錄物混合物SIRV混合物1(100ng)。樣品2組合500ng通用人參照RNA(Agilent)和0.3ngERCC(Ambion)和3ngSIRV混合物1。樣品3由具有0.3ngERCC(Ambion)和3ngSIRV混合物2的500ng通用人參照RNA(Agilent)組成。將三個mRNA樣品運送到服務提供商(Fasteris,Suisse),他們進行樣品制備并進行測序。通過沒有多聚A選擇的定制文庫制備從樣品1制備NGS文庫,而樣品2和3進行具有多聚A選擇的Illumina鏈式mRNA文庫制備。所有三個文庫都是加條形碼的,以嘗試相等的比例混合。在具有v3化學品的IlluminaMiSeq上進行測序,得到150bp的經(jīng)索引的讀長。總共生成了26.7Mio讀長并可分配給給定的條形碼。用FastQC(v0.11.1)評估讀長的質(zhì)量。檢測到一些適配器污染,并且可以通過使用具有以下參數(shù)的bbmap套件(版本32.32)中的bbduk進行修整:./bbduk.sh...ktrim=rk=28mink=12hdist=1minlength=20。將所得讀長用tophat(v.2.0.8)針對Ensembl的GRCh37.75、Ambion的ERCC92和SIRVome的組合的轉(zhuǎn)錄組和基因組參照注釋作圖。組圖統(tǒng)計信息如表8所示。表8.作圖統(tǒng)計信息??傋x長作圖讀長[%]獨特作圖讀長[%]樣品110,246,4428,585,64183.798,505,34483.01樣品210,119,4168,642,85285.418,399,33683.00樣品36,308,8555,404,48685.675,268,75783.51在表9中給出了在不同注釋上的獨特作圖讀長的分布。在樣品2和樣品3中,根據(jù)加權(quán)輸入預期以下讀長比率UHRR:ERCC:SIRV為70.3:2.7:27并假設在總RNA中2%mRNA含量。表9.獨特作圖讀長的分布。在樣品1中,特別高的數(shù)量的99.94%的所有讀長作圖到SIRV組,而僅有0.06%組圖到整個人類基因組和ERCC。該結(jié)果證明了SIRV組與其它已知序列的高度不相容性和SIRV序列的獨特性。在樣品2和3中,92個ERCC的58個和52個被檢測到對應于所有讀長的0.45和0.42%。在加權(quán)添加的3%以下的ERCC讀長的重復表示不足是由于僅24個腺苷的相對短的多聚(A)尾和潛在水解或以其它方式片段化和多聚(A)選擇和耗盡的ERCC。將SIRV混合到樣品中,在ERCC上存在10倍進入,并且出現(xiàn)10和20.7%,并且因此20-至40倍的進入,其由30個腺苷的更長的多聚A尾和可能更高的完整性的SRIV引起。使用IGVgenomebrowser目測檢查作圖的讀長。使用具有偏差校正的Cufflinks(v.1.3.0)來評估轉(zhuǎn)錄物豐度。所有SIRV轉(zhuǎn)錄物用FPKM值>0檢測。R2值低于0.8的輸入-輸出相關(guān)性證明,除了使用插入熒光染料的初步儲備濃度測量外,通過幾種獨立方式驗證接地槽輸入濃度需要廣泛的質(zhì)量測量。正在制備用于濃度的相應驗證的qPCR和Taqman測定。圖12顯示了通過Cufflinks計算的樣品2vs樣品1的相對濃度值的相關(guān)性。當然由于UHRR和ERCC背景,樣品2的SIRV濃度低約10倍。然而,預期高于0.95的高R2值,因為在兩個樣品中測量相同的SIRV混合物1。部分假讀長分配是由生物信息處理引起的,如圖13所示。SIRV基因1的總體覆蓋度以及除了105以外的鑒定的注釋轉(zhuǎn)錄物SIRV101至109(全部用SIRV1編碼)一起顯示在圖13頂行中,其中105不是SIRV混合物1中74個SIRV中的60個的一部分并因此沒有包括在注釋中。因為Cufflinks添加額外的轉(zhuǎn)錄物假說,并且按照內(nèi)部確定的長度依賴性概率分布和其他許多分配規(guī)則將讀長分配到轉(zhuǎn)錄物變體集,所以所呈現(xiàn)的值根本不正確,因為樣品1和2之間具有R2值為0.83的SIRV相關(guān)性,該相關(guān)性對于相同的樣品是低的。為了評估所產(chǎn)生的分配誤差,必須知道輸入濃度的接地槽,這只有在所呈現(xiàn)的SIRV參照集的情況下才是可能的。僅給定模型復雜度中的輸入-輸出相關(guān)性的分析允許將關(guān)于測量的準確度的假設外推到未知的整個轉(zhuǎn)錄物變體集,通過本發(fā)明第一次使之成為可能。實施例6:制備具有確定濃度和濃度比的SIRV混合物E0、E1和E2,以及將SIRV混合物用于摻入RNA樣品RC-0、RC-1和RC-2在這里,選擇來自74個SIRV的69個SIRV,其已經(jīng)通過在毛細管電泳Bioanalyzer跡線中在正確計算大小的主峰中顯示≥85w/w%而定義的純度獲得。通過吸收光譜法(Nanodrop,ThermoScientific)測量SIRV溶液,并將儲備溶液濃度調(diào)節(jié)至≥50ng/μl。在260nm至280nm和260nm至230nm處的吸光度的比率表明RNA的最高純度,并記錄如下:A260nm/280nm2.14±0.12,A260nm/280nm2.17±0.20Nanodrop允許精確的RNA定量,根據(jù)制造商的規(guī)格,對于≤100ng/μl的核酸樣品,誤差為±2ng/μl。在50ng/μl附近的最終SIRV儲液濃度測量的定量的相對誤差為±4%?;赟IRV序列的堿基分布,根據(jù)下式計算每種溶液的摩爾濃度:MW[g/mol]=A*329.2+U*306.2+C*305.2+G*345.2+159設計了含有等摩爾比的6-11個SIRV轉(zhuǎn)錄物的8個預混合物。它們的長度分布允許在如圖14A所示的Bioanalyzer跡線中進行獨特的鑒定,以監(jiān)測預混合物和隨后的混合物(圖14B和C)中SIRV的出現(xiàn)和完整性。盡管Bioanalyzer跡線不允許絕對定量,但它們用于遵循混合程序的相對化合物分布和一致性。通過Nanodrop濃度測量來控制8個預混合物的準確體積制備,偏離計算的目標濃度的偏差為0.002%±3.4%(最大7.6%)。通過在分析天平上稱重進一步監(jiān)測體積的混合,其顯示1.8%±0.65%(最大2.5%)的偏差。將8個預混合物成對混合,得到4個子混合物。通過電泳監(jiān)測混合過程的質(zhì)量,如圖14B所示。通過Nanodrop濃度測量(偏差0.8%±2.5%,最大4.5%)控制4個子混合物的體積制備。將4個子混合物以確定體積比混合到最終混合物中,通過電泳監(jiān)測混合過程如圖14C所示。4個子混合物與最終混合物E0組合的比例為1:1:1:1,對于最終混合物E1為1/4:1/2:1:1,對于最終混合物E2為4:1/4:1/32:1。Nanodrop濃度測量顯示5.1%±3.3%的偏差(最大8.6%)。在非常狹窄的范圍內(nèi),所有混合物的Bioanalyzer跡線類似于它們各自的預混合物和子混合物成分的總和(圖14)。相對峰形狀和位置是SIRV混合物的可靠定量監(jiān)測工具。通過這些手段,在不同的混合物中可以確??煽康腟IRV濃度和濃度比。使用SIRV混合物E0、E1和E2來摻入通用人參照RNA(UHRR)和人腦參照RNA(HBRR),其另外包含ERCC對照混合物1和2以產(chǎn)生具有對照RC-0、RC-1和RC-2。各RNA部分的相對量顯示在圖15中,并且基于UHRR和HBRR中總RNA的2%的恒定mRNA含量計算。摻入,SIRV和ERCC混合物的最終相對濃度取決于參照RNA的真mRNA含量以及消耗和/或富集方法,同時減少核糖體和其他高豐度RNA的量。這些樣品被設計用于測試不同的RNA-Seq工作流程。實施例7:NGS測序,具有SIRV混合物的RNA樣品RC-1和RC-2的數(shù)據(jù)評估,以及通過使用不同的注釋確定RNA測序流水線的準確性不具有多聚(A)尾的SIRV分子的序列SEQIDNO:1-74和所有外顯子的SEQIDNO:156-334是純的SIRV序列,其可以轉(zhuǎn)換為任何常見的注釋文件格式。一個這樣的實例是列出所有外顯子、內(nèi)含子的純核苷酸序列的FASTA文件和側(cè)接第一個和最后一個外顯子并被稱為非翻譯區(qū)的序列的組合,以及相應的GTF文件(其保存關(guān)于各個外顯子的起始和終止坐標的信息)。序列SEQIDNO:156-334已轉(zhuǎn)換為對應于人模型基因的方向的鏈取向,并且所有內(nèi)含子序列已經(jīng)用各自長度的GC加權(quán)隨機序列填充,所有內(nèi)含子供體-受體位點在其相對出現(xiàn)中對應于如表2所示的規(guī)范和非規(guī)范供體受體對。SEQIDNO:339-345(表示具有7個序列的FASTA文件)含有所述完整外顯子和內(nèi)含子序列以及1kb長上游和1kb長下游序列。GTF文件含有關(guān)于變體結(jié)構(gòu)的信息,并且提供以下變體作為示例,GTF文件“SIRVC”(在附錄B中列出)含有在混合物E1和E2中的所有SIRV的正確注釋。GTF文件“SIRVI”(在附錄A中列出)是注釋不足的幾種可能性之一。在這里,實際上存在于混合物中的一些SIRV沒有被注釋。GTF文件“SIRVO”(在附錄C中列出)是無數(shù)的可能的過度注釋之一。附加的SIRV是被注釋過的,其并不存在于混合物中。在該文本中,注釋的這些變化被稱為SIRV_C、SIRV_I和SIRV_O。使用SIRV的數(shù)據(jù)評估的可能性是多方面的。以下建議概述了評估RNA-Seq流水線性能所必須執(zhí)行的基本程序。在解復用后,條形碼和質(zhì)量修剪后,讀長必須被作圖到各自的基因組、SIRV組(所有SIRV序列的全部)和當適用時ERCC序列。作圖到SIRV組的所有讀長可以分開過濾和處理。讀長分配給基因分類提供了關(guān)于摻入程序的可變性的第一概述。SIRV含量必須與其預期質(zhì)量或摩爾比例相關(guān)。對于旨在覆蓋RNA分子的長度并導致測量諸如FPKM的文庫制備,SIRV讀長的比例必須服從質(zhì)量比,而對于標記獨立計數(shù)RNA分子的文庫制備,SIRV讀長必須遵守摩爾比。樣品特異性偏差的校正對于差異表達(DE)分析是重要的。變化的RNA樣品背景、mRNA含量和完整性,以及消耗和/或mRNA富集程序的變化導致測序文庫中的不同SIRV混合物含量??俁NA樣品的mRNA含量可以變化高達2.5或更高的因子。這種偏差的校正對于差異表達的正確測試以及隨后在RNA樣品本身中相對化和校正DE測量是重要的。偏移因子是RNA分類分布的量度,并且可以用于基于SIRV控制的標準化。SIRV混合物的仔細的定量摻入程序是必需的前提條件,并且需要在樣品定量下游進行精確的體積樣品處理。所有測量和隨后的標準化都需要設置為具有明顯的實驗變量的環(huán)境,例如在微小體積秤中操作時可實現(xiàn)的移液準確度。在一個實施例中,使用TruSeq鏈式mRNA文庫制備試劑盒(Illumina,Inc.),用RC-1和RC-2的500ng輸入RNA產(chǎn)生三份重復的NGS文庫,然后在HiSeq2500上在標稱125bp長的雙末端測序運行中對六個加條形碼的文庫進行測序,以分別獲得對于RC-1三份重復的16.27±0.16Mio和獲得對于RC-2三次重復的16.97±1.45Mio的修剪的保留的雙末端讀長。將讀長與TopHat2作圖到人參照基因組、ERCC序列和SIRV序列。屬于SIRV的讀長的相對量在樣品RC-1中測量為2.32±0.05%,在樣品RC-2中測量為1.87±0.12%。在圖15中,提出了摻入的SIRV的比率,用于相對于總RNA中假定的2%平均mRNA含量更好的比較。然而,真正的mRNA含量已知是可變的。在UHRR中測得接近3%,在HBRR中接近2%(Shippy等人,2006)。預期mRNA比率UHRR/HBRR為1.5。因為樣品RC-2的參照RNA背景含有RC-0參照RNA背景的2/3和RC-1參照RNA背景的1/3,所以RC樣品RC-1和RC-2中的兩個SIRV測量允許計算UHRR參照RNA中的mRNA含量(在樣品RC-0中;參見上文)。SIRV已經(jīng)被摻入樣品RC-1中,相對于2%mRNA為2.53%,并且用2.32%測量,其導致HBRRmRNA含量的值為2.18%,樣品RC-2中的mRNA含量為2.89%,其導致UHRRmRNA的計算值為3.44%。它允許確定mRNA比率UHRR/HBRR為1.58,這證實了以前發(fā)表的1.5的比率?;趽饺氡壤?,SIRV表示為接近100%,這表明多聚(A30)尾足以用作在使用的mRNANGS文庫制備的一部分的多聚(A)富集方法中的定量表達。使用SIRV_C注釋進行使用Cufflinks2算法的SIRV讀長的分配?;谧x長的分配計算豐度,并且可以與已知的輸入量相關(guān)。在對數(shù)空間中計算輸入-輸出相關(guān)性,但是也可以在線性空間中進行,因為設定的濃度范圍在RC-1中僅為1個數(shù)量級,在RC-2中為2個數(shù)量級。對于正確的測量,皮爾森積矩相關(guān)系數(shù)(皮爾森的r)應該接近1。相關(guān)圖示于圖16A中。對于樣品RC-1中的SIRV,r值為0.446,而對于樣品RC-2中的SIRV,r值為0.932,參見表10。源自相同子混合物的12至21個轉(zhuǎn)錄物的等摩爾濃度允許計算平均值和方差作為顯著的質(zhì)量測量。對于每個SIRV混合物,測序流水線的質(zhì)量可以被證明為一組4個相對平均值連同相應的方差。所測試的流水線的結(jié)果分別為對于RC-1為1.21±56.05%、0.93±46.56%、0.97±49.46%和1.02±71.62%,對于RC-2為1.56±75.75%、0.93±54.83%、0.94±44.46%和1.02±54.48%。盡管在整個濃度范圍內(nèi)相對平均值接近1,高方差表明個體SIRV以大的變異確定。表10.在作圖到不同的注釋SIRV_C、_I和_O之后,RC-1和RC-2中的SIRV之間和之中的摻入和測量的相對濃度和濃度比的比較。在對數(shù)空間中計算r值。對于實際存在于混合物(行4)、未足夠注釋的SIRV(行15-16)和過度注釋的SIRV(行27-28)的SIRV,顯示預期的和測量的總SIRV濃度。最準確和可重復的評估可以通過確定差異表達值或倍數(shù)變化來實現(xiàn)。由于通過4個子混合物的精確體積組合制備混合物,所以差異不受其它質(zhì)量測量(例如SIRV的全長完整性)的影響。預期和測量的倍數(shù)變化之間的比較顯示在圖16B中,并且平均值在表10的第9列、第5至13行中類似地示出。相對平均值連同對應的方差顯示出從比率1/64開始的值,偏移為2.82,方差為±169.9%,繼續(xù)為1.07±41.0%、1.00±16.2和0.78±23.5%。r值達到0.851。相對大的方差表示個體SIRV的假測量,并且NGS流水線的最重要的不一致的定量導致顯著的變化,因此正確定量中存在不確定性。大的方差已經(jīng)表明,一些SIRV與它們所屬的子混合物的主要部分(fraction)不成比例。在SIRV家族1和2中可以看到四個這樣的明顯的實例,參見表11,并且在其它SIRV家族中更多。雖然一方面,SIRV101、102、103、106、107、109、203、204和205的差異基因表達相差小于10%,而SIRV206與所設置的比相差小于15%,但是另一方面,SIRV105、108和202的比例差異超過40%,并且SIRV201的比例超過250%。大多數(shù)物種的比例是正確的,并且在所有四個不同的子混合物中是明顯的。因此,明顯的偏差是由文庫生成、測序和/或數(shù)據(jù)分析中產(chǎn)生的誤差引起的。表11.來自SIRV家族1和2的SIRV的摻入和測量(meas)相對濃度比的比較。使用不同的注釋SIRV_I和SIRV_O重復作圖。版本SIRV_I(注釋不足)允許判斷流水線檢測新轉(zhuǎn)錄物變體的能力。該實驗顯示非注釋的SIRV的讀長如何偽造地分布到注釋的子集,偏移定量。衍生的濃度的變化程度提供了RNA-Seq流水線的穩(wěn)健性的另外的量度。對于本實驗,相關(guān)性圖劣化。樣品RC-1中的SIRV的r值下降到0.406,而樣品RC-2中的SIRV的r值下降到0.813。額外的誤差似乎均勻地傳播,并且預期和測量的倍數(shù)變化之間的比較顯示甚至略微更高的0.889的r值。過度注釋版本SIRV_O反映了第三種情況。在這里,經(jīng)注釋的SIRV比實際包含在樣品中的SIRV更多。注釋包括可能已經(jīng)發(fā)現(xiàn)的轉(zhuǎn)錄物變體:例如在其他組織中,相同的組織但是在不同的發(fā)育階段,已經(jīng)被錯誤地注釋,或者是早期實驗的替代物,其中具有典型長度的克隆的EST的大量變體是典型的實例?,F(xiàn)在,可以將讀長分配給實際不是真實樣品的一部分的SIRV變體。對于本實驗,相關(guān)性圖顯示RC-1的0.506和RC-2的0.699的r值。預期和測量的倍數(shù)變化之間的比較顯示0.871的類似r值。正確的SIRV檢測的程度和穩(wěn)健性是流水線性能的量度。在RNA-Seq實驗中的準確性水平的測量可以使用SIRV摻入對照以不同的方式進行。與任何其它天然存在的基因一樣,SIRV基因的變體以獨特的告訴(telling)序列的程度變化為不同的程度。序列的獨特性是基因復雜度的量度,其包括當將NGS讀長分配到轉(zhuǎn)錄物變體時要解決的“簡單”和“更困難”任務的組合。在注釋的上下文內(nèi)的一個轉(zhuǎn)錄物特異性圖是相對變體特異性序列RSS,其在核苷酸水平上計數(shù)并標準化為其長度。每個轉(zhuǎn)錄物的共有核苷酸計數(shù)與競爭性轉(zhuǎn)錄物變體的數(shù)量成反比。序列復雜度的量度C是所有反向RSS值除以轉(zhuǎn)錄物長度L的總和。測量vs摻入濃度的相對倍數(shù)偏差D現(xiàn)在可以通過序列復雜度加權(quán)。對轉(zhuǎn)錄物變體的正確讀長分配的挑戰(zhàn)是與注釋的內(nèi)在復雜度成比例。對數(shù)倍數(shù)偏差D的反模數(shù)乘以序列復雜度C是根據(jù)下式的濃度測量A的加權(quán)準確度的量度:ASIRV=f1{(Σ(1/RSS))/L}/f2{|log2D|}=f1{C}/f2{|log2D|}兩個函數(shù)f1和f2允許不同分量的加權(quán)和邊界條件的定義,這將允許例如測量和摻入濃度的完美一致性,其中相對偏差接近1,因此log接近0,并且商不定義。因此,在SIRV_O注釋內(nèi)的所有69個SIRV的正確測量可以達到在SIRV_C注釋內(nèi)的更高值,因為它本質(zhì)上更難以獲得正確的濃度度量。倍數(shù)變化必須分配給定閾值,否則值接近零會使有意義的數(shù)據(jù)評估失真。相對變體特異性序列RSS和復雜度C可以在實施例中通過觀察SIRV1開始時的重疊序列來解釋。SIRV107是重疊有義轉(zhuǎn)錄物,而SIRV108和109是重疊反義轉(zhuǎn)錄物。在注釋SIRV_I中,SIRV109的序列是獨特的,因為缺少SIRV108,并且每個核苷酸的所有1/RSS值為1,乘以并除以SIRV109的長度,該值保持為1。在注釋SIRV_C中,SIRV109的序列不再獨特,因為它與SIRV108共有其部分序列。相應的1/RSS值為2,復雜度>1。在注釋SIRV_O中,SIRV109的序列僅與SIRV108共有其序列的部分,僅與SIRV110共有其序列的部分,其中相應的1/RSS值再次為2,并且與兩者均共有其序列的部分,以及相應的1/RSS值計數(shù)3,而其沒有序列是獨特的。在這里,SIRV109的C值再次較大。SIRV109的加權(quán)準確度A與那些C值成比例,并與混合物E1和E2中已知的SIRV109輸入的確定的log2倍數(shù)偏差的模量成反比。倍數(shù)變化允許進一步計算多個參數(shù),如調(diào)用差異表達中的真和假陽性率TP和FP。在TPvsFP曲線下的面積AUC可以作為差異表達分析中診斷性能的量度。實施例8:稀釋、穩(wěn)定和制備等分試樣的SIRV和其他對照,以用于可靠的應用RNA易于被二價陽離子和溫度加速的RNA酶或水解降解。此外,RNA傾向于被許多表面吸附。因此,在含有抗氧化劑和添加劑如EDTA、DDT、RNasin或其它RNA酶抑制劑的緩沖液中,以25ng/μl以上的濃度提供用于電泳凝膠或ERCC混合物的如RNA梯狀條帶的RNA對照。這樣的RNA溶液儲存在通常-20℃的低溫下。當在低百分比范圍內(nèi)使用RNA對照以與mRNA比較時,需要數(shù)十皮克(pictogram)的等分試樣,并且高濃度對照必須在適合于摻入之前稀釋成多個。當僅需要一次處理幾個樣品時,則必須扔掉大部分稀釋的對照。等分試樣的稀釋和制備具有引入不希望的變化的風險。在本實施例中,將SIRV制備為易于使用且穩(wěn)定的給定實驗所需總量的等分試樣。如上述E0、E1、E2的SIRV混合物或單獨的SIRV或與另外的RNA對照的任何其它組合一起使用無RNA酶的緩沖液從儲備溶液稀釋至1pg/μl、10pg/μl或100pg/μl,所述緩沖液含有穩(wěn)定劑如GenTegra-RNA(GenTegra)、RNAstable(Biomatrica)或在干燥溶液的同時減少RNA降解的其它添加劑。然后,將具有稀釋的RNA對照的溶液在小瓶中分成所需量的等分試樣,然后將溶液在環(huán)境溫度下快速干燥或凍干。當獨立于后面的應用制備等分試樣時間時,體積以及等分試樣的數(shù)目可以相對較大,這增加了對照的制備的可重復性。對照RNA的干燥等分試樣可以在室溫下儲存。當需要對照RNA等分試樣時,只需在處理的任何階段將靶RNA樣品加入到干燥的對照RNA中。需要幾分鐘的短的孵育時間以溶解干燥的RNA對照。通過這些手段,樣品可靠地摻入RNA對照中。在一個優(yōu)選實例中,RNA對照含有具有獨特標識符(如條形碼序列)的RNA。條形碼序列的側(cè)翼是標記條形碼序列的存在的獨特的人工序列。對照中的條形碼確保從RNA樣品添加到對照的那一刻,該樣品用內(nèi)部條形碼唯一鑒定。外部樣品標記與內(nèi)部條形碼的匹配確保在高通量設置中不會出現(xiàn)錯誤的身份。在任何測序?qū)嶒炛?,對照RNA和條形碼的存在確保了樣品的可追溯性和樣品處理的可比性。實施例9:SIRV與另外的摻入對照如導致序列特異性連接偏差的微RNA的組合SIRV可以與其他RNA對照如ERCC、上述條形碼RNA或人工微RNA組合。微RNA是通常為21至23nt的短RNA。由于它們有限的大小,微RNA文庫制備的工作流程是不同的,因為引發(fā)和cDNA合成受到阻礙/影響。微RNA必須直接連接。末端序列,特別是幾個起始位點和終止位點負責引入可以高達5個數(shù)量級的強偏差。因此,需要特殊的微RNA對照,其允許測量連接反應中的序列偏差。在這里,我們使用具有4、5和至多8個隨機核苷酸N(8)的隨機序列的人工微RNA,在序列起始以及終止處,優(yōu)選21至23nt長,但可以短至16nt并長達36nt。合成人工微RNA。本文的主要障礙在于,也使用A、U、G和C的混合物來補償任何合成偏差,miRNA合成運行中的小變化可導致核苷酸分布的顯著變化,其進而應當嚴格控制,因為它用于評估偏差。因此,人工微RNA也在中間部分還包含幾個隨機核苷酸N,至少一個,至多起始位點的N和終點的N之間的N的最大數(shù)目。雖然中間的N提供了對核苷酸分布中的隨機性的獨立量度,在N的一段序列中,在起始位點和終止位點的N允許確定微RNA文庫制備的序列偏差。當前第1頁1 2 3 當前第1頁1 2 3