相關(guān)申請的交叉引用
本申請要求提交于2014年3月28日的美國臨時申請61/972,073的權(quán)益,其全部內(nèi)容以與其一致的程度而通過引用結(jié)合到本申請中。
關(guān)于聯(lián)邦資助的研究或開發(fā)的聲明
本發(fā)明是在由美國國立衛(wèi)生研究院授予的政府資助gm107199下進行的。政府對本發(fā)明具有一定的權(quán)利。
背景技術(shù):
氣相色譜質(zhì)譜法(氣相色譜質(zhì)譜聯(lián)用)(gc-ms)實驗在偶聯(lián)至電離源的gc柱上分離小分子。電離后,分子隨后被質(zhì)量分析。一種典型的電離方法是導(dǎo)致分子以有助于分析物識別的可再現(xiàn)模式分裂成碎片的電子電離(ei)。通常,使用者產(chǎn)生的ei譜圖通過與參考譜圖的數(shù)據(jù)庫進行譜圖匹配來識別,這些數(shù)據(jù)庫包括從在單位分辨質(zhì)譜儀上收集的純化合物產(chǎn)生的幾個現(xiàn)存的ei譜圖數(shù)據(jù)庫(即由nist、wiley等提供的~1da參考庫)。
然而,該方法可能導(dǎo)致分析物歸屬識別的不明確,這是由于單位分辨率譜圖的特異性差。許多情況下不同化合物產(chǎn)生相似ei譜圖,導(dǎo)致大量錯誤識別。此外,在所觀測的譜圖和參考譜圖之間的譜圖相似度程度(用于分配識別置信度的度量)是不明確的并且受到人的判斷的影響。
之前,研究人員已經(jīng)構(gòu)建了能夠收集高分辨率ei譜圖的高分辨gc-軌道離子阱質(zhì)譜儀(參見,例如peterson等人,“developmentandcharacterizationofagc-enabledqlt-orbitrapforhigh-resolutionandhigh-massaccuracygc/ms(用于高分辨和高質(zhì)量精確度的gc/ms的一種gc-驅(qū)動的qlt-軌道離子阱的發(fā)展和表征)”,anal.chem.,2010,82(20):8618-28)。然而,目前可用的譜圖庫(如由nist和wiley提供的)不包含高分辨率譜圖,而是保持為單位分辨率庫。
所需要的是利用當前可用的單位分辨參考庫實現(xiàn)高分辨率譜圖匹配的方法。這些可用的數(shù)據(jù)庫包含使用高分辨率gc/ms儀器重新創(chuàng)建將是過分昂貴的數(shù)十萬個參考譜圖。本文所呈現(xiàn)的本發(fā)明提供了一種利用高分辨率譜圖以利用這些現(xiàn)有資源實現(xiàn)優(yōu)越的譜圖匹配特異性的手段。使用高分辨精確質(zhì)量測定將會提高譜圖匹配置信度而無需高分辨參考庫。
其他人已經(jīng)使用預(yù)測的斷裂模型(即,由進行預(yù)測的計算機模擬(insilico)斷裂的算法生成的理論高分辨率譜圖)試圖提高譜圖匹配的特異性。使用這種方法,已知的分子結(jié)構(gòu)和鍵能用于開發(fā)預(yù)測ei斷裂的算法。如果存在,則這些算法很少能夠產(chǎn)生與實驗測定的譜圖精確相關(guān)的譜圖。通常預(yù)測的譜圖與它們的測定的類似物極度不相似,導(dǎo)致錯誤識別的可能性增大。本方法的一種實施方式以在測定的參考數(shù)據(jù)中實驗觀測的模式開始,保持在預(yù)測模型中不容易考慮的重要峰和強度的關(guān)系。
本發(fā)明提供了用于使用單位分辨率譜圖數(shù)據(jù)結(jié)合另外的濾波和評分步驟分析從高分辨質(zhì)譜儀獲得的數(shù)據(jù)的方法和系統(tǒng)。此外,本發(fā)明能夠使用目前可用的單位分辨參考庫實現(xiàn)高分辨匹配。這些可用數(shù)據(jù)庫包含使用高分辨率gc/ms儀器重新創(chuàng)建將是過分昂貴的數(shù)十萬參考譜圖。因此,本發(fā)明允許使用新獲得的高分辨率譜圖利用現(xiàn)有資源實現(xiàn)優(yōu)越的譜圖匹配特異性。
本文中所呈現(xiàn)的本發(fā)明是使用獲得的高分辨質(zhì)譜(如gc-ms期間獲得的譜圖)提高化合物識別的有用工具。在一個實施方式中,例如,本發(fā)明的方法以在測定的參考數(shù)據(jù)中實驗觀測的模式開始,保持在預(yù)測模型中不容易考慮的重要峰和強度的關(guān)系。因此,本文描述的方法和系統(tǒng)的方面是互補的,或者對于所進行的與由某些常規(guī)算法生成的理論高分辨率譜圖進行的譜圖匹配而言是優(yōu)越的。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了用于識別高分辨質(zhì)譜的方法、系統(tǒng)和算法。在一些實施方式中,分析物被電離(離子化)并使用高分辨率質(zhì)譜法(ms)以高質(zhì)量精確度(例如≤75ppm或≤30ppm)進行分析,并且將得到的質(zhì)譜與一種或多種準候選分子或化學(xué)式匹配。本發(fā)明提供了例如方法和系統(tǒng),其中,確定了可以產(chǎn)生自候選分子或化學(xué)式的可能的碎片(片段,fragment)以及這些碎片的每個的質(zhì)量。本發(fā)明提供了例如這樣的方法和系統(tǒng),其中,高分辨質(zhì)譜然后與針對每個候選分子或化學(xué)式計算的碎片質(zhì)量進行比較,并且確定對應(yīng)于或能被計算的碎片質(zhì)量解釋的高分辨率質(zhì)譜部分。本發(fā)明提供了例如方法和系統(tǒng),其中,基于對應(yīng)于或能被計算的碎片質(zhì)量解釋的高分辨率質(zhì)譜的量,分析物被識別為候選分子或具有該化學(xué)式,或者候選分子或化學(xué)式作為可能的識別而被排除。
在本發(fā)明的一個方面,獲得的分析物的質(zhì)譜使用包括單位分辨率庫和數(shù)據(jù)庫的參考庫或數(shù)據(jù)庫(包含候選分子的質(zhì)譜)與一個或多個候選分子匹配。高分辨率質(zhì)譜可以通過將高分辨率譜圖轉(zhuǎn)換成較低分辨率譜圖,例如通過將峰m/z值四舍五入到最接近的整數(shù),而匹配至單位分辨率數(shù)據(jù)庫。反饋的譜圖匹配可能仍然是不明確的,但現(xiàn)在可以采用另外的計算每個候選分子的碎片質(zhì)量和將該高分辨質(zhì)譜與計算出的碎片質(zhì)量進行比較的步驟以提高識別率。
例如,可以儲存與參考數(shù)據(jù)庫相匹配的頂級化合物,并且對于每個推定識別,原子的所有非重復(fù)組合由其分子式產(chǎn)生。在產(chǎn)生每組碎片并且可選地過濾掉不可能的分子式后,這些化學(xué)碎片在高質(zhì)量精確度下與高分辨率譜圖進行匹配。由此,確定了每組化學(xué)碎片可以解釋的譜圖的量。
本發(fā)明的一個實施方式提供了一種使用質(zhì)譜法分析樣品中的分析物的方法,包括:
(a)使用提供等于或小于75ppm的質(zhì)量精確度的質(zhì)譜技術(shù)測定所述分析物的斷裂譜圖;其中,所述斷裂譜圖包括多個對應(yīng)于來自所述樣品的碎片離子的測定質(zhì)荷比的峰;其中,所述斷裂譜圖的特征在于對應(yīng)于所述斷裂譜圖的所述峰的信號參數(shù);
(b)提供用于分析所述分析物的所述斷裂譜圖的候選分子;
(c)確定來自所述候選分子的可能碎片離子的推定碎片質(zhì)量;以及
(d)比較所述候選分子的推定碎片質(zhì)量與來自所述斷裂譜圖的測定質(zhì)荷比以確定與所述候選分子的推定碎片質(zhì)量相匹配的斷裂譜圖的信號參數(shù)相似度,由此使用質(zhì)譜法分析所述分析物。
在該方面的一個實施方式中,例如,質(zhì)量精確度等于或小于30ppm,并且可選地對于一些實施方式等于或小于10ppm。在該方面的一個實施方式中,確定來自所述候選分子的所有可能碎片離子的推定碎片質(zhì)量。
在進一步的實施方式中,推定碎片質(zhì)量針對來自候選分子的所有可能碎片離子而被確定并與所測定的質(zhì)荷比進行比較。此外,推定碎片質(zhì)量可以針對候選分子的分子式的原子的所有非重復(fù)組合而被確定。
所述信號參數(shù)包括但不限于譜圖中的峰的數(shù)目、峰的強度或強烈程度、對應(yīng)于峰的總和的總離子流(tic)和峰的m/z值。因此,確定斷裂譜圖和候選分子的推定碎片質(zhì)量之間的信號參數(shù)相似度包括但不限于成功匹配的峰的數(shù)目、匹配的峰的百分率、所有匹配的峰的m/z值與它們各自的強度的乘積之和,以及匹配的峰的tic的百分率。在一個實施方式中,信號參數(shù)是對應(yīng)于斷裂譜圖的峰的總和的總離子流(tic),并且信號參數(shù)相似度是對應(yīng)于匹配候選分子的一個或多個推定碎片質(zhì)量的峰的斷裂譜圖的tic的百分率。
在一個實施方式中,針對譜圖中每個測定的m/z峰,定義的大約以峰m/z值為中心的質(zhì)量公差在選定的ppm公差下被創(chuàng)建,例如,至30ppm內(nèi)、至15ppm內(nèi)、至1ppm內(nèi),或在一些實施方式中至小于1ppm(例如0.5ppm或0.1ppm)內(nèi)。來自給定候選分子的推定碎片質(zhì)量例如,通過使用選定的ppm公差比較推定質(zhì)量與斷裂譜圖中觀測到的峰而與峰相匹配。例如,任何具有落入其定義的質(zhì)量公差的推定碎片的峰被認為是“匹配的”?!靶盘枀?shù)相似度”是相對于那些還沒有“匹配”的峰,量化已經(jīng)成功匹配的峰的參數(shù),并且例如,可能包括匹配的峰的數(shù)目、匹配的峰的百分率、對應(yīng)于匹配的峰的信號強度的百分率等。
對于一些實施方式優(yōu)選地,質(zhì)譜技術(shù)提供了等于或小于30ppm、等于或小于20ppm、等于或小于10ppm、或等于或小于5ppm的質(zhì)量精確度。在一個實施方式中,當對應(yīng)于測定質(zhì)荷比的斷裂譜圖中的峰在推定碎片質(zhì)量的30ppm范圍內(nèi)、對于一些實施例更優(yōu)選地至20ppm內(nèi)、對于一些實施例更優(yōu)選地至10ppm內(nèi)或?qū)τ谝恍嵤├鼉?yōu)選地至5ppm內(nèi)時,對應(yīng)于測定質(zhì)荷比的斷裂譜圖中的峰匹配推定碎片質(zhì)量。在一個實施方式中,匹配推定碎片質(zhì)量的tic的百分率對應(yīng)于將至少一個推定碎片質(zhì)量匹配至30ppm內(nèi)的、對于一些實施例更優(yōu)選地匹配至20ppm內(nèi)的、對于一些實施例更優(yōu)選地匹配至10ppm內(nèi)的、或?qū)τ谝恍嵤├鼉?yōu)選地匹配至5ppm內(nèi)的峰。在一個實施方式中,信號參數(shù)相似度是匹配候選分子的推定碎片質(zhì)量的斷裂譜圖中峰的數(shù)目。在一個實施方式中,信號參數(shù)相似度是匹配候選分子的推定碎片質(zhì)量的斷裂譜圖中峰的總離子流(tic)。
可選地,候選分子通過匹配斷裂譜圖與參考譜圖數(shù)據(jù)庫中的一個或多個參考譜圖而選擇,或其中候選分子對應(yīng)于樣品中用于分析的目標化合物,或其中候選分子對應(yīng)于一個或多個期望的候選的化學(xué)式。
一個實施方式包括計算分析物的斷裂譜圖和一個或多個候選分子的參考譜圖之間的譜圖重疊。參考譜圖可以是低分辨率參考譜圖或高分辨率參考譜圖。如果參考譜圖是較低分辨率譜圖,例如單位分辨率譜圖,則計算譜圖重疊優(yōu)選地包括將斷裂譜圖的所有峰m/z值四舍五入到最接近的整數(shù)值。
可選地,確定斷裂譜圖和參考譜圖之間的譜圖重疊包括例如使用點積計算來產(chǎn)生譜圖重疊評分。信號譜圖重疊評分和信號參數(shù)相似度可另外組合以提供分析物對應(yīng)于候選分子的可能性的指示或數(shù)值。例如,在一個實施方式中,譜圖重疊評分和匹配推定碎片質(zhì)量的斷裂譜圖的tic的百分率被結(jié)合以產(chǎn)生關(guān)于分析物的候選分子的高分辨率濾波評分。在一個實施方式中,譜圖重疊評分和匹配推定碎片質(zhì)量的斷裂譜圖的tic的百分率通過譜圖重疊評分和匹配推定碎片質(zhì)量的斷裂譜圖的tic的百分率相乘而被結(jié)合。
在一個實施方式中,“譜圖重疊評分”是量化兩個質(zhì)譜之間相似度的參數(shù)。在一個實例中,例如這些譜圖是實驗得到的gc-msei譜圖和參考gc-msei譜圖。可以在本發(fā)明的背景下使用產(chǎn)生代表兩個譜圖彼此多么相似的一些值作為結(jié)果的任何數(shù)學(xué)計算。在本發(fā)明的一個實施方式中,實驗得到的譜圖與大量參考gc-msei譜圖進行比較。為了識別那些與所測定的譜圖最相似的參考譜圖,針對全部來計算譜圖重疊評分(例如,如本文所定義的加權(quán)點積),并且反饋具有最高評分的參考譜圖。使用來自這些反饋的候選物的化學(xué)式,對應(yīng)的高分辨率濾波評分被計算,例如,如段落[154]和[155]中描述的。這兩個評分度量可被認為是獨立地、彼此結(jié)合地,或與大量其他度量結(jié)合來確定反饋識別的健全性。上述度量可以獨立地進行評估或數(shù)學(xué)地組合以給出反饋識別的質(zhì)量的單個或多個數(shù)值表示。
本發(fā)明的一個實施方式包括提供多個用于分析的不同候選分子的步驟。推定碎片質(zhì)量針對每個候選分子獨立地確定并與來自斷裂譜圖的信號參數(shù)獨立地進行比較,由此確定每個候選分子的信號參數(shù)相似度。每個不同候選分子的特征在于大于或等于指定閾值的譜圖重疊評分,以確定哪些候選分子關(guān)于與斷裂譜圖的信號參數(shù)相似度而被進一步分析。
本發(fā)明的方法可在相對純化的分析物(即,具有小于10%的污染物)或含有分析物的混合物上進行。在一個實施方式中,具有分析物的樣品在電離或測定斷裂譜圖之前被分開或純化。作為非限制性示例,含有分析物的樣品是色譜分離技術(shù)的洗脫產(chǎn)物,例如gc-ms技術(shù)或lc-ms技術(shù)的一部分。
本發(fā)明的方法是通用的,因此,可適用于廣泛范圍的包括單級和多級質(zhì)譜分析的質(zhì)譜技術(shù)。在一個實施方式中,方法還包括使用一種或多種電離(離子化)或解離方法產(chǎn)生碎片離子。在一個實施方式中,例如,一種或多種電離或解離方法選自由電子電離(ei)、化學(xué)電離(ci)、電噴霧電離(esi)、大氣壓化學(xué)電離(apci)和基質(zhì)輔助激光解吸電離(maldi)組成的組。在一個實施方式中,例如,一種或多種電離或解離方法選自由碰撞誘導(dǎo)解離(cid)、表面誘導(dǎo)解離(sid)、激光誘導(dǎo)解離(lid)、中性反應(yīng)解離、離子反應(yīng)離解、電子捕獲解離(ecd)和電子轉(zhuǎn)移解離(etd)組成的組。在一個實施方式中,例如,斷裂譜圖使用具有電子電離(ei)的gc-ms方法或具有電子電離(ei)的lc-ms方法產(chǎn)生。
在一個實施方式中,例如,斷裂譜圖使用多級質(zhì)譜法(例如,msx,其中x大于1)產(chǎn)生。在一個實施方式中,例如,斷裂譜圖使用串聯(lián)質(zhì)譜法(例如,ms/ms)產(chǎn)生。在一個實施方式中,斷裂譜圖使用四極質(zhì)譜儀或離子阱質(zhì)譜法產(chǎn)生。在一個實施方式中,例如,本發(fā)明的方法還包括測定自分析物衍生的前體離子的完整質(zhì)量值并評估候選分子是否具有處于完整質(zhì)量值的預(yù)選定范圍(例如20%、10%或5%)內(nèi)的質(zhì)量的步驟。本發(fā)明的這一方面有助于在測定的質(zhì)荷比或分子質(zhì)量基礎(chǔ)上進一步評估候選分子。
可選地進行額外的步驟以提高效率和識別率。例如,在一個實施方式中,首先使用已知的分離技術(shù)如液相色譜或氣相色譜將含有分析物的樣品分開。然后收集和電離來自色譜步驟的分析物??蛇x地進行一個或多個解卷積步驟將來自相同母體分子的碎片離子一起隔離。本發(fā)明的一個實施方式提供了解卷積步驟,包括:
1)進行所述分析物的兩次或多次斷裂掃描;
2)將在連續(xù)的ei斷裂掃描中觀測到的具有相似m/z值的碎片峰分組到一起,由此產(chǎn)生數(shù)據(jù)特征,其中,在連續(xù)的掃描中觀測到的不具有相似m/z值的峰分組成單獨的數(shù)據(jù)特征;以及
3)將具有在相同時間段內(nèi)洗脫的峰的數(shù)據(jù)特征分組到一起,由此產(chǎn)生一組來源于分析物的碎片峰。
本發(fā)明的另一個實施方式提供了一種識別樣品中的分析物的組成的方法,包括:
(a)使用提供等于或小于75ppm的質(zhì)量精確度的質(zhì)譜技術(shù)測定所述分析物的斷裂譜圖;其中,所述斷裂譜圖包括對應(yīng)于來自所述樣品的測定碎片離子的質(zhì)荷比的多個峰;其中,所述斷裂譜圖的特征在于對應(yīng)于所述斷裂譜圖的所述峰的信號參數(shù);
(b)提供用于分析所述分析物的所述斷裂譜圖的多個不同候選分子;
(c)獨立地確定每個所述候選分子的可能碎片離子的推定碎片質(zhì)量;以及
(d)比較每個所述候選分子的推定碎片質(zhì)量與來自所述斷裂譜圖的測定質(zhì)荷比,從而針對每個候選分子獨立地確定匹配所述候選分子的推定碎片質(zhì)量的斷裂譜圖的信號參數(shù)相似度;以及
(e)使用匹配每個所述候選分子的推定碎片質(zhì)量的斷裂譜圖的信號參數(shù)相似度以識別所述分析物的組成。在該方面的一個實施方式中,例如,質(zhì)量精確度等于或小于30ppm,并且可選地對于一些實施方式等于或小于10ppm。
在一方面,本發(fā)明提供了一種用于改進高分辨率gc-ms儀器上收集的斷裂譜圖與單位分辨率gc-ms儀器上收集的參考譜圖的數(shù)據(jù)庫的譜圖匹配的方法。從在單位分辨率儀器上收集的純化合物產(chǎn)生的電子電離(ei)譜圖的幾個大型數(shù)據(jù)庫目前是可用的。眾所周知,純ei譜圖主要包含源于單個母體分子的碎片峰?;谶@一原理,可以系統(tǒng)地解釋在已知化合物的斷裂譜圖中觀測到的峰。通過產(chǎn)生一些,或可選地全部,創(chuàng)建了來自前體分子式的原子的非重復(fù)組合,一組潛在的碎片。在一些實施方式中,在該化合物的斷裂譜圖中每個觀測到的峰可以通過匹配其m/z值與這些潛在碎片的精確質(zhì)量來進行注解。斷裂譜圖也可以使用lc-ms收集并使用相同的過程與參考譜圖的lc-ms數(shù)據(jù)庫進行比較。
在本發(fā)明方法的一方面,另外的濾波步驟通過使用高分辨精確質(zhì)量(hram)質(zhì)譜法,大大提高了匹配的特異性。通過首先將推定化學(xué)識別歸屬給每個高分辨率譜圖,可以確定是否每個峰可以通過來自歸屬的分子式的精確碎片質(zhì)量進行解釋。在某些實例中,該方法大大提高了歸屬識別的特異性,并提高了未知識別的置信度。
在一方面,本發(fā)明提供了用于實施本文所述任何方法的質(zhì)譜儀。在一個實施方式中,例如,本發(fā)明提供了一種用于分析樣品中的分析物的質(zhì)譜儀,該質(zhì)譜儀包括:(i)用于產(chǎn)生來自樣品的碎片離子的離子源;(ii)用于檢測來自樣品的碎片離子的質(zhì)量分析儀,由此產(chǎn)生包括對應(yīng)于來自樣品的測定質(zhì)荷比的多個峰的斷裂譜圖;其中斷裂譜圖的特征在于對應(yīng)于斷裂譜圖的峰的信號參數(shù);提供等于或小于75ppm的質(zhì)量精確度的質(zhì)量分析儀;以及(iii)處理器,該處理器用于:a)確定來自候選分子的可能碎片離子的推定碎片質(zhì)量;和b)比較候選分子的推定碎片質(zhì)量與來自斷裂譜圖的測定質(zhì)荷比以確定匹配候選分子的推定碎片質(zhì)量的斷裂譜圖的信號參數(shù)相似度,由此對分析物進行分析。在該方面的一個實施方式中,例如,質(zhì)量精確度等于或小于30ppm,并且可選地對于一些實施方式等于或小于10ppm。在該方面的一個實施方式中,由處理器確定來自候選分子的所有可能碎片離子的推定碎片質(zhì)量。
廣泛的離子源在本發(fā)明的設(shè)備中是有用的,包括一種或多種電子電離(ei)系統(tǒng)、化學(xué)電離(ci)系統(tǒng)、電噴霧電離(esi)系統(tǒng)、大氣壓化學(xué)電離(apci)系統(tǒng)和基質(zhì)輔助激光解吸電離(maldi)系統(tǒng)。在一些實施方式中,離子源通過一種或多種選自由碰撞誘導(dǎo)解離(cid)、表面誘導(dǎo)解離(sid)、激光誘導(dǎo)解離(lid)、中性反應(yīng)解離、離子反應(yīng)離解、電子捕獲解離(ecd)和電子轉(zhuǎn)移解離(etd)組成的組的電離和/或解離方法提供電離和/或斷裂。在一個實施方式中,設(shè)備還包括用于在測定斷裂譜圖之前純化具有分析物的樣品的分離部件。在一個實施方式中,例如,系統(tǒng)是具有電子電離(ei)的gc-ms系統(tǒng)或具有電子電離(ei)的lc-ms系統(tǒng)。在一個實施方式中,該質(zhì)量分析儀是四極質(zhì)量分析儀或離子阱質(zhì)量分析儀。
在一方面,本發(fā)明可以與用于對蛋白質(zhì)、小分子、代謝物和其他分析物進行基于質(zhì)譜的分析和識別的現(xiàn)有基于軟件的解決方案集成。
不希望受任何特定理論的束縛,本文可能存在對有關(guān)本文所公開的設(shè)備和方法基本原則的信念和理解的討論。認識到的是,無論任何機械解釋或假設(shè)的最終正確性如何,本發(fā)明的一個實施方式可以仍然是可操作的和有用的。
附圖說明
圖1示出了目前可用的提取ms數(shù)據(jù)文件中的單獨組成的譜圖并試圖通過將這些譜圖匹配參考庫來識別潛在目標化合物的自動化質(zhì)譜解卷積和識別系統(tǒng)(amdis)計算機程序的典型屏幕截圖。
圖2示出了在本發(fā)明的一個實施方式中將高分辨率gc-ms譜圖與來自單位分辨率參考庫的譜圖進行匹配而執(zhí)行的不同的步驟。在本實施方式中,獲得的ei譜圖經(jīng)歷解卷積、譜圖匹配,接著是高分辨率濾波。
圖3示出了在本發(fā)明的一個實施方式中用于高分辨率譜圖匹配算法的標準工作流程,包括高分辨率譜圖匹配算法(圖3a)、譜圖相似度算法(圖3b)和高分辨率評分算法(圖3c)。該實施方式中示出了從數(shù)據(jù)收集和處理到識別未知分子的步驟。
圖4示出了在一個實施方式中的三模態(tài)特征,其中三模態(tài)特征被假定為在gc梯度中彼此接近地洗脫的三個單獨前體的共同碎片(圖4a)。使用9-pt極大(boxcar)平均值使特征變平滑,并且在顯示在被平滑特征之上的三角所指示的時間點檢測到局部最大值(圖4b)。局部最小值在這些最大值之間求得,并且特征被分為分別對應(yīng)于不同母體分子的三個單獨塊(圖4c)。
圖5示出了在本發(fā)明的具有及時彼此鄰近地洗脫的多個平滑特征的主要組的一個實施方式中的解卷積步驟(圖5a)。算法根據(jù)洗脫頂點將這些特征分為三個小組(圖5b)。每個單獨小組可以通過獨特顏色或線條來指示。從這些小組,每個特征的強度在由虛線指示的頂點處被計算(圖5c),并且針對每個組構(gòu)建“純”質(zhì)譜(圖5d),該質(zhì)譜然后可以被向下轉(zhuǎn)化為單位分辨率譜圖并用于譜圖匹配。
圖6示出了在本發(fā)明的一個實施方式中特草定的實驗獲得的譜圖與特草定和4-苯基-哌啶的單位分辨參考譜圖(從nist參考庫獲得)進行比較的單位分辨率譜圖匹配。當特草定的實驗譜圖與特草定的參考譜圖比較時,獲得了90.49的初始匹配評分,而當特草定的實驗譜圖與4-苯基-哌啶的參考譜圖比較時,獲得了49.49的匹配評分。
圖7示出了乙炔(c2h2)的整數(shù)數(shù)組表示,其為[2,2]。第一個指數(shù)代表分子中碳原子的數(shù)目,第二個代表氫原子的數(shù)目(分別是2和2)。以基礎(chǔ)整數(shù)數(shù)組[0,0]開始,每個指數(shù)迭代地遞增,以便創(chuàng)建代表所有可能碎片的原子的所有可能組合。顯示這些碎片和它們的整數(shù)數(shù)組表示。在每個框中左上角的數(shù)值指數(shù)指示使用本發(fā)明的算法產(chǎn)生各碎片的順序。該相同的過程可以應(yīng)用于實質(zhì)上更大的分子。
圖8示出了本發(fā)明的一個實施方式中從特草定的已知譜圖的數(shù)據(jù)庫檢索反饋的單位分辨率譜圖匹配。實驗收集的譜圖在頂部顯示而參考譜圖顯示在底部。高度譜圖重疊被注意到,并且90.49的匹配評分被反饋。使用本發(fā)明的高分辨率濾波算法,當特草定的理論碎片匹配至觀測到的高分辨率峰時,可以解釋99.95%的總離子流(tic)信號。
圖9示出了高分辨率濾波級產(chǎn)生于來自譜圖匹配步驟的頂級化合物的理論碎片被產(chǎn)生并與觀測到的特草定的高分辨率的峰比較。結(jié)果,當特草定的理論碎片匹配至觀測到的高分辨的峰時,可以解釋99.95%的總離子流(tic)信號。
圖10示出了反饋自禾草特(草達滅)的已知譜圖的數(shù)據(jù)庫檢索的兩個譜圖匹配(分別是禾草特和2-甲基-1,3-環(huán)己二酮)。實驗得到的譜圖顯示于頂部,而相應(yīng)的參考譜圖示于底部。在具有兩個譜圖中都匹配的所有顯著特征的兩個實例中都反饋了高評分。在本發(fā)明的一個實施方式中,使用該算法,發(fā)現(xiàn)使用禾草特的化學(xué)式(c9h17nos)可以解釋99.63%的觀測到的tic信號,但使用2-甲基-1,3-環(huán)己二酮的化學(xué)式(c7h10o2)僅可以解釋19.30%的觀察到信號。與來自指定分子式的精確質(zhì)量碎片(允許的15ppm的公差范圍內(nèi))成功匹配的峰被顯示出來。
圖11示出了當與含有大約213000個譜圖(nist12)的單位分辨率參考數(shù)據(jù)庫進行匹配時,一組34種已知殺蟲劑中前十個反饋譜圖匹配評分。每個正確的匹配的評分以紅色顯示,而錯誤命中的評分以藍色顯示。在應(yīng)用高分辨率濾波器和計算高分辨率匹配評分后,發(fā)現(xiàn)不正確的評分的分布向下偏斜,其中最大群體的評分下降至接近0。該結(jié)果突出了本發(fā)明的一個實施方式中該算法在區(qū)別錯誤匹配方面的效率。
圖12示出了使用高分辨率濾波來確定推定識別可信性的一個實施例。使用gc-軌道離子阱質(zhì)譜儀對已知標準氟草敏進行采樣。所得ei譜圖與大約21000個單位分辨率參考譜圖(nist)的數(shù)據(jù)庫進行匹配,并且兩個最好評分的化合物,氟草敏(c12h9clf3n3o)和5-氨基-3-甲基-1-苯基吡唑(c10h11n3)分別具有76.34和76.11的匹配評分。在產(chǎn)生兩個化合物的碎片的所有可能組合并且過濾掉任何不具有在+/-10ppm范圍內(nèi)的匹配碎片的任何峰之后,兩個紅色譜圖被保留。對于氟草敏,95.80%的tic可以用-0.062(σ=3.214ppm)的平均ppm誤差進行解釋,而對于5-氨基-1-甲基-3-苯基吡唑,僅5.20%的tic被解釋?;诖私Y(jié)果,第二個命中物可以有效地被排除作為候選匹配,這在沒有準確的質(zhì)量信息情況下是不能被完成的。
圖13示出了從甘氨酸-叔丁基二甲基硅基數(shù)據(jù)庫檢索反饋的前兩個譜圖匹配(1-丙醇,3-氨基,叔丁基二甲基硅基和甘氨酸-叔丁基二甲基硅基)。該實驗得到的譜圖示于頂部,而相應(yīng)的nist參考譜圖示于底部。使用在本發(fā)明的一個實施方式中的算法,我們發(fā)現(xiàn)98.35%的觀測到的tic信號可以使用甘氨酸-叔丁基二甲基硅基的化學(xué)式(c14h33no2si2)來進行解釋,但僅66.91%的觀測到的信號可以使用1-丙醇、3-氨基、叔丁基二甲基硅基的化學(xué)式(c15h37nosi2)來進行解釋。
圖14示出了從用叔丁基二甲基硅基標簽(二(叔丁基二甲基硅基)丙二酸酯)衍生化的丙二酸酯數(shù)據(jù)庫檢索反饋的前五個譜圖匹配,以及對nist12單位分辨率ei參考庫檢索的實驗得到的譜圖。反饋了具有在66.610(2-甲基-1,4-丁二醇,二(叔丁基二甲基硅基)醚)至60.773(二(叔丁基二甲基硅基)丙二酸酯)范圍內(nèi)的評分的前五個最好單位分辨率評分譜圖匹配。使用高分辨率濾波算法,二(叔丁基二甲基硅基)丙二酸酯的化學(xué)式相較于任何其他化合物解釋了更大百分比(99.719%)的譜圖中觀測到的tic。出現(xiàn)在一個或多個譜圖中的顯著特征利用相應(yīng)的化學(xué)式進行注解。
圖15示出了與nist參考譜圖比較的獲得的氯唑靈的實驗譜圖。
圖16至圖18示出了能夠針對圖15的實驗得到的譜圖,通過針對其同位素峰質(zhì)量繪制的每個獨特化學(xué)式解釋的tic信號的百分率。圖16突出了對應(yīng)于氯唑靈(c5h5cl3n2os)的繪制點。圖17突出了對應(yīng)于c5h5cl3n2os的超集合的繪制點,并且圖18突出了對應(yīng)于c5h5cl3n2os的子集合的繪制點。
圖19示出了能夠針對實驗得到的丙二酸酯-叔丁基二甲基硅基的譜圖,通過針對其同位素峰質(zhì)量繪制的每個獨特化學(xué)式解釋的tic信號的百分率。所突出的是對應(yīng)于丙二酸酯-叔丁基二甲基硅基(c15h32o4si2)以及c15h32o4si2的超集合和子集合的繪制點。
圖20示出了來自圖19的、具有對應(yīng)于突出的與丙二酸酯-叔丁基二甲基硅基的前五名譜圖匹配的tic信號的百分率。
圖21a至圖21f示出了具有譜圖匹配的高分辨率濾波工作流程。圖21a:跨越連續(xù)掃描觀測到的峰被濃縮成數(shù)據(jù)特征。這里示出的是在標準gc梯度的窄的時間窗口內(nèi)觀測到的所有特征。圖21b:基于洗脫頂點,特征被平滑和分組。所觀測到的特征基于它們的色譜頂點的位置被置于四個邏輯組內(nèi)。在組內(nèi)的所有特征都假定產(chǎn)生于單一的前體。圖21c:各個譜圖來源于基于平均m/z和頂點強度的特征組,然后可以提交進行譜圖匹配。圖21d:針對相應(yīng)的nist參考譜圖的實驗得到的氯雷他定的譜圖的強譜圖匹配。來自c22h23cin2o2的所有子分子式被生成,并且被少一個電子的精確分子式質(zhì)量排序。為所有包含35cl的碎片生成含有37cl的變體。圖21e:子分子式與基于質(zhì)量按升序與峰進行匹配。對于每個匹配的碎片,含有適當重同位素的變體被創(chuàng)建并置于按排序順序的子分子式的列表中。圖21f:對于氯雷他定的高分辨率譜圖,99.2617%的測定離子流可以用c22h23cin2o2的子分子式進行注解。
圖22a至圖22c示出了高分辨率濾波結(jié)果。圖22a:示出了數(shù)據(jù)集合中105個譜圖的譜圖匹配和hrf評分結(jié)果。每個繪制點代表正確的分配。hrf評分在范圍的高末端附近聚集在一起,而譜圖匹配評分更分散。圖22b:示出了使用60560個不同分子式的β-谷甾醇(三甲基硅基)的譜圖的hrf評分。真正的母體(c32h58osi)以紅色示出。c32h58osi的子集合和超集合分別以綠色和藍色示出。沒有子分子式能夠達到和真正的母體同樣高的hrf評分,這表明這些化合物缺乏成功注解所有觀測到的信號的適當?shù)脑咏M成。我們將期望來自存在完整分子離子的其他譜圖的相似行為。正如所預(yù)期的,所有超集合產(chǎn)生相似的高hrf評分。圖22c:以灰色示出了來自60560個獨特的分子式與所有105個譜圖進行比較的累積分布。以藍色示出了通過組合所有結(jié)果發(fā)現(xiàn)的代表性分布。我們發(fā)現(xiàn),平均只有3.206%的分子式可以成功地達到來自數(shù)據(jù)集合的hrf評分的中位數(shù)。
圖23a至圖23d示出了以不同濃度加入人體尿液的藥物的分析。圖23a:示出了來自以最高濃度(藍色)和最低濃度(紅色)加入的樣品的gc-mstic色譜。在高濃度下,觀測到所有加入藥物的強色譜峰。這些特征大體上在低濃度下消失。圖23b:高濃度(藍色)和低濃度(紅色)的藥物格魯米特的解卷積特征組。背景特征以灰色示出。復(fù)雜背景基質(zhì)的存在使得分組更具挑戰(zhàn)性,這是由于觀測到的信號的優(yōu)勢。圖23c:在所有濃度(其中分析物豐度足以產(chǎn)生譜圖)下分析的每種藥物的譜圖匹配和hrf評分。針對每種藥物報告了六種濃度數(shù)據(jù)點的最小值。隨著濃度的降低,譜圖匹配評分開始下降;然而,htf度量自始至終保持為高。圖23d:針對每種藥物隔離了兩個譜圖(一個在最高濃度點,另一個在最低濃度點),并且使用來自nist數(shù)據(jù)庫的55229個獨特的分子式(0-500da)針對每種藥物計算hrf評分。針對高濃度(藍色)和低濃度(紅色),示出了累積的hrf結(jié)果連同兩個群體的組合分布。曲線表明hrf方法的特異性不隨著峰數(shù)目的減少而明顯變化。
圖24a至圖24i示出了以不同的濃度加入人尿液中的藥物的各個分析。這里示出的是從尿液加入數(shù)據(jù)集合中提取的所有解卷積譜圖的測定譜圖匹配和hrf評分。這些數(shù)據(jù)與在圖23b所示的數(shù)據(jù)相同。為了清楚起見,相應(yīng)的譜圖匹配和hrf評分線繪制在一起。需要注意的是在降低的濃度下,觀測到的譜圖匹配評分趨于下降,而hrf度量保持較高。
圖25a至圖25b示出了關(guān)于峰耗盡譜圖的方法特異性。對于每種所分析的藥物提取兩個譜圖,一個在最高的測定濃度(圖25a),一個在最低的測定濃度(圖25b)。該數(shù)據(jù)與圖23d中的數(shù)據(jù)相同,但為了清楚起見此處被顏色編碼。使用來自大小在0-500da范圍內(nèi)的nist數(shù)據(jù)庫的55229個獨特分子式計算hrf評分。鑒于這些藥物相對小,這些分子式被假定為更準確地反映了潛在候選分子的池(pool)。示出了可以達到一定的hrf評分的分子式的百分率的累積分布被示出。例如,在異戊巴比妥的情況下,我們發(fā)現(xiàn)大約70%的考慮的分子式反饋≤10的hrf評分。無論“峰富”或“峰貧”的譜圖是否被考慮,該方法的特異性似乎并不改變,因為對于每種藥物產(chǎn)生了相似的累積曲線。該數(shù)據(jù)表明,即使在降低的濃度下收集的譜圖也將包含足夠的信息用于該方法保持特異性。
圖26示出了總的高分辨率濾波結(jié)果。對于這項研究中分析的所有105個參考譜圖,使用來自nist12ei參考庫的獨特化學(xué)式計算了60560個hrf評分。這里示出的是按同位素質(zhì)量上升的順序的所有參考譜圖(1-105)的分析結(jié)果。計算出的評分被分成兩類:產(chǎn)生小于真實母體評分(藍色)的hrf評分的分子式,和產(chǎn)生大于或等于真實母體評分(紅色)的hrf評分的分子式。更詳細的結(jié)果示于圖30(補充表2)中。我們注意到,對于大多數(shù)考慮的譜圖,很小百分比的分子式可以產(chǎn)生相似高(或更高)的評分,少數(shù)除外。對大百分比的分子式可以產(chǎn)生高質(zhì)量結(jié)果(1、23、24、35)的情況的粗略分析表明這樣的化合物傾向于具有更簡化的分子式(分別為c10h15n、c12h14n2o2、c15h10o2、c16h17no)。我們注意到,這些化合物排他地包括四種最常見的有機元素,即碳、氫、氮和氧。對于具有提高的化學(xué)復(fù)雜度的化合物,該方法如預(yù)期地表現(xiàn)出提高的特異性。
圖27a至圖27b示出了加入藥物標準品的人體尿樣的譜圖匹配/高分辨率濾波結(jié)果。加入一些藥物(10ng/μl)的人體尿樣的分析產(chǎn)生了272個含有10+個峰的譜圖。圖27a:在在綠色的熱圖中示出了對于所有272個譜圖(從上到下)的10個最好的譜圖匹配(從左到右)。每個像素的強度反映了譜圖相似度。在藍色的熱圖中示出了相應(yīng)的所有匹配的hrf評分。類似地,這里的強度反映可用精確化學(xué)式進行注解的離子流的百分率。針對譜圖匹配和hrf評分(40-100和90-100)所選定的范圍是基于來自本研究中所報道的已知標準品的結(jié)果而選擇的。我們沒有觀測到低于90的hrf評分對應(yīng)正確識別的實例。在這方面,hrf度量在這一點上基本上是二元分類器(binaryclassifier)。圖27b:高于和低于90(分別為藍色和灰色)的所有hrf評分的分布。我們發(fā)現(xiàn),從所有2720個反饋的譜圖匹配,72.2428%具有小于90的相關(guān)的hrf評分。該信息維度可用來區(qū)分推定識別。
圖28a顯示了氰草津的前8名譜圖匹配(基于加權(quán)點積)。
圖28b示出了使用公差范圍(ppm公差0至750)計算解釋的百分率tic(hrf評分)的結(jié)果。
圖29(補充表1)提供了包括(completewith)原始文件名稱、保留時間、hrf評分、譜圖匹配評分、峰數(shù)目以及如所報道的參考譜圖名稱的所有分析的參考化合物的結(jié)果。
圖30(補充表2)示出了總的hrf分析。這里示出的是當針對60560個獨特化學(xué)式計算105個數(shù)據(jù)集合譜圖的分數(shù)時反饋的hrf結(jié)果的總結(jié)。化合物以同位素質(zhì)量升序排列。產(chǎn)生小于、或大于、或等于真正母體的hrf評分的分子式的原始數(shù)目被示出于以hrf<母體評分和hrf>=母體評分標記的列中。使用產(chǎn)生hrf評分>=真正母體hrf評分的分子式池,確定正確的和錯誤的超集合的數(shù)量。超集合是其中真正的母體集合中的所有原子也被包含的分子式。非超集合是那些不符合此條件的分子式。對于那些非超集合,計算與真正的母體共享的原子的平均百分率連同由所討論的分子式擁有的額外原子的平均和中位數(shù)目。我們發(fā)現(xiàn),這些能夠達到和真正母體同樣高的hrf評分的非超集合通常與正確的前體共享大百分率的原子(93.574%),并且平均包含相當數(shù)量的額外原子(19.506)。
圖31(補充表3)提供了加入藥物數(shù)據(jù)集合中的所有提取譜圖的相關(guān)的譜圖匹配評分、hrf評分、以及峰數(shù)目??紤]的所有譜圖包含至少10個峰。
具體實施方式
總體而言,本文所使用的術(shù)語和短語具有其本領(lǐng)域公認的含義,其可以通過參考標準教科書、期刊參考文獻和對本領(lǐng)域技術(shù)人員是已知的上下文而找到。提供了以下定義以闡明它們在本發(fā)明的上下文中的具體使用。
定義:
如本文所用的,“質(zhì)量精確度”是質(zhì)譜儀準確地確定被測定離子的質(zhì)荷比的能力,并且通常被定義為質(zhì)荷比(m/z)測定誤差與真正質(zhì)荷比(m/z)的比率。商用儀器制造商通常將質(zhì)量精確度明確規(guī)定為以百分率(%)或百萬分率(ppm)為單位的相對誤差。例如,給定的m/z的峰的ppm誤差可以使用以下關(guān)系式來計算:
ppm誤差=(測定的m/z-理論的m/z)/(理論的m/z)*1×106。
在一些實施方式中,測定的質(zhì)量精確度和高分辨率濾波的特異性成反比。在圖28a和圖28b中示出了這個概念。圖28a顯示了氰草津的前8個譜圖匹配(基于加權(quán)點積)。收集的氰草津譜圖是紅色的(在x軸以上),反相的藍色痕跡(在x軸以下)來自nist庫。對于8個譜圖中的每一個,使用一個寬范圍的公差(ppm公差0至750),計算解釋的百分率tic(hrf評分)。該計算的結(jié)果示于圖28b。該目標是具有將產(chǎn)生100%解釋的tic的少量或可選地僅一個化合物(化學(xué)式,優(yōu)選當前化學(xué)式)。當在峰匹配期間使用30的ppm公差或更小的ppm公差時,我們發(fā)現(xiàn)確實是這種情況。就75ppm而言,有2個化合物提供100%解釋的tic,就300ppm而言,有4個化合物提供100%解釋的tic。使用的質(zhì)量公差越寬,則hrf評分的特異性越低。但是它在縮小候選物池方面仍然有價值,其有相當大的效用。本實施例是用于單一化合物。在某些情況下,提供了最好的選擇性的精確ppm要求可能是化合物特異性的。然而,使用30ppm或更少的質(zhì)量公差,我們得到對許多化合物的實質(zhì)性的選擇性。
“點積計算”是指測定兩個gc-msei譜之間的相似度并產(chǎn)生一些反映兩者之間相似度的數(shù)值作為結(jié)果的任何數(shù)學(xué)計算。
“電離”是指作為化學(xué)反應(yīng)、高溫、放電、粒子碰撞或輻射結(jié)果的離子的形成。使分子電離以產(chǎn)生用于使用質(zhì)譜法分析的前體離子的方法包括,但不限于電子電離(ei)、化學(xué)電離(ci)、電噴霧電離(esi)、大氣壓化學(xué)電離(apci)和基質(zhì)輔助激光解吸電離(maldi)。然后,這樣的前體離子可以進一步被斷裂并使用串聯(lián)質(zhì)譜法進行分析。
本文所討論的許多分子包含一個或多個可電離基團。“可電離基團”包括從其中可以移除質(zhì)子(例如,-cooh)或添加質(zhì)子(例如,胺)的基團以及可以被季銨化的基團(例如,胺)。這樣的分子及其鹽的所有可能離子形式旨在單獨地包含于本文的公開內(nèi)容中。關(guān)于本文化合物的鹽,本領(lǐng)域的普通技術(shù)人員可以從各種各樣的適于制備用于給定應(yīng)用的本發(fā)明的鹽的可用的反離子之中進行選擇。在特定的應(yīng)用中,用于制備鹽的給定的陰離子或陽離子的選擇可以導(dǎo)致該鹽的提高的或降低的溶解度。
“母體分子”是指在質(zhì)譜法過程中產(chǎn)生一個或多個離子的單分子或分析物。如本文所使用的,術(shù)語“前體離子”在本文中用于指在質(zhì)譜法分析的電離階段產(chǎn)生的離子,包括ms/ms分析的ms1電離階段。
如本文所使用的,術(shù)語“產(chǎn)物離子”和“次級離子”可互換使用并且是指產(chǎn)生于質(zhì)譜法分析過程中的電離過程和/或斷裂過程中的離子,包括ms/ms分析的ms2電離階段。如本文所用的術(shù)語“次級產(chǎn)物離子”是指其為連續(xù)斷裂的產(chǎn)物的離子。
如本文所使用的,術(shù)語“斷裂譜圖”是指由電離期間產(chǎn)生的分析物離子、碎片離子、前體離子和/或產(chǎn)物離子組成的質(zhì)譜,或者是指產(chǎn)生于所選擇的前體的解離的串聯(lián)質(zhì)譜。
如本文中所使用的,術(shù)語“分析”指的是用于確定分析物的性質(zhì)的過程。分析能夠確定,例如,分析物的物理性質(zhì),如質(zhì)量、質(zhì)荷比、濃度、絕對豐度、相對豐度、或原子或取代組成。在蛋白質(zhì)組分析的背景下,術(shù)語分析可以指確定樣品中的蛋白質(zhì)或肽的組成(例如,序列)和/或豐度。
如本文中所使用的,術(shù)語“分析物”指的是化合物、化合物的混合物或作為分析受試物的其他組合物。分析物包括但不限于生物分子、蛋白質(zhì)、修飾的蛋白質(zhì)、肽、修飾的肽、小分子、藥物化合物、寡核苷酸、糖、聚合物、代謝物、激素、脂質(zhì)以及它們的混合物。
如本文中所使用的,術(shù)語“質(zhì)譜法”(ms)指的是用于確定分析物的元素組成、質(zhì)荷比、絕對豐度和/或相對豐度的分析技術(shù)。質(zhì)譜技術(shù)可用于識別諸如生物分子、蛋白質(zhì)、修飾的蛋白質(zhì)、肽、修飾的肽、小分子、藥用化合物、寡核苷酸、糖、聚合物、代謝物、激素、脂質(zhì)及其混合物的分析物的組成和/或豐度。質(zhì)譜法包括含有使分析物電離以產(chǎn)生帶電物種或物種碎片、諸如產(chǎn)物離子的帶電物種或物種碎片的斷裂以及帶電物種或物種碎片的荷質(zhì)比的測定的過程,可選地包括附加的基于質(zhì)荷比的分離過程、附加的斷裂處理、電荷轉(zhuǎn)移過程等。進行分析物的質(zhì)譜分析造成產(chǎn)生例如包括分析物和/或分析物碎片的質(zhì)荷比和相應(yīng)的強度數(shù)據(jù)的質(zhì)譜數(shù)據(jù)。對應(yīng)于分析物離子和分析物離子碎片的質(zhì)譜數(shù)據(jù)通常被提供為強度,作為代表分析物離子和/或分析物離子碎片的質(zhì)荷比的荷質(zhì)比(m/z)單位的函數(shù)。質(zhì)譜法通常允許根據(jù)不同的質(zhì)荷比解析對應(yīng)于不同分析物的強度。在串聯(lián)質(zhì)譜法(ms/ms或ms2)中,進行了多重序列質(zhì)譜法分析。例如,含有諸如生物分子的化學(xué)化合物的混合物的樣品,可以被電離,并且根據(jù)它們的質(zhì)荷比所得的前體離子可以被分離。然后所選擇的前體離子可以被斷裂,并且根據(jù)碎片的質(zhì)荷比被進一步分析。
如本文中所使用的,術(shù)語“干擾”是指干擾檢測感興趣的物種或分析物的在分析中檢測到的物種。例如,干擾可以指檢測生物分子、小分子藥物、蛋白質(zhì)或蛋白質(zhì)碎片,其不是感興趣的生物分子、小分子藥物、蛋白質(zhì)、或蛋白質(zhì)碎片,并且干擾精確地檢測或量化感興趣的生物分子、小分子藥物、蛋白質(zhì)、或蛋白質(zhì)碎片。干擾可以被量化為干擾比,例如干擾信號的量與分析物信號的量的比率。在質(zhì)譜分析中,干擾可以表現(xiàn)為對應(yīng)于檢測不是感興趣的分析物的物種的干擾峰。
如本文中所使用的,“隔離”或“隔離窗口”指的是一范圍的離子,例如被選擇性地分離和斷裂、控制或隔離的前體離子。
如本文中所使用的,術(shù)語“物種”是指特定的分子、化合物、離子、陰離子、原子、電子或質(zhì)子。物種包括同位素標記的分析物、同位素標記試劑、同位素標記的氨基酸和/或同位素標記的肽或蛋白質(zhì)。
如本文中所使用的,術(shù)語“信噪比”指的是量化信號被噪音破壞多少或不想要的信號的度量。它也可以指信號功率與破壞信號的噪音功率的比率。高于1:1的比率指示比噪音更多的信號,并且對于一些應(yīng)用是被期望的。
如本文中所使用的,術(shù)語“質(zhì)荷比”指的是物種的質(zhì)量與物種的電荷態(tài)的比率。術(shù)語“m/z單位”指的是質(zhì)荷比的度量。湯姆森單位(縮寫為th)是m/z單位的實例,并且被定義為離子的質(zhì)量(以道爾頓計)與離子的電荷(相對于元素電荷)的比率的絕對值。
如本文中所使用的,術(shù)語“質(zhì)譜儀”是指一種設(shè)備,該設(shè)備從樣品中產(chǎn)生離子、根據(jù)質(zhì)荷比分離離子并檢測離子,諸如來源于同位素標記的分析物、同位素標記試劑、同位素標記的氨基酸和/或同位素標記的肽或蛋白質(zhì)的產(chǎn)物離子。質(zhì)譜儀包括單級和多級質(zhì)譜儀。多級質(zhì)譜儀包括串聯(lián)質(zhì)譜儀,其使質(zhì)量分離的離子斷裂并通過質(zhì)量一次分離產(chǎn)物離子。
“質(zhì)譜儀解析力,通常稱為分辨率,是在質(zhì)譜中m/z峰被分離的程度(即,被解析)的量化度量。
如本文中所使用的,術(shù)語“離子源”是指例如,在質(zhì)譜法分析過程中從樣品中產(chǎn)生離子的設(shè)備部件。在本方法中有用的離子源的實例包括,但不限于,電噴霧電離源和基質(zhì)輔助激光解吸/電離(maldi)源。
如本文所使用的,術(shù)語“控制器”指的是如本領(lǐng)域眾所周知的可以被編程為控制設(shè)備或系統(tǒng)的設(shè)備部件??刂破骺梢?,例如,被編程為控制質(zhì)譜儀系統(tǒng),以便執(zhí)行如本文所述的方法。本發(fā)明包括具有配置為執(zhí)行本文所述的任何方法的控制器的質(zhì)譜儀。
如本文中所使用的,術(shù)語“離子光學(xué)件(ionoptic)”指的是例如,通過施加電場和/或磁場輔助帶電粒子的運輸和操縱的設(shè)備部件。電場或磁場可以是靜態(tài)的、交替的、或者可以包含靜態(tài)和交替分量兩者。離子光學(xué)設(shè)備部件包括,但不限于偏轉(zhuǎn)離子的離子偏轉(zhuǎn)器、聚焦離子的離子透鏡和將離子限制到特定的空間或軌跡的多極(例如四級(quadruple))。離子光學(xué)件包括包含具有靜態(tài)和交替的電場和/或磁場兩者的多個棒的多極rf設(shè)備部件。
如本文所用的,術(shù)語“分開的”或“分開”是指如本領(lǐng)域中所眾所周知的樣品的物理分離。樣品可以根據(jù)諸如質(zhì)量、長度、或?qū)α硪粋€化合物的親和力等的物理性質(zhì),使用本領(lǐng)域中所眾所周知的色譜技術(shù)來分開。分開可以發(fā)生在分離階段,該分離階段通過一種或多種物理性質(zhì)起到分開感興趣的樣品的作用,正如本領(lǐng)域中所眾所周知的。除了其他技術(shù),分離階段還可以采用液相和氣相色譜技術(shù)。分離階段包括但不限于液相色譜分離系統(tǒng)、氣相色譜分離系統(tǒng)、親和色譜分離系統(tǒng)和毛細管電泳分離系統(tǒng)。
術(shù)語“肽”和“多肽”在本說明書中同義地使用,并且是指一類由通過酰胺鍵(或肽鍵)化學(xué)鍵合在一起的氨基酸殘基組成的化合物。肽和多肽是包括至少兩個氨基酸殘基或修飾的氨基酸殘基的聚合化合物。修飾可以是天然存在的或非天然存在的,例如通過化學(xué)合成產(chǎn)生的修飾。對肽中氨基酸的修飾包括,但不限于,磷酸化、糖基化、脂質(zhì)化、異戊二烯化、磺化、羥基化、乙?;?、甲基化、甲硫氨酸氧化、烷基化、?;奔柞;?、碘化以及輔助因子的添加。肽包括蛋白質(zhì),并且還包括通過例如蛋白質(zhì)水解消化的蛋白質(zhì)降解產(chǎn)生的組合物。肽和多肽可通過蛋白質(zhì)的基本完全的消化或通過蛋白質(zhì)的部分消化產(chǎn)生。多肽包括,例如,包含2至100個氨基酸單元的多肽、對于一些實施方式可選地2至50個氨基酸單元、對于一些實施方式可選地2至20個氨基酸單元以及對于一些實施方式可選地2至10個氨基酸單元。
“碎片”指的是分子的一部分。碎片可以是單電荷離子或者是多電荷離子。如本文所用的,術(shù)語“碎片離子”指的是以電離形式存在的母體或前體分子的一部分,諸如在ms分析和ms/ms分析期間形成的。碎片可以從母體分子中的鍵斷裂得到,例如在母體肽中的多肽鍵的位點特定斷裂。碎片還可以產(chǎn)生自多重斷裂事件或步驟。碎片可能是截短的肽,母體肽的羧基末端、氨基末端或兩者。碎片可以指當多肽鍵、c-c鍵、c-n鍵、c-o鍵或這些過程的組合斷裂時產(chǎn)生的產(chǎn)物。碎片可指通過氨基酸的一個或多個側(cè)鏈被移除、或修飾被移除的過程或這些過程的任意組合而形成的產(chǎn)物。碎片可以包括在亞穩(wěn)態(tài)條件下形成的碎片或者產(chǎn)生于對所述分析物或前體離子通過各種解離和電離方法引入能量的碎片,這些解離和電離方法包括但不限于,碰撞誘導(dǎo)解離(cid)、表面誘導(dǎo)解離(sid)、激光誘導(dǎo)解離(lid)、電子捕獲解離(ecd)、電子轉(zhuǎn)移解離(etd)、電子電離(ei)、化學(xué)電離(esi)、中性反應(yīng)解離、離子反應(yīng)解離、大氣壓化學(xué)電離(apci)和基質(zhì)輔助激光解吸電離(maldi),或這些方法的任何組合或在串聯(lián)質(zhì)譜領(lǐng)域中公知的任何等效物。碎片的性質(zhì),例如分子質(zhì)量,可通過斷裂質(zhì)譜的分析而表征。
概述:
自從60年代后期首次證明氣相色譜-質(zhì)譜儀器(gc-ms)作為分析技術(shù)的效用以來,)其已被用于小分子的定性和量化分析。從那時起,在質(zhì)譜法方面關(guān)于提高的分辨率、靈敏度和數(shù)據(jù)收集的速度已經(jīng)有了大量令人難以置信的進步。軌道離子阱質(zhì)量分析儀的引入是一個這樣的引人注目的實例。軌道離子阱可以達到近1000000的解析力,這在以前只有在昂貴的傅立葉變換離子回旋共振質(zhì)譜(fticr-ms)上才是可能的。盡管在以亞ppm級水平精確度快速獲得高分辨圖譜的能力方面已經(jīng)取得了顯著的提高,但在gc-ms領(lǐng)域卻變化很少。通常,小分子分析仍然在類似于50年前在gc-ms工作中使用的單位分辨質(zhì)譜儀上進行。足以說高分辨質(zhì)譜的特別的好處尚待應(yīng)用于此領(lǐng)域。
例如,在典型的gc-ms實驗中,小分子在前期的gc上分開或分離,然后在ms分析前使用化學(xué)電離(ci)或電子電離(ei)而電離。ci使得能夠測定完整的前體質(zhì)量,而ei導(dǎo)致分子以特征模式斷裂。這些斷裂模式是高度可重現(xiàn)的,并且對分析物識別是有用的。為了歸屬識別,用戶產(chǎn)生的譜圖從原始數(shù)據(jù)文件提取并與之前收集的參考譜圖的數(shù)據(jù)庫進行匹配。該方法是相當可靠的,但在這些情況下高分辨數(shù)據(jù)的缺乏阻止了在精確質(zhì)量基礎(chǔ)上區(qū)分候選前體。也有許多不相似的化合物產(chǎn)生相似斷裂譜圖的情況,這可以導(dǎo)致異常高數(shù)量的錯誤識別,這再次是由于缺乏高分辨能力。此外,將識別定性為正確或錯誤所需的觀測到的譜圖和參考譜圖之間的重疊程度是不明確的,并且受人的判斷影響。
理想地,為了歸屬識別,可以比較收集的質(zhì)譜數(shù)據(jù)與預(yù)先存在的高分辨率參考庫。然而,考慮到編譯目前存在的參考庫所需的時間和資源的量,這是不可能的。另外,nist和wiley參考庫包含數(shù)十萬化合物的純ei譜圖,并仍然是有很大用處的(圖1)。
如本文中所描述的,本發(fā)明的一個方面提供了允許使用包括單位分辨率數(shù)據(jù)庫的預(yù)先存在的參考庫來精確地識別樣品的高分辨率質(zhì)譜的方法和算法。這些高分辨率質(zhì)譜可以與單位分辨率數(shù)據(jù)庫例如通過四舍五入到峰m/z值到最接近的整數(shù)來進行匹配。反饋的譜圖匹配仍然可能是不明確的,但是現(xiàn)在可以使用另外的濾波來提高識別率。例如,前n名匹配化合物可以被儲存,并且對于每個推定識別,原子的所有非重復(fù)組合從推定識別的分子式產(chǎn)生。這組組合代表一組可能的化學(xué)碎片。在產(chǎn)生每組碎片并濾波掉不可能的分子式之后,這些化學(xué)碎片以高的質(zhì)量精確度(如≤75ppm、≤30ppm、≤201ppm或≤10ppm)與高分辨率譜圖進行匹配。由此,確定了可以由每組化學(xué)碎片進行解釋的譜圖的百分率。可選地,樣品在收集高分辨質(zhì)譜之前使用諸如液相和氣相色譜的分離技術(shù)分開。
可替代地,本發(fā)明還提供了允許樣品的高分辨率質(zhì)譜與一個或多個候選分子的譜圖進行比較、或者與可能不一定是參考庫一部分的已知化學(xué)式進行比較的方法和算法。
本發(fā)明在以下實施例中被進一步詳述,這些實施例通過說明的方式提供,并且不旨在以任何方式限制本發(fā)明的范圍。
實施例1:用于高分辨率氣相色譜-質(zhì)譜數(shù)據(jù)與單位分辨率參考數(shù)據(jù)庫的改進譜圖匹配的高質(zhì)量精確度濾波
本文中所描述的算法和方法假定純質(zhì)譜中的每一碎片來自相同母體分子?;谠摳拍睿梢缘贸鼋Y(jié)論:在所述譜圖中觀測到的每一碎片由來自母體分子的原子的某些組合構(gòu)成。因此,如果收集化合物的精確質(zhì)譜,則每一高分辨峰應(yīng)該能夠用包含一些包含在母體分子式中的原子的子集合的精確化學(xué)式來注解。利用這種想法,基于與低分辨參考譜圖的相似度,候選物識別可以首先被歸屬給純化合物的高分辨率譜圖。然后,具有候選分子式允許用戶嘗試用一些僅含有存在于母體分子式中的原子的碎片來解釋每個觀測到的高分辨峰。理論上,如果存在正確的匹配,則每一峰(或幾乎每一峰)應(yīng)該能夠被解釋并且母體分子應(yīng)該能夠被識別。
在圖2所示的一個實施方式中,該方法包括與譜圖匹配步驟和高分辨率濾波步驟結(jié)合使用的解卷積步驟。在gc分離后,電離樣品,并獲得高分辨率質(zhì)譜。解卷積步驟將原始質(zhì)譜數(shù)據(jù)分組成相關(guān)的特征,使得僅含有來自相同母體分子的峰的譜圖被分組在一起。每個ei譜圖的單位分辨率副本被創(chuàng)建并且與單位分辨率數(shù)據(jù)庫進行匹配。評分系統(tǒng),例如點積評分系統(tǒng)針對每個譜圖的比較進行計算,并且存儲最好的譜圖匹配。對于每個儲存的譜圖匹配,針對每個與匹配的譜圖相關(guān)聯(lián)的每個候選母體分子產(chǎn)生原子的所有非重復(fù)組合,并且潛在原子組合的精確質(zhì)量碎片與所獲得的高分辨率譜圖進行匹配。然后,計算并提供了通過潛在原子組合的質(zhì)量碎片解釋的高分辨率譜圖的量。
算法設(shè)計
高分辨率譜圖匹配算法的以下描述包括獲得在hramgc-ms系統(tǒng)上收集的原始數(shù)據(jù)并產(chǎn)生可信的識別必要的所有步驟。需要注意的是關(guān)于此點而收集的所有高分辨率數(shù)據(jù)是在由coon研究組(威斯康星大學(xué)麥迪遜分校)構(gòu)建的新型gc-軌道離子阱上的。
用于將推定識別歸屬給使用gc-ms分析的化合物的標準工作流程是收集利用電子轟擊電離產(chǎn)生的純斷裂譜圖,然后將其與參考ei譜圖的數(shù)據(jù)庫進行比較。這里描述的算法大大地改進了該標準工作流程。以由高分辨率質(zhì)譜儀提供的高質(zhì)量精確度同時利用并影響(leverage)所測定的數(shù)據(jù)(這以計算機模擬重復(fù)幾乎是不可能的)。如上所述,將詳細討論的算法的三個部分是解卷積、譜圖匹配和高分辨率濾波,其中高分辨率濾波步驟是最新穎和強有力的步驟。在圖3a至圖3c中示出了使用該算法處理數(shù)據(jù)的標準工作流程。
解卷積
在揮發(fā)性化合物的復(fù)雜混合物的分析中,前期(front-end)氣相色譜分離是至關(guān)重要的。雖然gc非常強健且可重現(xiàn),但是其經(jīng)常不能將各個化合物彼此分離,特別是存在背景基質(zhì)時。鑒于所有的參考譜圖是使用純化合物(其大部分是不含污染物的)收集的,比較僅含有來自給定母體分子的碎片的譜圖是重要的。由于這一要求,提取“純”譜圖的后期(back-end)解卷積往往是必要的。在復(fù)雜混合物的譜圖解卷積中的主要挑戰(zhàn)之一是,抽出樣品中所有化合物,而錯過任何化合物。這是具有挑戰(zhàn)性的,因為當在梯度期間洗脫某個化合物時,其不總是明顯的,特別是在低豐富物種的情況下。解卷積算法被寫出,使得在gc-ms運行期間收集的每一譜圖中的每一峰被考慮到,而沒有化合物被錯過。
該算法的第一步驟將原始數(shù)據(jù)文件中的所有峰組合為特征。特征是包括在連續(xù)掃描中觀測到的具有相同m/z值的峰的對象。該算法獲得存在于運行的第一次掃描中的所有峰并檢查以查看在第二次掃描中是否有對應(yīng)的峰(允許約20ppm的小的質(zhì)量公差)。如果在兩次掃描中都觀測到峰,則假定它們實際上是相同物種,然后它們被分組成特征。然后下一次掃描針對相同的峰進行檢查,然后下一次,當峰存在時不斷添加發(fā)現(xiàn)的每個峰至該特征。一旦掃描發(fā)現(xiàn)峰不存在時,該特征被認為是“完整的”,并且移至新的列表。該過程在原始文件中針對每個掃描重復(fù)。該算法是以在隨后的掃描中極快地檢查每個峰的方式編寫的。此速度分量是至關(guān)重要的,因為對于該算法的首要的目標之一是其非??焖俚貓?zhí)行以促進快速數(shù)據(jù)分析。
特征的理想情況是,一旦峰出現(xiàn),其信號上升到某個頂點,然后不斷下降直至它不再存在。然而,由于許多小分子產(chǎn)生相同的碎片,情況并非總是如此。通常,靠近彼此洗脫的分子將具有其信號在它們的洗脫之間不降至0的共享碎片。經(jīng)常觀測到信號上升、下降、再次上升、再次下降等的特征。為了解釋這一點,寫出了基于特征的信號多快地上升(向上傾斜)和下降(向下傾斜)而檢測局部最大值和最小值的峰拾取算法。采用該峰拾取過程,可以將來源于單獨的母體分子的共同碎片分離成不同的特征(圖4)。
在將各個峰分組為特征之后,那些靠近彼此洗脫的特征需要基于它們是來源于相同母體的碎片的假設(shè)而被分組到一起。在此分組步驟之前,對已經(jīng)從原始數(shù)據(jù)抽出的所有特征進行檢查以去除噪音。據(jù)推測來自每一碎片的信號會以特有的方式上升和下降,使得它應(yīng)當在其洗脫期間達到某個頂點。這是分析物信號的重要特征,由于噪音,該特征可用于將其與信號區(qū)分。為了使這些模式更易于觀測,使用9點極大平均值使數(shù)據(jù)平滑。該平滑步驟使得碎片洗脫的上升/下降的整體趨勢更為明顯。因為噪音在整個運行中大致恒定,預(yù)期包括噪音峰的任何特征將不會表現(xiàn)出該峰樣形狀。相反,大部分噪音信號在平滑后應(yīng)當保持相當恒定。為了濾除噪音,檢查每一特征以查看它是否達到大于其最小信號兩倍的強度。該閾值被設(shè)置,因為它表現(xiàn)出有效地去除源于噪音的特征。
來自母體分子的碎片將會被同時洗脫。由于該原因,預(yù)期來自母體分子的碎片的信號將以與及時洗脫的母體的量相一致的方式上升和下降?,F(xiàn)在的目標是針對混合物中存在的每個化合物將來自相同母體的所有碎片分組到一起。進行了兩個分組步驟。第一步更普遍,其中在一定的時間窗口內(nèi)觀測到的所有特征被一起置于主要組中。此窗口被設(shè)置為長于分子從柱中洗脫出來所花費的時間(通常為約5秒,盡管其基于豐度和進入gc梯度的時間而變化)。需要注意的是可以將相同特征放入多個組。此步驟對于減小傳遞到下一個分組步驟的問題大小是重要的。在進行這個初始分組后,在每一主要組中的所有特征以基于特征的最大強度的順序排序。
然后進行另一個分組步驟,該分組步驟創(chuàng)建僅包含來自特定母體的那些碎片的次要組。起始于主要組中最強特征的頂點,確定了特征具有大于其頂點強度的95%的強度期間的時間范圍。假定達到在此時間窗口的頂點的任何其他特征也是來自相同的母體分子的碎片。創(chuàng)建所有這樣的碎片將被添加到該組的新的次要組。算法然后移動到主要組中的下一個最強的特征,并檢查其是否具有在此窗口中的頂點,如果是,它則被添加到次要組并標記為已被包括在內(nèi)。如果不是,則該算法移至下一個最強的特征,并進行相同檢查。重復(fù)該過程,直至主要組中的每一特征已經(jīng)被檢查。該算法然后移回到列表的頂部,并找到尚未被加入到次要組的最強特征。該算法找到相同的95%頂點的時間窗口,并且重復(fù)相同的過程。直至主要組中的每一特征已經(jīng)被添加到次要組,完成該過程。假定含有少于5個峰的次要組包含用以產(chǎn)生正確的識別的信息不充足,并且隨后被丟棄。
在算法中的這一點上,已經(jīng)產(chǎn)生了僅含有來源于相同母體分子的碎片的一組次要組。這個過程已經(jīng)有效地去除了噪音,并且從其他共洗脫物種分離出碎片。在原始數(shù)據(jù)文件中的每一單峰已經(jīng)被考慮,因此實際上不可能遺漏任何已洗脫的化合物,除了那些豐度非常低并且不會產(chǎn)生可信的識別的化合物。為了將這些次要組轉(zhuǎn)變?yōu)椤凹儭眅i譜,創(chuàng)建了包含對應(yīng)于次要組中的所有特征的m/z值的峰的新譜圖對象,其中次要組中的所有特征的強度在該組的頂點時間點處。圖5a至圖5d示出了所有特征分組步驟和隨后“純”譜圖的提取。
譜圖匹配
使用eigc-ms來確定化合物識別的典型手段是將提取的譜圖與一組參考譜圖進行比較并計算譜圖重疊。具有最高的重疊的參考譜圖被假定為正確的匹配。存在幾種確定譜圖重疊的方案。這樣做最簡單的方法將是計算兩個譜圖之間的絕對差。要做到這一點,人們將確定哪些峰在實驗譜圖和參考譜圖中都存在,并且彼此減去它們的強度。造成最小量的未解釋強度的參考譜圖將被認為是正確的匹配。該方法將相等權(quán)重賦予譜圖中的所有峰是不明智的,因為更大的峰在歸屬識別中顯著更具特征性??紤]在300m/z下產(chǎn)生碎片的分子。與能在200m/z下產(chǎn)生碎片的分子相比,實際存在理論上可在300m/z下產(chǎn)生碎片的分子更少。為了解釋這一點,使用了測定譜圖重疊的點積計算。這種用于測定譜圖相似度的策略將更多的權(quán)重賦予更大的m/z峰。使用傳統(tǒng)的點積,譜圖相似度主要受譜圖中的最大峰值影響。例如,如果在譜圖中存在一個主峰和在不同m/z值的幾個較小的峰,則高評分的匹配可能被反饋,即使只有最大峰是匹配的。更合適的策略將是使用加權(quán)點積,其將更少的重要性賦予譜圖中的最大峰,因此將更多的權(quán)重賦予可能更具特征性的較小的峰。用于測定譜圖重疊的替代性方案是可用的;然而,所述計算用于算法開發(fā)目的。
使用利用解卷積算法提取的“純”高分辨ei譜圖,創(chuàng)建了向下轉(zhuǎn)換偽單位分辨ei譜,其中所有的峰m/z值被四舍五入到最接近的整數(shù)值。然后,該譜圖與整個用戶指定的數(shù)據(jù)庫進行比較,計算每個譜圖比較的加權(quán)點積,并且儲存前n名最高評分的匹配。比較平均譜圖與整個nist數(shù)據(jù)庫(約213000個譜圖)并為每個計算加權(quán)點積花費大約1.5秒。由該算法提供的好處之一是它的執(zhí)行速度。使用nistms檢索算法,比較單個譜圖與<10000個譜圖花費大約相同量的時間。我們決定搜索空間應(yīng)盡可能多地被打開,以增加提取的譜圖得到與其真正的參考譜圖進行比較的機會,直至它出現(xiàn)在數(shù)據(jù)庫中。在該算法中這一點上完全利用每個解卷積高分辨率譜圖的相關(guān)的化學(xué)式,產(chǎn)生了一組候選物識別。由此,高分辨/精確質(zhì)量測定可以被利用以大大提高歸屬識別的置信度并且區(qū)分錯誤命中。
圖6示出了與特草定和4-苯基-哌啶的單位分辨參考譜圖(從nist參考庫獲得)匹配的特草定的實驗獲得的譜圖(用戶譜圖)。使用下面的公式,
au–使用者譜圖的峰強度
ar–參考譜圖的峰強度
m–峰m/z值
當特草定的實驗譜圖與特草定的參考譜圖比較時,獲得了90.49的初始匹配評分,而當特草定的實驗譜圖與4-苯基-哌啶的參考譜圖比較時,獲得了49.49的匹配評分。
高分辨率濾波
如先前所述,該算法以以下原理操作,即在化合物的純斷裂譜圖中的每一單個碎片峰含有來自母體分子結(jié)構(gòu)的原子的一些子集合?,F(xiàn)在,如果正確的匹配實際上被包括在候選匹配的這個列表中,我們將期望觀測到的每一峰可以使用來自分子的一些碎片的精確質(zhì)量進行解釋??梢杂镁_質(zhì)量碎片注解的來自精確質(zhì)量峰的信號的百分率(總離子流或tic)可被用作用于確定是否完成了正確匹配的度量。
存在幾種試圖采用已知的分子結(jié)構(gòu)并基于已知的鍵能和原子在空間是如何連接的來預(yù)測將產(chǎn)生什么碎片的算法。這些算法通常不能準確預(yù)測所有觀測到的碎片,這將阻止實施我們所提出的用于歸屬識別的工作流程。相反,本算法生成一組包含候選分子可以產(chǎn)生的每一可能的碎片的化學(xué)式。它是通過構(gòu)建母體分子式中原子的所有非重復(fù)組合來完成的。雖然這種方法將產(chǎn)生一些不可能的分子式,這樣的分子式將被簡單地忽略,因為將利用僅僅那些具有落入在觀測到的峰(約15ppm)附近的窄的m/z公差范圍內(nèi)的精確質(zhì)量的碎片。這種方法被保證以產(chǎn)生所有觀測到的碎片,并且不需要分子將如何斷裂或者它在斷裂之前將如何重排的任何先驗知識。然而,基于規(guī)律的斷裂方案的主要的限制是,并非可以在質(zhì)譜儀高真空度下的氣相中發(fā)生的所有可能的分子重排都是已知的。發(fā)現(xiàn)每種可能的重排是不太可能在不久的將來發(fā)生的(如果有的話),這對基于規(guī)律的斷裂算法的顯著不利因素。
為了產(chǎn)生所有可能的碎片,首先創(chuàng)建了代表每個匹配化學(xué)式的整數(shù)數(shù)組。在這個方案中,數(shù)組中的每個指數(shù)代表特定原子,并且儲存在該指數(shù)中的數(shù)字等于分子中該原子的數(shù)目。此過程以其中為每個原子儲存零的空數(shù)組開始,并且迭代地遞增儲存在每個指數(shù)中數(shù)字直到達到原始的原子數(shù)目。下面針對乙炔(c2h2)的簡單情況在圖7中示出了這種方法,其中可能的組合將是h、h2、c、c2、ch、c2h、ch2和c2h2??梢钥闯?,分子式(碎片)的每一種可能的組合使用該實施方式被產(chǎn)生?,F(xiàn)在,使用這組中每個碎片的精確質(zhì)量,可以確定在高分辨率譜圖中觀測到的每個峰的精確質(zhì)量是否可以被解釋。使用用于對觀測到的峰快速注解的這種方法的好處是其可以基于由電子轟擊電離過程產(chǎn)生的產(chǎn)物碎片潛在地發(fā)現(xiàn)新的氣相化學(xué)重排。
使用這里收集的信息來區(qū)分錯誤的匹配非常容易。如果在高分辨ei譜圖中觀測到的峰都不能(或者甚至很少能)使用來自潛在候選物的精確質(zhì)量碎片來解釋,則可以以高置信度得出結(jié)論:所述分子不產(chǎn)生收集的譜圖。對于這一點,區(qū)分候選匹配的過程已不可能通過匹配單位分辨率譜圖與單位分辨參考庫來進行,這是由于缺乏精確質(zhì)量測定。
相反地,驗證譜圖匹配是正確的過程進行的更為容易。如果在實驗得到的高分辨率gc/ms譜中的每一峰可以被解釋,則可以確定含有該組原子的一些分子一定已產(chǎn)生了觀測到的峰。然而,存在許多包含相同組的原子的化合物,雖然它們在空間中的排列是非常不同的。如果在實驗和參考譜圖之間存在很大程度的譜圖重疊,并且所有觀測到的峰可以被解釋,則正確的化合物已匹配的置信度大大提高。為將這兩個成分組合成此置信度的單個數(shù)值表示,該算法反饋譜圖相似度(從0至100測定,其中100是完全的譜圖重疊)和可以被精確質(zhì)量碎片解釋的tic的百分率的積(參見例如,圖8)。
被承認的是在某些情況下,含有相同的母體化學(xué)式并被以類似的方式(例如立體異構(gòu)體)排列的分子產(chǎn)生類似的譜圖。僅使用這兩條信息仍可能不能明確歸屬正確的識別。然而,額外的信息維度(在gc分離中的保留指數(shù))和分析方法(nmr等)可以用于確定什么化合物已經(jīng)被分析。在這些情況下,本算法將所有頂級的匹配分組在一起并將該組作為一個命中物反饋給用戶。
初步數(shù)據(jù)
對于該算法的初始驗證,分析了含有適于用gc-ms分析的已知殺蟲劑的樣品混合物。下面的實施例突出了本算法的效率,以及它如何被用來提高歸屬識別的置信度和以高保真度區(qū)分錯誤的命中物。特草定的分析產(chǎn)生了以下的譜圖,該譜圖正確地與nist12ms庫中特草定的參考譜圖匹配。譜圖以90.49的評分被匹配,并且我們能夠解釋高分辨率譜圖中99.95%的tic(圖8和圖9)。任何未匹配的信號被歸因于窄的容許的質(zhì)量公差以外的質(zhì)量誤差,或被歸因于被不合邏輯地包括在解卷積步驟中的峰。這是一種理想的情況,其中觀測到很大程度的譜圖重疊并且可以解釋高分辨率譜圖中幾乎所有的峰。
應(yīng)注意到的是,其中該算法在區(qū)分命中物方面是有效的實例是相當接近的(相似的參考譜圖被匹配),其中低分辨匹配評分介于頂級命中物之間。例如,在禾草特的情況下,前兩名命中物(分別為禾草特和2-甲基-1,3-環(huán)己二酮)具有82.41和75.16的低分辨的匹配評分。單位分辨率譜圖的目視解讀表明當在兩個參考譜圖中的主峰都匹配時每種化合物都可能潛在是正確的匹配。但是在進行高分辨率濾波步驟之后,我們發(fā)現(xiàn),只有19.30%的tic可以用來自2-甲基-1,3-環(huán)己二酮的化學(xué)式來解釋,而使用禾草特的化學(xué)式,所觀測到的99.63%的信號可以被解釋(圖10)。該實施例凸顯了該算法在降低類似的譜圖匹配之間的不確定性方面的效用。已經(jīng)不可能僅僅通過匹配低分辨參考譜圖和實驗譜圖來區(qū)分這兩個命中物,然而本方法能夠使用該算法最終排除2-甲基-1,3-環(huán)己二酮為正確的匹配。
該算法在更大的數(shù)據(jù)集合(34種已知的殺蟲劑)的分析中也很好地執(zhí)行。圖11中所示的是所有已知化合物的前10名命中物的匹配評分,其中示出了正確匹配評分和不正確匹配的評分。在進行高分辨率濾波步驟之后,可以看出,許多不正確的評分顯著下降,其中最大群體的評分下降至接近0。此結(jié)果凸顯了該算法在選擇錯誤匹配方面的效用。使用該算法,使用作為分析小分子的工具的gc-ms的分析物將會受益,這是因為人們可以在反饋的譜圖匹配中獲得大量的置信度而無需任何額外的實驗。
高分辨率濾波算法的附加應(yīng)用
據(jù)預(yù)測,該碎片產(chǎn)生算法可以延伸到使用gc-ms確認歸屬給收集的高分辨率ei譜圖的譜圖匹配。目前可用的參考庫不一定包含用gc-ms能觀測到的每一化合物的參考譜圖。這種高分辨率濾波的方法可以潛在地擴展到發(fā)現(xiàn)數(shù)據(jù)庫中不存在的化合物。在實驗譜圖不能以高重疊與參考譜圖匹配的實例中,用戶可以開始搜索可用于注解所有觀測到的峰的化學(xué)式。這樣做的一種方法是使用產(chǎn)生含有完整前體的譜圖的化學(xué)電離來分析同樣的樣品。從這個完整的前體,獲得了可匹配回化學(xué)式的精確質(zhì)量測定。
化學(xué)式匹配的這個過程可以通過將觀測到的前體質(zhì)量與已知化學(xué)式的數(shù)據(jù)庫進行比較或通過產(chǎn)生含有某些原子的所有可能的化學(xué)式來完成。如果具有匹配精確質(zhì)量的這些化學(xué)式中的一個可被用來解釋觀測到的譜圖中的所有峰,該分子或具有更大的化學(xué)式的分子(包含所有原子然后包括一些原子)可以認定為已以高置信度產(chǎn)生了譜圖。從那里,用戶可以開始導(dǎo)出該分子的分子結(jié)構(gòu)。這樣的過程對于促進小分子的基于高通量發(fā)現(xiàn)的分析潛在地非常有價值。此外,正如之前所表明的,利用該算法快速注解觀測到的譜峰可能對于發(fā)現(xiàn)新穎氣相重排和斷裂途徑頗具教益。
實施例2:氟草敏的推定識別
本發(fā)明的一個方面提供了用于改進使用在單位分辨率gc-ms儀器上收集的參考譜圖的現(xiàn)有數(shù)據(jù)庫譜圖匹配高分辨率gc-ms儀器上收集的ei斷裂譜圖的新穎策略。這些高分辨ei譜圖可以通過四舍五入峰m/z值到最接近的整數(shù)來與單位分辨數(shù)據(jù)庫進行匹配。反饋的譜圖匹配仍然可能是不明確的,但采用的額外濾波提高了識別率。
就高分辨率譜圖而言,前n名匹配的化合物被儲存,并且對于每個推定識別,原子的所有非重復(fù)組合從其分子式產(chǎn)生。這一組組合代表一組可能的碎片。產(chǎn)生每組碎片并過濾掉不可能的分子式后,剩余的碎片在高質(zhì)量精確度下(即,<20ppm)與高分辨率譜圖進行匹配。從此確定了多少百分率的總離子流(tic)可以被每組化學(xué)碎片解釋。方法通過反饋最終的“高分辨率濾波評分”(即低分辨點積匹配評分(0-100)和可以被來自特定匹配化合物的碎片解釋的測得總離子流的加權(quán)百分率的積)而被完全自動化。
在圖12中示出了該技術(shù),其示出了使用高分辨率濾波來確定推定識別可信性的實施例。使用gc-軌道離子阱質(zhì)譜儀對氟草敏的已知標準品進行采樣。所得ei譜圖與大約21000個單位分辨參考譜圖(從nist獲得的)的數(shù)據(jù)庫進行匹配,并且兩個最好評分的化合物,氟草敏(c12h9clf3n3o)和5-氨基-3-甲基-1-苯基吡唑(c10h11n3)分別具有76.34和76.11的匹配評分。產(chǎn)生兩個化合物的碎片的所有可能的組合和濾波掉任何不具有在+/-10ppm范圍內(nèi)的匹配碎片的任何峰之后,兩個譜圖保留。對于氟草敏,95.80%的tic可以用-0.062(σ=3.214ppm)的平均ppm誤差進行解釋,而對于5-氨基-1-甲基-3-苯基吡唑,僅5.20%的tic被解釋?;诖私Y(jié)果,第二個命中物可以有效地被排除作為候選匹配,這沒有準確的質(zhì)量信息是不能被完成的。
實施例3:使用高分辨率濾波區(qū)分兩個相似的化合物
甘氨酸的樣品用叔丁基二甲基硅基標簽衍生化,并且實驗得到的譜圖針對nist12單位分辨ei參考庫進行搜索。反饋的前兩名單位分辨率譜圖匹配為1-丙醇,3-氨基,叔丁基二甲基硅基和甘氨酸-叔丁基二甲基硅基,分別具有72.864和70.329的評分(見圖13)。值得注意的是,兩個化合物的單位分辨參考譜圖包含幾乎所有相同的顯著特征。利用比較單位分辨參考譜圖的標準機制以在該實例中識別ei譜圖可能導(dǎo)致錯誤的識別,這是因為-1-丙醇,3-氨基,叔丁基二甲基硅基具有更高的譜圖匹配評分。然而,當如本文所述使用高分辨率濾波方法,我們發(fā)現(xiàn),在利用1-丙醇,3-氨基,叔丁基二甲基硅基的化學(xué)式(c15h37nosi2)在高分辨ei譜圖中可以解釋僅66.91%的觀測到的tic。
相反,98.35%的觀測到的tic可使用甘氨酸-叔丁基二甲基硅基的化學(xué)式(c14h33no2si2)進行解釋。在給所述匹配重新評分以考慮進解釋的tic后,甘氨酸-叔丁基二甲基硅基(其是以前的第二最好評分的譜圖匹配)的譜圖被移到列表的頂部。該識別被在5ppm范圍內(nèi)觀測相同樣品的相應(yīng)ci運行中的完整前體所證實。
實施例4:使用高分辨率濾波區(qū)分多個相似的化合物
丙二酸酯的樣品用叔丁基二甲基硅基標簽(二(叔丁基二甲基硅基)丙二酸酯)衍生化,并且實驗得到的譜圖針對nist12單位分辨ei參考庫進行搜索。前五名最好的評分譜圖匹配被反饋(參見圖14),其中評分在66.610(2-甲基-1,4-丁二醇、二(叔丁基二甲基硅基)醚)至60.773(二(叔丁基二甲基硅基)丙二酸酯)的范圍內(nèi)。所有參考譜圖包含類似的顯著特征,基于譜圖重疊區(qū)別正確的譜圖幾乎是不可能的。事實上,正確的化合物,二(叔丁基二甲基硅基)丙二酸酯,在五個反饋譜圖中具有最低譜圖匹配評分。
然而,使用高分辨率濾波算法后,二(叔丁基二甲基硅基)丙二酸酯的化學(xué)式相較于任何其他化合物解釋了更大百分比(99.719%)的譜圖中觀測到的tic(參見圖14)。在對譜圖匹配重新評分以包括該解釋的tic成分之后,正確的譜圖匹配移到列表的頂部。在不使用該算法的情況下,幾乎不可能從相似評分譜圖匹配的列表區(qū)分正確的答案。該識別被在5ppm范圍內(nèi)觀測相同樣品的相應(yīng)ci運行中的完整前體所證實。
還注意到,實驗得到的譜圖中的幾個顯著特征可以被來自所有五個最好評分的譜圖匹配的化學(xué)式的碎片解釋??梢员凰凶V圖匹配解釋的最大的特征用化學(xué)式c5h15osi2注解。這講得通,這是因為每個匹配的化學(xué)式包含至少五個碳(c)、十五個氫(h)、一個氧(o)和兩個硅(si)。下一最強峰可以使用最好的五種譜圖匹配中的四種的化學(xué)式來解釋。該碎片用化學(xué)式c8h21osi2注解。在這個實例中,理論上不能產(chǎn)生具有該質(zhì)量的碎片的唯一母體分子式是雙二(三甲基硅基團)甲基硼酸酯,它在其結(jié)構(gòu)中僅有七個碳原子。最后,在實驗得到的二(叔丁基二甲基硅基)丙二酸酯的ei譜圖中有顯著的特征,其僅能被它的化學(xué)式解釋。此特征用化學(xué)式c11h23o4si2注解。該峰的質(zhì)量不能由其他化學(xué)式解釋是講得通的,因為二(叔丁基二甲基硅基)丙二酸酯是組中唯一含有四個氧原子的化學(xué)式。
實施例5:在沒有參考譜圖情況下的化學(xué)式的闡明
氯唑靈的已知的標準品被分析并且實驗得到的ei譜圖針對nist12單位分辨ei參考庫進行搜索。反饋具有高的譜圖重疊(84.842)和解釋的高(比例)tic(99.427%)的氯唑靈的參考譜圖(參見圖15)。這一結(jié)果表明,該實驗得到的譜圖的質(zhì)量非常高。然后該譜圖被用來確定是否可以識別解釋實驗譜圖中所觀測到的絕大多數(shù)tic所需的最小化學(xué)式。
計算對于氯唑靈實驗得到ei譜圖,能夠被nist12參考數(shù)據(jù)庫中的每個獨特的化學(xué)式解釋的tic信號的百分率。在圖16中示出的是能夠被針對其同位素峰質(zhì)量繪制的每個獨特的化學(xué)式解釋的tic信號的百分率。值得注意的是,很少的化合物可以解釋大百分率(>=90%)的tic。繪制和識別對應(yīng)氯唑靈的化學(xué)式(c5h5cl3n2os)的點。該點對應(yīng)于可用于解釋ei譜圖中極大百分率的觀測到的tic的最小分子式。同樣繪制的是c5h5cl3n2os的超集合(圖17)和子集合(圖18),并且我們注意到幾乎每個可以解釋最大百分率的觀測到的tic的化學(xué)式包含原子c5h5cl3n2os的基本集合。
使用這種方法,已經(jīng)能夠確定,很有可能具有至少c5h5cl3n2os的分子產(chǎn)生了觀測到的斷裂譜圖。測定相應(yīng)的ci運行中的完整前體將有助于證實具有至少該基本集合的原子的分子實際上確實產(chǎn)生了觀測到的譜圖的假說。闡明化學(xué)式的該方法可以潛在地延伸至不具有存在于庫中的參考譜圖的化合物的基于發(fā)現(xiàn)的分析。該方法為用戶提供了分子的推測化學(xué)式和注解的ei譜圖。由此,用戶可以開始闡明其分析物的結(jié)構(gòu)。
對于二(叔丁基二甲基硅基)丙二酸酯的實驗得到的譜圖進行了如上所述相同的分析。圖19示出了能夠被針對其同位素峰質(zhì)量繪制的每個獨特的化學(xué)式解釋的tic信號的百分率,并對c15h32o4si2的超集合和子集合進行了繪制。再次,非常少的化合物能夠解釋大多數(shù)所觀察的tic。圖20示出了針對二(叔丁基二甲基硅基)丙二酸酯前5個最佳譜圖匹配而解釋的tic的百分率,其中二(叔丁基二甲基硅基)丙二酸酯的化學(xué)式(c15h32o4si2)是最上面的大點。該實施例再次突出了在使用可以被解釋為下述度量的觀測信號的百分率方面的效用,所述度量對高分辨參考譜圖與單位分辨參考譜圖的譜圖匹配進行評分。
實施例6:通過gc/ms改進的小分子識別的精確質(zhì)量
已證明獲得通過gc/ms分析的小分子和代謝物的可信的識別是非常具有挑戰(zhàn)性的。在本實施例中,我們描述了使用高分辨率濾波通過利用精確質(zhì)量測定來確定推定識別的可信性的一種組合方法。本方法為傳統(tǒng)譜圖匹配和保留指數(shù)提供了正交信息。此外,它提供了提高的ms分辨率的所有益處,同時延伸了目前可用的擴展單位分辨率gc/ms參考庫的效用。
氣相色譜-質(zhì)譜(gc/ms)長久以來被認為是用于揮發(fā)性小分子定性和量化分析的首要分析工具之一1-3。結(jié)合所分析分子的保守斷裂,高度重現(xiàn)的色譜分離既為靶向的測試也為基于發(fā)現(xiàn)的測試提供了該技術(shù)。gc/ms已經(jīng)顯示了效用的突出領(lǐng)域之一在于代謝物譜分析4,5。代謝組學(xué)正迅速成為系統(tǒng)生物學(xué)家和臨床研究人員都感興趣的領(lǐng)域。鑒于代謝組是從基因型至表現(xiàn)型最遠的下游,許多人相信代謝物譜分析有揭示生物標記物和/或特征性代謝物譜的潛力6,7。據(jù)信,這些特征可以促進疾病和其他病癥的早期診斷/預(yù)后。此外,代謝物物篩選在臨床應(yīng)用(clinicalsetting)上是高度期望的,因為它們通常躋身于最小侵入性生物測試。隨著該領(lǐng)域持續(xù)發(fā)展,迫切需要發(fā)展在較短時間跨度內(nèi)實現(xiàn)更深入的分析的先進工具和技術(shù)。
在傳統(tǒng)發(fā)現(xiàn)實驗中,揮發(fā)性分析物在質(zhì)量分析之前通過gc分離并使用電子電離(ei)電離。ei是“硬”電離技術(shù),并導(dǎo)致分子以特征性的模式成為碎片。含有來自各個分析物(其可以包含或可以不包含完整的分子離子)的碎片的譜圖被提取,然后與單位分辨參考譜圖數(shù)據(jù)庫進行比較8。具有足夠高的譜圖相似度的匹配往往被推測為正確的識別。正確地識別在gc/ms實驗中觀測到的大部分特征已被證明是一項艱巨的挑戰(zhàn)9,10。這些特征的大部分保持未被識別不是罕見的。對于那些推測的識別已被歸屬的化合物,后續(xù)的驗證常常需要分析者運行純參考標準品以確證譜圖相似度和分析物保留(時間)兩者。特別是,如果對于單一化合物存在大量推定識別,則該過程可能是特別費力的。因此,任何可以用來區(qū)分候選前體或?qū)蚝蜻x前體的輔助信息是非常有價值的。
幾十年來,單位分辨率gc/ms儀器是標準,并且最大的公開可用的參考庫是由這些系統(tǒng)上獲得的譜圖構(gòu)成的11,12。近年來,高分辨率儀器已經(jīng)進入市場,但數(shù)據(jù)分析工具還大部分保持未改變13-16。在保持被利用的可用的精確質(zhì)量方面有很大的潛力。為了比較,高分辨質(zhì)譜儀的引入標志著基于lc-ms/ms的蛋白質(zhì)組學(xué)的轉(zhuǎn)型。預(yù)測的肽斷裂的性質(zhì)在這里是有利的。許多開發(fā)的肽譜圖匹配算法容易被調(diào)適以減少允許的質(zhì)量公差并實現(xiàn)搜索空間伴隨的減少和前體/產(chǎn)物離子匹配特異性的提高。相反,小分子斷裂模式可預(yù)測性要小得多。已證明計算機模擬的理論ei譜的產(chǎn)生是非常具有挑戰(zhàn)性的,并且迄今為止,嘗試此任務(wù)的算法僅顯示了適度成功17-19。作為替代的方法,本實施例的方法著眼于目前到位的擴展ei參考數(shù)據(jù)庫。這里可用的質(zhì)量精確度的差異排除了直接比較測定的精確質(zhì)量與它們的參考對應(yīng)物的能力。然而,這些參考譜圖關(guān)于斷裂譜和強度模式信息豐富。此外,使用新儀器重新創(chuàng)建這些庫至少在不久的將來將是過于昂貴的。我們糾正為我們?nèi)匀豢梢岳眠@些庫識別候選前體,而同時利用可用的質(zhì)量精確度。
在本實施例中,我們描述了一種用于利用精確質(zhì)量信息提高小分子識別的特異性的新穎方法。所述高分辨率濾波(hrf)方法利用通過計算gc-ms譜圖中能夠用源于推測前體的精確化學(xué)式注解的信號的百分率來測定歸屬識別的可信性)的組合過程。這一策略的一個實施方式使用與單位分辨參考庫的傳統(tǒng)譜圖匹配收集候選識別。通過在測定的斷裂譜和精確質(zhì)量兩者的基礎(chǔ)上實現(xiàn)區(qū)分前體,該方法有效地提供了兩者的長處??商娲J揭蕾囉诳捎糜诖_定推測識別的健全性的用戶指定的化學(xué)式。當沒有合適的參考譜圖時,這對于用戶分析新穎化合物是一種方便的替代方法。本文所描述的方法使gc/ms的用戶能夠利用精確質(zhì)量測定并能夠解鎖與由譜圖匹配所提供的信息正交的額外維度的信息。
在hrf策略后面的潛在方面是,衍生于特定母體的每一碎片包含來自所述前體的原子的子集合。我們主張,純高分辨率gc/ms譜圖中的每一峰可以使用來自真實母體的原子的組合來進行注解。在給定高分辨率gc/ms譜圖和推定識別的情況下,來自歸屬的化學(xué)式的原子的所有非重復(fù)組合被產(chǎn)生,然后使用精確質(zhì)量與峰進行匹配。至于什么化學(xué)式能存在,什么化學(xué)式不能存在,沒有進行粗略估算。雖然一些產(chǎn)生的組合是化學(xué)上不可能的,但是該列表本身包含了可能被觀測到的碎片的所有化學(xué)式。這里我們證明,目前的實施是可行的,并且對于正確的母體歸屬是有高度特異性的。
使用收集自覆蓋許多類小分子(代謝物、殺蟲劑、濫用藥物等)的105個純參考標準品的高分辨gc-軌道離子阱譜圖的數(shù)據(jù)集合,我們測試了本方法。使用設(shè)計成將那些源于單一前體的碎片分組到一起的內(nèi)部解卷積算法而從原始數(shù)據(jù)文件中提取各個譜圖。提取的譜圖被提交進行與nist12ei數(shù)據(jù)庫(約213000個譜圖)全部內(nèi)容的譜圖匹配。計算了測定與每個比較的參考譜圖的譜圖相似度的加權(quán)點積并且反饋了最佳評分匹配(圖21a至圖21d)。僅考慮正確的命中,對于提交的105個譜圖,達到了具有9.587的標準公差的81.889的中位數(shù)譜圖匹配評分。繼譜圖匹配之后,所有反饋的匹配經(jīng)受我們的hrf方法。使用與反饋的譜圖匹配相關(guān)的化學(xué)式,反饋了能夠使用來自每個的子分子式的精確質(zhì)量注解的信號的百分率(圖21e至圖21f)。再次僅考慮正確的命中,我們報道了具有1.022的標準公差的99.700的中位數(shù)hrf評分(圖22a和圖29(補充表1))。
圖29(補充表1)提供了包括原始文件名稱、保留時間、hrf評分、譜圖匹配評分、峰數(shù)目以及如所報道的參考譜圖名稱的所有分析的參考化合物的結(jié)果。
這些有前景的結(jié)果表明,本發(fā)明的這一方面的方法高度地表示可行的化學(xué)組合物已被推斷出來。但是,其提出了關(guān)于類似的結(jié)果是否能從隨機的化學(xué)式中獲得的問題。為了測試方法的特異性,數(shù)據(jù)集合中所有的譜圖使用來自nist數(shù)據(jù)庫的60560個獨特的分子式經(jīng)受hrf過程。示出了來自三甲基硅基衍生的β-谷甾醇(c32h58osi)的譜圖的代表性結(jié)果(圖22b)。我們注意到真正的母體是能夠產(chǎn)生最大hrf評分的最小的分子式。所注解的子集合缺乏達到類似高評分的原子的合適組合。正如所預(yù)期,c32h58osi的所有超集合產(chǎn)生類似的高評分。這是預(yù)期的因為來自真正母體的所有子分子式也將被包含于由這些超集合前體產(chǎn)生的子分子式集合中。我們注意到,在某些情況下,不是真正的超集合、但與正確的母體共享大百分率的原子的非常大的分子式也可以產(chǎn)生高的評分(圖30(補充表2))。
圖30(補充表2)示出了總的hrf分析。這里示出的是當針對60560個獨特化學(xué)式計算105個數(shù)據(jù)集合譜圖的分數(shù)時反饋的hrf結(jié)果的總結(jié)?;衔镆酝凰刭|(zhì)量升序排列。產(chǎn)生小于、或大于、或等于真正母體的hrf評分的分子式的原始數(shù)目被顯示于以hrf<母體評分和hrf>=母體評分標記的列中。使用產(chǎn)生hrf評分>=真正母體hrf評分的分子式池,確定了正確和錯誤的超集合的數(shù)目。超集合是還包含真正的母體集合中的所有原子的分子式。非超集合是那些不符合此條件的分子式。對于那些非超集合,計算了與真正的母體共享的原子的平均百分率,連同由所討論的分子式擁有的額外原子的平均和中位數(shù)目。我們發(fā)現(xiàn),這些能夠達到和真正母體同樣高的hrf評分的非超集合通常與正確的前體共享大百分率的原子(93.574%),并且平均包含相當數(shù)量的額外原子(19.506)。
為了提供方法的特異性的全局視圖,我們示出了數(shù)據(jù)集合中的所有105個譜圖的累積分布,連同來自所有反饋的hrf評分的組合的代表性分配(圖22c和圖26)。這種分析的近似是所有考慮的分子式具有被選定為所獲得譜圖的推定母體的平等機會??赡懿皇沁@種情況,并且在來自譜圖匹配或分析者保有的先驗信息的候選母體選擇方面將會有差異。但是,基于此代表性分布,我們將會預(yù)計平均大約86.9%的考慮的分子式將反饋hrf評分≤90,并且僅有3.560%的分子式將產(chǎn)生大于等于計算的hrf評分中位數(shù)(99.700)的評分。對于一些實施方式,方法的特異性可能依賴于所討論的分析物的復(fù)雜性。元素復(fù)雜性和原子數(shù)目的增加將通常導(dǎo)致更少的數(shù)目的前體可以成功被注解的譜圖。
本實施例還測試了當應(yīng)用于在次優(yōu)條件下收集的譜圖時該算法的表現(xiàn)。作為概念驗證,十二種藥物以八種濃度(10ng/μl至約78pg/μl)加入到人體尿液中,并在gc/ms分析之前提取(圖23a)。我們報道了這十二種藥物中九種藥物的結(jié)果。色譜分辨率不足以成功地分離苯海拉明和氯胺酮,并且咖啡因的高背景水平降低了通過一系列濃度分析化合物的能力。因此,沒有進行進一步的分析。
對在復(fù)雜背景基質(zhì)中的化合物的分析給譜圖解卷積提供了額外的挑戰(zhàn)(圖23b)。在這個過程中使用保守標準降低了不合邏輯的碎片包含于所提取的譜圖的可能性,但也可能導(dǎo)致真正的碎片被排除。報道的所有化合物產(chǎn)生了具有10+個峰的譜圖和在前40名反饋的命中之中真正母體的譜圖匹配。示出了相關(guān)的譜圖匹配和hrf評分(圖23c、圖24a至圖24i和圖31(補充表3))。我們注意到,譜圖匹配評分隨著降低分析物豐度而降低。這是符合乎邏輯的,因為在降低的濃度下的低豐度峰的損失將消極地貢獻于譜圖匹配評分。我們也注意到,對于所有觀測到的譜圖,相關(guān)的hrf評分仍然保持為高(92+)。這表明質(zhì)量精確度是高度保守的,并且在降低的s/n的時該hrf度量是強健的。
圖31(補充表3)提供了加入藥物數(shù)據(jù)集合中的所有提取譜圖的相關(guān)的譜圖匹配評分、hrf評分以及峰數(shù)目??紤]的所有譜圖包含至少10個峰。
在分析含有減少數(shù)量的峰譜圖時還評價了方法的特異性。為了充分質(zhì)詢這種可能性,使用每種分析藥物的兩個譜圖(一個對應(yīng)于濃度最高的數(shù)據(jù)點,另一個對應(yīng)于濃度最低的數(shù)據(jù)點),從nist(0-500da)中的55290個獨特的分子式計算了hrf評分(圖23d和25a至圖25b)。兩組譜圖之間的平均峰值數(shù)目(96對比23)顯著降低。然而,累積分布顯示在hrf方法的功效方面沒有顯著的差異。似乎存在于這些峰貧譜圖中的精確質(zhì)量信息足以區(qū)分前體。這些數(shù)據(jù)表明,所提出的方法即使當應(yīng)用于在減少的濃度下收集的譜圖也能夠很好地起作用。
這里,我們描述了一種用于為高分辨率gc/ms的用戶提供進一步提高小分子識別的置信度的補充信息的方法。所述方法可以結(jié)合傳統(tǒng)譜圖匹配使用,并有效地延伸目前可用的單位分辨參考庫的效用。此外,該方法提供的信息與傳統(tǒng)譜圖匹配和保留指數(shù)完全正交。事實上,當沒有合適的參考譜圖時,它是用戶分析新穎化合物的唯一一條可用的信息。hrf方法促進了譜圖的快速注解,可以延伸至lc-ms/ms應(yīng)用,并且可以證明有助于對于迄今在小分子分析中已經(jīng)基本是難以逃避的自動錯誤發(fā)現(xiàn)率計算。20
方法
材料和試劑。除非另有說明,所有標準參考材料購自sigma-aldrich公司(圣路易斯,密蘇里州),除了分析的37種殺蟲劑參考標準品,它們包含在《有機氮農(nóng)藥混用1號-epa方法525.2》并購自restek公司(貝爾豐特,賓夕法尼亞州)。甲醇、乙酸乙酯、丙酮、己烷、二氯甲烷和異丙醇試劑也購自sigma-aldrich公司。帶有1%三甲基氯硅烷衍生化試劑的n-甲基-n-三甲基硅基三氟乙酰胺(mstfa+1%tmcs)購自pierce生物技術(shù)公司(羅克福德,伊利諾伊州)。壓縮氣體(甲烷、氦和氮)為超高純度等級,并購自airgas公司(麥迪遜,威斯康星州)。200mg清潔掃描
樣品制備和gc/ms獲取。gc/ms分析是在裝備有g(shù)cpal自動進樣器(ctc分析公司,茨溫根,瑞士)的痕量gc超(tracegcultra)氣相色譜(thermofisher科學(xué)公司,米蘭,意大利)上進行的?;衔锸窃趲в泻廨d氣的20mx0.18mm(i.d.)x0.18μm(df)交聯(lián)鍵合5%二苯基/95%二甲基聚硅氧烷柱(restek公司的rxi-5sil質(zhì)譜,貝爾豐特,賓夕法尼亞州)上被分離的。氣相色譜通過加熱的輸送管線連接到q-exactive儀(thermofisher科學(xué)公司,不來梅,德國)。利用自動增益控制(agc)的所有質(zhì)譜實驗21-23和所有數(shù)據(jù)是在線型模式下獲取的。
尿液藥物測試。首先以1mg/ml的甲醇制備分析的所有藥物的儲備溶液。報道的所有藥物被組合,并稀釋(再次在甲醇中)至合適的濃度。當不使用時,儲備溶液保持在4℃。對于每個梯度數(shù)據(jù)點,在使用200mg清潔篩選(cleanscreen)提取柱提取之前,100μl的藥物混合物被加入到原始尿液中。根據(jù)制造商的方案,提取酸性和堿性藥物/代謝物部分。24這些部分隨后在氮氣下干燥,在50μl的乙酸乙酯中重構(gòu),然后重新組合。對于每個濃度數(shù)據(jù)點,1μl等分試樣(aliquot)被注入(不分流進樣),并在1.2ml/minhe(氦氣)流速下分離。使用以下的gc梯度:在60℃下恒溫2.5分鐘;以40℃/分鐘升至210℃;以5℃/分鐘升至267℃;以40℃/分鐘升至310℃;然后在310℃下恒溫6.2分鐘。質(zhì)譜傳輸管線和源溫度分別保持在280℃和200℃。50至500m/z的質(zhì)量范圍是使用30000(m/δm)的分辨率分析的、相對于200m/z的質(zhì)量。agc目標設(shè)定為1e6,并且使用了電子電離(70ev)。在獲取這些數(shù)據(jù)的過程中,使用了鎖定質(zhì)譜校準。在計算必要的質(zhì)量修正中發(fā)生了意料之外的錯誤,并且在這些實驗中獲得的許多掃描默認為極端值(約25ppm)。質(zhì)量精確度上大的扭曲很大程度上抑制了所述hrf方法。因此,在數(shù)據(jù)處理期間,通過移除如每個掃描標題中所報道的應(yīng)用的質(zhì)量修正,每個譜圖被恢復(fù)到其自然狀態(tài)。隨后的分析沒有采用該鎖定質(zhì)量校正,從而質(zhì)量精確度沒有受到影響。
殺蟲劑分析。含有37epa525.2殺蟲劑的混合物在丙酮中從500μg/ml稀釋至3ng/μl的工作濃度。1μl等分試樣使用1:10的分流在275℃的溫度下被注射,并在1.2ml/minhe(氦氣)流速下分離。使用以下的gc烘箱梯度:在100℃下恒溫1分鐘;以8℃/分鐘升至320℃;并且在320℃下恒溫3分鐘。傳輸管線和源溫度分別保持在275℃和225℃。在每個質(zhì)譜掃描中,50至650m/z的質(zhì)量范圍使用17500(m/δm)的分辨率相對于200m/z被分析。在1e6的agc的目標下允許100ms的最大注射時間。使用在70ev下的電子電離(ei)。
額外的參考標準品分析。所有其他報道的標準品的儲備溶液在適當?shù)娜軇┲幸?mg/ml的濃度被單獨制備。含有大約5至10個參考標準品的混合物通過組合每個標準品的20μl等分試樣來進行制備,而并不使用具體的組織方案。這些混合物在氮氣下干燥,在100μlmstfa+1%tmcs的衍生化試劑中重新懸浮、加蓋、在渦旋振蕩器上振蕩混勻、并在60℃下加熱15分鐘。然后在各混合物被轉(zhuǎn)移到自動進樣器小瓶之前,100μl乙酸乙酯加入到各混合物中。如《尿液藥物測試》中所描述的同樣的gc烘箱梯度和質(zhì)譜參數(shù)在這里也被使用。
譜圖解卷積。在數(shù)據(jù)收集之后,原始ei-gc/ms譜圖數(shù)據(jù)被解卷積為“特征”,然后分組為僅含有源于單一母體的產(chǎn)物離子的各個譜圖。這一步是至關(guān)重要的,因為譜圖中包含外來的碎片離子可以降低該算法利用被母體的原子組限制的精確化學(xué)式來注解所有觀測到的峰的能力。對原始數(shù)據(jù)文件中的每一峰進行了考慮。在至少五次連續(xù)掃描中觀測到的、具有在彼此+/-10ppm范圍內(nèi)m/z值的峰被一起分組為到一起,作為數(shù)據(jù)特征。在峰聚集為特征后,為每個特征創(chuàng)建平滑的強度線型。通過要求每個特征表現(xiàn)出“峰狀”形狀,從噪音產(chǎn)生的不合邏輯的特征(部分)從考慮中被排除。所有特征需要上升到具有所包括的第一個和最后一個峰的強度的至少兩倍強度的頂點。從產(chǎn)生自對緊鄰洗脫的前體而言是普通碎片的任何特征在顯著局部最小值處被分裂為單獨特征。在大約相同的時間達到達洗脫頂點的特征被分組在一起。基于頂點強度,特征首先被分類。以最強的碎片開始,創(chuàng)建了頂點周圍的離散時間窗口。然后將具有這個窗口內(nèi)的頂點的所有特征)分組在一起。這個窗口的寬度被設(shè)置為包括具有≥頂點峰強度96%的強度的所有峰??紤]到復(fù)雜的背景,更保守的標準被用于尿液藥物加入實驗中的譜圖的提取。這里,時間窗口被設(shè)置為包括具有≥頂點峰強度99%的強度的峰。在特征分組后,為每個組創(chuàng)建新的譜圖,并且該譜圖用代表組中的每個特征峰填充。峰m/z值和強度值分別被設(shè)置為等于相應(yīng)的特征中的所有峰的強度加權(quán)m/z平均值和在頂點處的強度。
通過譜圖匹配的小分子識別。對于所分析的小分子的化合物識別通過將解卷積高分辨率譜圖與存在于nist12ms/ei庫的單位分辨參考譜圖進行比較而被歸屬。通過nistms搜索2.0程序,庫中的所有212961個單位分辨參考譜圖被提取為.jdx文件,并被轉(zhuǎn)換為適合于與獲取的gc-軌道離子阱譜圖進行匹配的格式。通過結(jié)合落入相同的標稱質(zhì)量范圍內(nèi)的峰的強度,創(chuàng)建每個高分辨率譜圖的偽單位分辨副本。標稱質(zhì)量值被報道為峰值m/z,并且所有強度值相對于譜圖的基峰(設(shè)置為999)被歸一化。為計算實驗譜圖和參考譜圖之間的相似度,使用了加權(quán)點積計算。首先,譜圖中的所有峰使用以下文獻中報道的歸一化因子定比例(scale):25
m/z歸一化的=m/z測定的×1.3
強度歸一化的=強度測定的0.53
相同的歸一化被應(yīng)用于所有參考譜圖。以下點積等式被用來測定譜圖相似度:
雖然簡單,但是這種方法對于檢索具有類似于實驗得到的譜圖的斷裂模式的候選化合物是完全勝任的。為盡可能多地增加搜索空間,所有參考譜圖與運行時間期間獲得的gc-軌道離子阱譜圖的每個單位分辨副本進行匹配。報道的所有化合物利用nist數(shù)據(jù)庫中的參考譜圖產(chǎn)生了可信的譜圖匹配。一些分析的化合物不產(chǎn)生可信譜圖匹配,這是由于數(shù)據(jù)庫中缺乏參考譜圖,或者是由于所討論的化合物沒有反饋在前40名命中物中的正確匹配。
理論碎片產(chǎn)生。每個候選化合物的一組理論碎片是通過從包含于母體化學(xué)式的集合產(chǎn)生的原子的所有非重復(fù)組合而產(chǎn)生的。每個原子的豐度最高的同位素被使用,除了溴和氯。79br和81br分別具有0.5069和0.4931的天然同位素豐度。類似地,35cl和37cl具有0.7576和0.2424的天然同位素豐度。對于含有溴或者氯的每個碎片,產(chǎn)生額外的變體,其中較重的同位素被交換為其較輕的對應(yīng)物。對于那些含有多個溴和/或氯原子的碎片,此過程以組合的方式被重復(fù)。對于含有集合{12c,32s,28si}中原子的那些候選物,在碎片/峰匹配過程中基于具體問題具體處理而進行額外的同位素碎片的產(chǎn)生。
碎片/峰匹配。假定ei-gc/ms譜圖中所有碎片峰都是自由基陽離子。因此,電子的質(zhì)量從候選物集合中的每個碎片的單一同位素質(zhì)量減去。以gc-軌道離子阱譜圖中最小的峰開始,發(fā)現(xiàn)落入以峰的測定m/z為中心的+/-10ppm的公差范圍內(nèi)的碎片。如果沒有碎片存在于該范圍內(nèi),算法移動到下一最大峰并重復(fù)該過程。如果在該范圍內(nèi)發(fā)現(xiàn)單個碎片,含有取代的3c、33s、34s、29si或30si原子的同位素變體在合適的情況下被產(chǎn)生,并被添加到候選碎片的列表中。如果在允許的公差范圍內(nèi)發(fā)現(xiàn)多個碎片,則獨立地評價每個碎片,以確定多少額外的峰/信號可以被匹配。導(dǎo)致最大數(shù)量的額外匹配信號的碎片被假定為是正確的,并且取代的同位素碎片被加入到候選碎片列表中。儲存了具有匹配碎片的所有峰。在考慮所有峰都之后,反饋了通過如下公式計算的與碎片匹配的總離子流:
∑(mz×強度)注解的/∑(mz×強度)觀測的。
該評分計算被認為是合適的,這是因為它為更大的離子賦予了額外的權(quán)重,與更小質(zhì)量的離子相比,這些更大的離子本身對于給定的前體是更有特征性的。從概念上講,相較于能在200m/z產(chǎn)生碎片的分子,所存在的理論上能在300m/z產(chǎn)生碎片的分子更少。
參考文獻
1.westerhoff,p.&yoon,y.fateofendocrine-disruptor,pharmaceutical,andpersonalcareproductchemicalsduringsimulateddrinkingwatertreatmentprocesses.environ.sci.technol.39,6649–6663(2005).
2.tareke,e.&rydberg,p.analysisofacrylamide,acarcinogenformedinheatedfoodstuffs.j.agric.foodchem.4998–5006(2002).at<http://pubs.acs.org/doi/abs/10.1021/jf020302f>
3.kataoka,h.,lord,h.l.&pawliszyn,j.applicationsofsolid-phasemicroextractioninfoodanalysis.j.chromatogr.a880,35–62(2000).
4.yang,c.etal.comprehensivemassspectrometricmappingofthehydroxylatedaminoacidresiduesoftheα1(v)collagenchain.j.biol.chem.287,40598–610(2012).
5.fiehn,o.,kopka,j.&
6.goodacre,r.,vaidyanathan,s.,dunn,w.b.,harrigan,g.g.&kell,d.b.metabolomicsbynumbers:acquiringandunderstandingglobalmetabolitedata.trendsbiotechnol.22,245–52(2004).
7.allen,j.etal.high-throughputclassificationofyeastmutantsforfunctionalgenomicsusingmetabolicfootprinting.nat.biotechnol.21,692–6(2003).
8.stein,s.anintegratedmethodforspectrumextractionandcompoundidentificationfromgaschromatography/massspectrometrydata.j.am.soc.massspectrom.0305,(1999).
9.fiehn,o.extendingthebreadthofmetaboliteprofilingbygaschromatographycoupledtomassspectrometry.trendsanalyt.chem.27,261–269(2008).
10.fiehn,o.,kopka,j.,trethewey,r.n.&willmitzer,l.identificationofuncommonplantmetabolitesbasedoncalculationofelementalcompositionsusinggaschromatographyandquadrupolemassspectrometry.anal.chem.72,3573–3580(2000).
11.nistmassspectrallibrary.(2012).
12.wileyregistryofmassspectraldata.(2010).
13.lewis,s.,kenyon,c.n.,meili,j.&burlingame,a.l.highresolutiongaschromatographic/real-timehighresolutionmassspectrometricidentificationoforganicacidsinhumanurine.anal.chem.51,1275–1285(1979).
14.peterson,a.c.,balloon,a.j.,westphall,m.s.&coon,j.j.developmentofagc/quadrupole-orbitrapmassspectrometer,partii:newapproachesfordiscoverymetabolomics.anal.chem.86,10044–51(2014).
15.peterson,a.c.etal.developmentofagc/quadrupole-orbitrapmassspectrometer,parti:designandcharacterization.anal.chem.86,10036–43(2014).
16.peterson,a.c.,mcalister,g.c.,quarmby,s.t.,griep-raming,j.&coon,j.j.developmentandcharacterizationofagc-enabledqlt-orbitrapforhigh-resolutionandhigh-massaccuracygc/ms.anal.chem.82,8618–28(2010).
17.wolf,s.,schmidt,s.,müller-hannemann,m.&neumann,s.insilicofragmentationforcomputerassistedidentificationofmetabolitemassspectra.bmcbioinformatics11,148(2010).
18.hill,d.w.,kertesz,t.m.,fontaine,d.,friedman,r.&grant,d.f.massspectralmetabonomicsbeyondelementalformula:chemicaldatabasequeryingbymatchingexperimentalwithcomputationalfragmentationspectra.anal.chem.80,5574–82(2008).
19.kerber,a.,laue,r.,meringer,m.&varmuza,k.molgen-ms:evaluationoflowresolutionelectronimpactmassspectrawithmsclassificationandexhaustivestructuregeneration.adv.massspectrom15,939–940(2001).
20.matsuda,f.etal.assessmentofmetabolomeannotationquality:amethodforevaluatingthefalsediscoveryrateofelementalcompositionsearches.plosone4,e7490(2009).
21.michalski,a.etal.massspectrometry-basedproteomicsusingqexactive,ahigh-performancebenchtopquadrupoleorbitrapmassspectrometer.mol.cell.proteomics10,m111.011015(2011).
22.olsen,j.vetal.adualpressurelineariontraporbitrapinstrumentwithveryhighsequencingspeed.mol.cell.proteomics8,2759–69(2009).
23.second,t.p.etal.dual-pressurelineariontrapmassspectrometerimprovingtheanalysisofcomplexproteinmixtures.anal.chem.81,7757–65(2009).
24.solidphaseextractionapplicationsmanual.42–44(2008).at
25.kim,s.,koo,i.,wei,x.&zhang,x.amethodoffindingoptimalweightfactorsforcompoundidentificationingaschromatography-massspectrometry.bioinformatics28,1158–63(2012).
關(guān)于通過引用的結(jié)合與變體的聲明
貫穿本申請引用的所有參考文獻,例如包括頒發(fā)的或授權(quán)的專利或等同物的專利文件;專利申請公開;和非專利文獻文件或其他來源的材料通過引用他們的全部內(nèi)容被到結(jié)合到本文中,就好像通過引用而單獨并入,所引用的程度為每個參考至少部分不與本申請中的公開內(nèi)容不一致(例如除了參考不一致的部分,部分不一致的參考通過引用而被結(jié)合)。
本文已使用的術(shù)語和表達被用作描述而非限制的術(shù)語,并且不旨在使用這樣的術(shù)語和表達來排除所示出和描述的特征的任何等同物或其部分,但認識到在所要求的本發(fā)明的范圍內(nèi)的各種修改是可能的。因此,應(yīng)該理解盡管本發(fā)明通過優(yōu)選實施方式具體公開了,但是示例性實施方式和可選的特征、修改和本文所公開的構(gòu)思的變體可以被本領(lǐng)域技術(shù)人員采取,并且這樣的修改和變體被認為是在如所附的權(quán)利要求所限定的本發(fā)明的范圍之內(nèi)。本文提供的具體實施方式是本發(fā)明的有用的實施方式的實施例,并且對本領(lǐng)域技術(shù)人員來說顯而易見的是可以使用大量本發(fā)明中闡述的設(shè)備、設(shè)備部件、方法步驟的變體來進行本發(fā)明。正如對本技術(shù)領(lǐng)域技術(shù)人員將是顯而易見的,對于本方法有用的方法和裝置可包括大量可選組合物和處理元件及步驟。
當本文公開一組取代基時,應(yīng)該理解單獨地公開了該組的所有各個成員和所有子組,包括組成員的任何異構(gòu)體、對映異構(gòu)體以及非對映異構(gòu)體。當在本文使用馬庫什組或其他分組時,本公開旨在單獨地包括該組所有各個成員以及該組所有可能的組合和子組合。當在本文中在例如在分子式或化學(xué)名稱中未指明該化合物的特別異構(gòu)體、對映異構(gòu)體或非對映異構(gòu)體,的情況下描述化合物時,該描述旨在包括單獨地或以任何組合的方式描述的化合物的每個異構(gòu)體和對映異構(gòu)體。此外,除非另有規(guī)定,本文所公開的化合物的所有同位素變體旨在被本公開所包含。例如,應(yīng)當理解,在所公開的分子中的任何一個或多個氫可以用氘或氚取代。分子的同位素變體在對于分子測試中和在與分子或其應(yīng)用相關(guān)的化學(xué)和生物研究中廣泛地被用作標準品。用于制造這種同位素變體的方法在本領(lǐng)域中是公知的。化合物的具體名稱旨在是示例性的,因為公知的是本領(lǐng)域普通技術(shù)人員可以以不同的方式命名相同的化合物。
必須注意,如本文和所附權(quán)利要求書中所使用的,單數(shù)形式“一個”,“一種”,和“該”包括復(fù)數(shù)指代,除非上下文另有明確說明。因此,例如,提及“細胞”包括本領(lǐng)域技術(shù)人員所公知的多個這樣的細胞及其等同物,等等。同樣,術(shù)語“一個”(或“一種”),“一個或多個”和“至少一個”在本文中可以互換使用。還應(yīng)當注意的是,術(shù)語“包括”,“包含”,和“具有”可以互換使用。表達“權(quán)利要求xx-yy中的任意的”(其中xx和yy指的是權(quán)利要求的編號)旨在以擇一的形式提供在多項從屬權(quán)利要求,并且在一些實施方式中與表達“如權(quán)利要求xx-yy中的任一項”是可互換的。
除非另有定義,本文使用的所有技術(shù)和科學(xué)術(shù)語具有本發(fā)明所屬的本領(lǐng)域普通技術(shù)人員通常所理解的含義。雖然類似于或等同于本文所描述的任何方法和材料可以在實踐中使用或可用于測試本發(fā)明,現(xiàn)描述了優(yōu)選的方法和材料。本文任何事物均不被解釋為承認本發(fā)明無權(quán)借助在先發(fā)明早于這樣的公開。
本文所描述的或舉例說明的成分的每種制劑或組合可用于實踐本發(fā)明,除非另有說明。
每當在說明書中給定一范圍,例如,溫度范圍、時間范圍或成分或濃度范圍,所有包含于給定的范圍中的所有中間范圍和子范圍及所有單個值意在包括在本公開中。如本文所所用的,范圍具體包括作為范圍的端點值所提供的值。例如,1至100的范圍具體包括端點值1和100。應(yīng)該理解,包含于本文描述中的范圍或子范圍中的任何子范圍或各個數(shù)值可以被本文的權(quán)利要求排除。
如本文所使用的,“包括”與“包含”、“含有”或“特征在于”是同義的,并且是包含性的或開放式的,并且不排除另外的、未陳述的要素或方法步驟。如本文中所使用的,“由......組成”排除任何在權(quán)利要求的要素中未指明的要素、步驟或成分。如本文所使用的,“基本上由......組成”不排除不實質(zhì)上影響權(quán)利要求的基本性質(zhì)和和新穎性的材料或步驟。在本文的每一種情況下,任何術(shù)語“包括”、“基本上由......組成”和“由......組成”可以用其他兩個術(shù)語替換。本文舉例描述的本發(fā)明在缺少本發(fā)明未具體公開的任何一種或多種元素、一種或多種限制的情況下可能被適當?shù)貙嵤?/p>
本領(lǐng)域普通技術(shù)人員將理解,除了具體例舉的那些,在實踐本發(fā)明中還可以采用起始原料、生物材料、試劑、合成方法、純化方法、分析方法、測定方法以及生物方法,而無需采取過度的實驗。本發(fā)明旨在包括所有本領(lǐng)域公知的任何這樣的材料和方法的功能等同物。已采用的術(shù)語和表達被用作描述的術(shù)語而非限制,并且不旨在使用這樣的術(shù)語和表達來排除所示出和描述的特征的任何等同物或其部分,但認識到,在所要求的本發(fā)明的范圍內(nèi)的各種修改是可能的。因此,應(yīng)當理解,雖然本發(fā)明已通過優(yōu)選實施方式和可選特征具體公開,但是本文所公開的構(gòu)思的修改和變體可以被本領(lǐng)域技術(shù)人員采取,并且這樣的修改和變體被認為是在如所附的權(quán)利要求所限定的本發(fā)明的范圍之內(nèi)。