序列索引方法及系統(tǒng)的制作方法

文檔序號：6550479閱讀：169來源：國知局

專利名稱：序列索引方法及系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及一種序列索引方法和系統(tǒng)，更特別地，涉及一種對應于包括在一個專利文件中的序列號碼來索引序列的方法和系統(tǒng)。
背景技術：
隨著因特網(wǎng)的發(fā)展，已知著幾種通過使用關鍵詞在數(shù)據(jù)庫中檢索數(shù)據(jù)或文件的方法。為了獲得更好的檢索結(jié)果，已進行了積極的研究，以通過具體化自然語言處理系統(tǒng)來更容易更準確地處理所需的內(nèi)容。
然而，難于以傳統(tǒng)方法檢索文件的加密序列，例如基因信息。由于基因序列使用有重復特征的字母表進行加密，并包括至少10個至最多超過10萬的字符串，因此目前正開發(fā)一些關于檢索基因序列的方法的算法。公知的方法包括BLAST、FASTA等等。這些方法比較已知基因序列與其它在數(shù)據(jù)庫中注冊的比較基因序列之間的相似性的量。
隨著人類染色體組項目的完成以及生物技術的快速發(fā)展，在研究者分析并理解基因的作用的時產(chǎn)生大量的附加價值。為了保護基因的權(quán)利，所有國家都承認基因序列的專利權(quán)。
隨著要求基因序列的專利權(quán)，主要在世界知識產(chǎn)權(quán)組織(WIPO)、美國、日本和歐洲等，在說明書中統(tǒng)一了序列描述，以便快速準確地審查序列。
然而，如果在文件中描述這種序列，由于基因序列的特性，該文件就要有幾十到幾百頁。因此，在搜集與基因序列相關的專利信息時，需要花費長時間來分析大量專利。所以，需要一種自動分類方法。然而，如上所述，在專利文件數(shù)據(jù)庫中檢索基因序列時，傳統(tǒng)的檢索方法需要相當長的時間并且難以獲得有價值的結(jié)果。
因此，當檢索在專利文件中所描述的基因序列并分析其專利權(quán)時，提取基因序列的過程是非常重要的。然而，難以對未分類的文檔進行自動化，并在自動分類處理中出現(xiàn)錯誤的可能性較高。特別是，傳統(tǒng)的自動文檔索引方法，例如倒向文件(inverted file)、后綴陣列(suffix array)和署名文件具有缺陷，它的實施較復雜并且操作的精確性較低。
傳統(tǒng)的檢索方法或相似性比較方法在獲取所需的專利時效率和精確性較低。
作為替代，世界各國的專利局都在嘗試索引以便檢索基因序列。然而，由于索引工作還處于開始階段并且是為便于申請和審查而設計，而不是為專利檢索而設計，所以專利檢索不能令人滿意。

發(fā)明內(nèi)容
本發(fā)明提供一種序列索引方法和系統(tǒng)，其能以一種典型的表示方法，快速精確地提取并索引在注冊或者公布的專利文件中包含的序列信息。
另外，本發(fā)明提供一種用于記錄程序的計算機可讀的記錄介質(zhì)，在計算機中，該程序執(zhí)行一種序列索引方法，在該方法中能以一種典型的表示方法，快速精確地提取并索引在注冊或者公布的專利文件中包含的序列信息。
根據(jù)本發(fā)明的一個方面，提供一種序列索引方法，它包括基于專利文件所注冊的國家的典型表達方式來對具有序列號碼和序列清單的專利文件進行語法分析；首先從經(jīng)語法分析的專利文件里提取序列號碼和序列清單；以及從所提取的序列清單中二次提取與所提取的序列號碼相應的序列。
根據(jù)本發(fā)明的另一方面，提供一種序列索引方法，它包括接收檢索專利文件的檢索詢問；基于該檢索詢問，從存儲至少一個專利文件的第一數(shù)據(jù)庫中檢索并獲取專利文件；首先從所獲取的專利文件中提取權(quán)利要求書的序列清單和序列號碼；以及從所提取的序列清單中二次提取與所提取的序列號碼相應的序列。
根據(jù)本發(fā)明的又一方面，提供一種序列索引系統(tǒng)，它包括文件獲取單元，用于獲取一個具有序列號碼和序列清單的專利文件；序列清單提取單元，用于基于該專利文件所注冊的國家的典型表達方式來從專利文件中提取序列清單；序列號碼提取單元，用于基于該專利文件所注冊的國家的典型表達方式來從專利文件中提取序列號碼；以及序列提取單元，用于從所提取的序列清單中提取與所提取的序列號碼相應的序列。

本發(fā)明的上述和其它的特征及優(yōu)點將通過參照附圖對示范性實施例的詳細描述，而變得更加顯而易見圖1A示出了根據(jù)本發(fā)明一個實施例的序列索引方法的流程圖；圖1B示出了根據(jù)本發(fā)明另一個實施例的序列索引方法的流程圖；圖2示出了根據(jù)本發(fā)明一個實施例的序列索引系統(tǒng)的構(gòu)成的示意圖；圖3示出了根據(jù)本發(fā)明另一個實施例的序列索引系統(tǒng)的構(gòu)成的示意圖；圖4示出了采用根據(jù)本發(fā)明的序列索引系統(tǒng)的整個系統(tǒng)的示意圖；圖5示出了通過連接到U.S.Patent & Trademark Office的因特網(wǎng)來提取序列號碼的實例的示意圖；圖6示出了提取圖5中所提取的序列號碼“SEQ ID NO108”的序列清單的一個實例的示意圖；圖7示出了在數(shù)據(jù)庫中存儲相應于序列號碼的序列清單的一個實例的示意圖；以及圖8示出了為用戶顯示通過序列索引系統(tǒng)而索引到的序列信息的一個實例的示意圖。
詳細說明優(yōu)選實施例為了獲得對本發(fā)明、本發(fā)明的優(yōu)點以及通過實施本發(fā)明所達到的目的的充分理解，將參考用于示出本發(fā)明的優(yōu)選實施例的附圖進行描述。
在下文中，將通過參考附圖解釋本發(fā)明的優(yōu)選實施例來描述本發(fā)明。相同的參考數(shù)字表示相同的部分。
圖1A是示出根據(jù)本發(fā)明一個實施例的序列索引方法的流程圖。
參考圖1A，首先對專利文件進行語法分析(S100)。該專利文件包括說明書、權(quán)利要求書、必要的圖、必要的序列清單和與該專利文件相關的文獻(bibliographic)數(shù)據(jù)。專利文件所附的序列清單是基于每個國家所確定的預定格式來準備的，或者是基于WIPO的標準形式來準備的。
這里，序列清單指的是專利申請所附的說明書的一部分，或指的是在申請?zhí)峤缓笤偬峤坏奈募囊徊糠?。序列清單指的是對基因序列的詳細的公開，即核酸和氨基酸序列的序列，以及其它可得到的信息。序列號碼，作為序列的標識，是給予序列清單中的每個序列的整數(shù)。
通常，序列清單的序列基于發(fā)明的詳細說明、權(quán)利要求書或附圖中的序列標識來引用，并在其前面加上“SEQ ID NO”。序列引用的方法是相似的，但是可按照每個國家的專利準備方法而不同。在這種情況下，本發(fā)明的序列索引方法是按照每個國家的準備方法來具體化的。
可以使用超文本標記語言(HTML)、標準普通標記語言(SGML)和多種文件表示方法來準備專利文件。例如，如果專利文件是以HTML格式提供的，則通過移走HTML標記而將專利文件轉(zhuǎn)換成字符串。將大型的專利文件轉(zhuǎn)換成至少兩個字符串。并且，從專利文件中移走不必要的空白，從而降低字符串的大小。
此外，對于被轉(zhuǎn)換成至少一個字符串的專利文件，執(zhí)行象面向詞(word-oriented)和面向句子(sentence-oriented)的語法分析那樣的語法分析處理。
在這之后，從所轉(zhuǎn)換的專利文件中提取以典型格式描述的序列號碼和序列清單(S105)。通常，描述包含“SEQ ID NO”的序列號碼，并且將序列清單作為一個單獨段落附加在說明書上。此外，采用說明書、權(quán)利要求書和附圖中的典型表達方式來描述序列號碼。假如想要檢索涉及權(quán)利要求書的序列號碼，即涉及到專利權(quán)的范圍的序列號碼，則提取包含在權(quán)利要求書里的序列號碼。將提取的序列號碼和序列清單存儲在每個字符串變量中。
相同的序列號碼可在專利文件中重復提取，甚至能在權(quán)利要求書中提取。因此，基于相同提取的序列號碼而從序列清單中重復提取相同的序列的效率很低。所以，為了提高提取的效率，相同的序列號碼只提取一次序列。
將所提取的序列清單被檢索，以便將與所提取的序列號碼相應的序列可提取(S110)。換句話說，每個所提取的序列號碼都以每個字符串變量來存儲。每個序列都基于存儲在每個字符串變量中的序列號碼來從所提取的序列清單中提取?；蛘撸灰崛×诵蛄刑柎a，序列就可以從序列清單中提取。
將所提取的序列索引，并與專利文件的文獻數(shù)據(jù)一起存儲到數(shù)據(jù)庫中(S115)。專利文件的文獻數(shù)據(jù)包含申請日期、申請人、專利所有人、專利期、發(fā)明名稱等等。因此，在權(quán)利要求中提取與序列號碼相應的序列后，將所提取的序列進行索引，并與專利文件的文獻數(shù)據(jù)一起存儲到數(shù)據(jù)庫中，然后，就能從數(shù)據(jù)庫中檢索和提供用戶需要的序列信息。
圖1B是示出根據(jù)本發(fā)明另一個實施例的序列索引方法的流程圖。
參考圖1B，輸入檢索專利文件的檢索詢問(S150)?；谳斎氲臋z索詢問來檢索用于在其中存儲專利文件的數(shù)據(jù)庫，以獲得相應的專利文件(S155)。作為用來獲得專利文件的檢索詢問，可以是專利號、申請?zhí)?、專利?quán)人、申請的公開號、注冊公告號等等。
例如，如果使用專利權(quán)人作為檢索詢問來檢索專利文件，那么就可以在數(shù)據(jù)庫中提供多個相關的專利文件。在這種情況下，對這些專利文件按序進行索引。
從所獲得的專利文件中提取包含在權(quán)利要求書中的序列清單和序列號碼(S160)。另外，從所提取的序列清單中提取與所提取的序列號碼相應的序列(S165)。提取序列號碼、序列清單以及序列的處理過程已在圖1A中詳細描述了。
由于權(quán)利要求書包括了一個以上的序列號碼，因此在數(shù)目上對從權(quán)利要求書中提取的序列號碼進行計數(shù)(S170)。這時，相同的序列號碼不再計數(shù)。而且，可在數(shù)目上對包含在整個專利文件中的序列號碼進行計數(shù)。
將所提取的序列、專利文件的文獻數(shù)據(jù)以及序列號碼的數(shù)目索引，并與序列號碼一起存儲在數(shù)據(jù)庫中(S175)。經(jīng)索引并被存儲在數(shù)據(jù)庫中的序列信息根據(jù)用戶的請求來提供(S180)。用戶可以基于序列號碼來請求存儲在數(shù)據(jù)庫中的序列信息?；蛘?，用戶可以基于作為文獻數(shù)據(jù)的專利權(quán)人來請求存儲在數(shù)據(jù)庫中的序列信息。
圖2是示出根據(jù)本發(fā)明一個實施例的序列索引系統(tǒng)的構(gòu)成的示意圖。
參考圖2，序列索引系統(tǒng)包括輸入單元200、文件獲取單元210、第一數(shù)據(jù)庫220、第一提取單元230、第二提取單元240、第二數(shù)據(jù)庫250和顯示單元260。第一提取單元包括序列號碼提取單元和序列清單提取單元。
輸入單元200接收來自試圖檢索專利文件的序列信息的用戶的檢索詢問。文件獲取單元210基于所接收的檢索詢問，檢索存儲著該專利文件的第一數(shù)據(jù)庫220，以獲得相應的專利文件。例如，如果輸入單元200接收專利號、申請?zhí)栆约皩＠麢?quán)人中的任意一個作為檢索詢問，文件獲取單元210就基于該專利號、申請?zhí)柣驅(qū)＠麢?quán)人來檢索第一數(shù)據(jù)庫220。
將第一數(shù)據(jù)庫220提供給每個國家的專利局，或者安裝在一個單獨的服務器上來提供所有的專利文件。例如，如果要基于專利號來檢索美國專利商標局(USPTO)的專利文件，那么用戶就要通過作為USPTO的專利檢索網(wǎng)址的統(tǒng)一資源定位符(URL)來建立連接，然后獲得與該專利號相應的專利文件。
而且，文件獲得單元210對從第一數(shù)據(jù)庫單元220中提取的專利文件進行語法分析。例如，如果專利文件是以HTML來準備的，那么就在HTML標記、段落之間的空白等等從該專利文件中移走之后，將該專利文件轉(zhuǎn)換為字符串。而且，如果該專利文件是以預定的方法來準備的，并包含依賴于該方法的標記等等，那么就在從該專利文件中移走這些標記之后，將該專利文件轉(zhuǎn)換為字符串。
第一提取單元230從由文件獲取單元210所獲得的專利文件中提取序列號碼和序列清單。例如，第一提取單元230使用“SEQ ID NO”從被轉(zhuǎn)換為字符串的專利文件中提取序列號碼。由于序列號碼的表示方法隨國家不同而不同，所以應以每個國家的典型表示方法來提取序列號碼。第一提取單元230將所提取的序列號碼和序列清單存儲在每個字符串變量中。如果要索引與權(quán)利要求書相關的序列信息，第一提取單元230就提取存儲在權(quán)利要求書中的序列號碼。
第二提取單元240基于所提取的序列號碼，從所提取的序列清單中提取相應的序列。詳細地，第二提取單元240基于存儲在字符串變量中的序列號碼，檢索由第一提取單元230存儲在字符串變量中的序列清單，以提取與序列號碼相應的序列。另外，將序列號碼和與該序列號碼相應的序列存儲在第二數(shù)據(jù)庫250中。
顯示單元260將的經(jīng)索引的序列信息與文獻數(shù)據(jù)在一起顯示給用戶。可以使用打印機、監(jiān)視器等等來作為顯示單元260。
圖3是示出根據(jù)本發(fā)明另一個實施例的序列索引系統(tǒng)的構(gòu)成的示意圖。
參考圖3，序列索引系統(tǒng)包括權(quán)利要求提取單元310、序列號碼提取單元320、序列清單提取單元330、申請人提取單元340、序列號碼提取單元350和序列提取單元360。
權(quán)利要求提取單元310從專利文件300中提取權(quán)利要求312。權(quán)利要求提取單元310將具有權(quán)利要求312的權(quán)利要求書以字符串變量的方式來存儲。序列號碼提取單元350從所提取的權(quán)利要求312中提取序列號碼352至356。
序列號碼提取單元320對包含在專利文件300或權(quán)利要求312中的序列號碼進行計數(shù)。冗余的序列號碼不計數(shù)。
序列清單提取單元330提取包含在專利文件中的序列清單332。申請人提取單元340提取包含在專利文件300中的文獻數(shù)據(jù)。該文獻數(shù)據(jù)包括申請人信息、專利權(quán)人信息、專利號，等等。
序列提取單元360基于由序列號碼提取單元350提取的序列號碼352至356，來檢索由序列清單提取單元330提取的序列清單332，以提取相應的序列362至366。
圖4是示出采用根據(jù)本發(fā)明的序列索引系統(tǒng)的整個系統(tǒng)的示意圖。
參考圖4，本發(fā)明的序列索引系統(tǒng)410連接到至少一個終端400至404以及至少一臺檢索服務器420至424。檢索服務器420至424連接到至少一個數(shù)據(jù)庫430和432。
如果用戶經(jīng)由終端400至402輸入要檢索的專利號，序列索引系統(tǒng)410就連接到任何一臺檢索服務器420至424，來請求與該專利號相應的專利文件。檢索服務器420至424在數(shù)據(jù)庫430和432中檢索與該專利號相應的專利文件，以提取該專利文件并將所提取的專利文件傳送給序列索引系統(tǒng)410。
因此，序列索引系統(tǒng)410在數(shù)據(jù)庫430和432中提取并存儲序列號碼、序列清單、序列號碼的數(shù)目以及文獻數(shù)據(jù)。通過提取并索引那些沒有經(jīng)索引的專利文件、序列號碼等等而獲得的序列信息，可以存儲在同一數(shù)據(jù)庫中并進行管理，或者存儲在一個單獨的數(shù)據(jù)庫中并進行管理。
根據(jù)本發(fā)明一個實施例的序列索引系統(tǒng)410包括一個由MySQL組成的數(shù)據(jù)庫管理系統(tǒng)(DBMS)的數(shù)據(jù)庫表格和使用PERL編制的程序。此時，需要MySQL或具有與MySQL相應的功能的關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)，以及ActivePERL作為在先準備環(huán)境。需要PERL解釋器Windows家族操作系統(tǒng)(OS)、UNIX家族OS以及LINUX家族OS中的任何一個。而且，在因特網(wǎng)連接內(nèi)聯(lián)網(wǎng)的環(huán)境中，LAN連接RDMBS以及PERL可用在單獨的不同的系統(tǒng)中。在下文中，基于一篇U.S.專利文件來描述使用PERL來體現(xiàn)序列索引系統(tǒng)的一個實例。
如果序列索引系統(tǒng)使用PERL來體現(xiàn)，就將專利號作為自變量，這樣整個專利文本都可以字符串變量的存儲。通過典型表達方式從整個專利文本的字符串中提取權(quán)利要求書。返回所提取的權(quán)利要求書的整個文本。此時，用于提取權(quán)利要求的典型表達方式如下“WnClaimsWn((.|Wn)*)WnDescriptionWn”.
因此，通過典型表達方式從整個專利文本的字符串變量中提取序列號碼的數(shù)目，并且所提取的序列號碼的數(shù)目被分配給整數(shù)變量。這時，用于提取序列號碼的數(shù)目的典型表達方式如下“NUMBERWsOFWs(SEQWsIDWsNOS|SEQUENCES)Ws(.*)Wn”.
在下一個步驟中，通過典型表達方式從整個專利文本的字符串變量中提取序列清單，并返回所提取的序列清單。此時，用于提取序列清單的典型的表達方式如下“Ws+SEQUENCE LISTINGWn)).|Wn)*”.
通過典型表達方式從所提取的權(quán)利要求書的字符串變量中提取序列號碼。在那以后，執(zhí)行對所提取的序列號碼的冗余校驗和冗余碼移走，然后將所提取的序列號碼存儲在一個數(shù)組中，然后返回。這時，用于提取序列號碼的典型表達方式如下“SEQWs+IDWs+NO(Ws|(W.Ws))Ws*(
+)”在提取序列清單和序列號碼之后，通過采用存儲在數(shù)組中的序列號碼來準備的典型表達方式，從用于序列清單的字符串變量中提取與序列號碼相應的序列。另外，以字符串類型的型式返回所提取的序列。
為了從專利文件中提取文獻數(shù)據(jù)，通過典型表達方式從用于該專利文件的字符串變量中提取申請人信息，然后將所提取的申請人信息分配給字符串變量。之后，將所存儲的字符串變量返回。除申請人之外的例如專利文件的必要文獻數(shù)據(jù)，以相同方式來提取。此時，用于提取申請人信息的典型表達方式如下“AssigneeWn(Ws*)Wn(.*)Wn”將如上所述，專利號、申請人、序列數(shù)目、權(quán)利要求書中所描述的序列數(shù)目、權(quán)利要求書中所描述的序列清單等等提取并分配給變量。通過與數(shù)據(jù)庫連接，每個變量都通過SQL插入文本來作為數(shù)據(jù)庫的綁定參數(shù)輸入。
圖5至圖8是示出根據(jù)本發(fā)明的一個實施例的序列索引方法的每個處理的示意圖。
圖5是示出通過連接到U.S.Patent & Trademark Office的互聯(lián)網(wǎng)來提取字符串的一個實例的示意圖。在圖5中，示出了權(quán)利要求，序列號碼是以“SEQ ID NO”來區(qū)分的。權(quán)利要求書中包括四個序列號碼，但其中包含兩對相同的序列號碼。結(jié)果，可從該權(quán)利要求書中提取兩個序列號碼。
圖6是示出提取圖5中所提取的序列號碼“SEQ ID NO108”的序列清單的一個實例的示意圖，并示出了所提取的與該序列號碼相應的序列號碼和序列清單的信息。
圖7是示出在數(shù)據(jù)庫中存儲相應于序列號碼的序列清單的一個實例的示意圖。將與序列號碼相應的序列清單被引，并存儲在數(shù)據(jù)庫中，并且根據(jù)用戶的請求提供相應的序列清單。
圖8是示出為用戶顯示通過序列索引系統(tǒng)而索引到的序列信息的一個實例的示意圖。在從專利文件中提取序列號碼、序列清單、序列號碼的數(shù)目以及文獻數(shù)據(jù)之后，為用戶顯示結(jié)果數(shù)據(jù)。根據(jù)一種預定的輸出方法，序列信息將與合法人的信息一起進行表示，并為用戶顯示在屏幕或紙以及其它顯示單元上。此后，該序列信息存儲在數(shù)據(jù)庫中。
根據(jù)本發(fā)明，使用位置分析處理中的典型表達方式并在專利文件內(nèi)標記序列，來并發(fā)識別序列范圍，從而更精確快速地通過序列的提取、存儲及序列的表達方法來獲取序列信息。
而且，如果對通過因特網(wǎng)接收的專利文件依照序列號碼來執(zhí)行專利文件的檢索和分類工作，那么就能提供精確快速的檢索結(jié)果。
本發(fā)明的序列索引系統(tǒng)，起基于典型表達方式的專利文件中的序列分離器的作用，能夠與包括基因序列的其它數(shù)據(jù)庫相關聯(lián)，并且能夠為在與包含有獲得專利權(quán)的序列信息的基因序列的常規(guī)數(shù)據(jù)庫的聯(lián)合中的分析提供工具。
在權(quán)利要求書中指定的序列包括不同于常規(guī)基因序列的工業(yè)上可用的信息，或者包括作為疾病原因或者特殊變異狀態(tài)而知的序列信息。因此，本發(fā)明有利于分析序列的權(quán)利，以便為相關技術提出專利策略。
在基因序列的正常狀態(tài)與變異狀態(tài)(例如，在序列被插入、刪除以及替換的情況中，例如突變)的比較中，可以容易地獲取關于基因的功能的信息，并有助于開發(fā)診斷產(chǎn)品或發(fā)展醫(yī)學治療。因此，本發(fā)明能在短時間內(nèi)提取在權(quán)利要求書中指定的基因序列，并提供基因序列的合法人和使用的情況。所以，本發(fā)明有助于為相似的序列的權(quán)利提出專利策略。
另外，本發(fā)明的序列索引方法可用于在短時間內(nèi)大量提取并確定與疾病相關的序列或與特殊功能相關的序列，并且分析其權(quán)利以謀求商業(yè)用途。
本發(fā)明還可以具體化為計算機可讀記錄介質(zhì)上的計算機可讀代碼。計算機可讀記錄介質(zhì)是任何一種數(shù)據(jù)存儲設備，它能夠存儲此后可由計算機系統(tǒng)讀取的數(shù)據(jù)。這種計算機可讀記錄介質(zhì)的實例包括只讀存儲器(ROM)、隨機存取存儲器(RAM)、CD-ROM、磁帶、軟盤、光學數(shù)據(jù)存儲設備以及載波(例如經(jīng)由因特網(wǎng)的數(shù)據(jù)傳輸)。計算機可讀記錄介質(zhì)也可以分布在經(jīng)網(wǎng)絡耦合的計算機系統(tǒng)中，以便以分布的方式來存儲并執(zhí)行計算機可讀代碼。
盡管已參照示意性實施例詳盡地示出并描述了本發(fā)明，但本領域的普通技術人員可以理解，可以在不背離由權(quán)利要求所定義的本發(fā)明的精神和范圍的情況下，做出形式上和細節(jié)上的各種改變。
權(quán)利要求
1.一種序列索引方法，包括基于專利文件所注冊的國家的典型表達方式，來對具有序列號碼和序列清單的專利文件進行語法分析；從經(jīng)語法分析的專利文件里首次提取序列號碼和序列清單；以及從所提取的序列清單中二次提取與所提取的序列號碼相應的序列。
2.根據(jù)權(quán)利要求1的序列索引方法，其中專利文件是根據(jù)世界知識產(chǎn)權(quán)組織(WIPO)的序列清單的準備標準來準備的。
3.根據(jù)權(quán)利要求1的序列索引方法，其中對專利文件進行語法分析包括從用HTML準備的專利文件中移走HTML(超文本標記語言)標記和空白，然后將該專利文件轉(zhuǎn)換為字符串。
4.根據(jù)權(quán)利要求1的序列索引方法，其中首次提取包括從專利文件中提取權(quán)利要求書；從權(quán)利要求書中提取序列號碼；以及從專利文件中提取序列清單。
5.根據(jù)權(quán)利要求1的序列索引方法，其中首次提取包括在所提取的序列號碼中檢查冗余，以便移走冗余的序列號碼。
6.根據(jù)權(quán)利要求1的序列索引方法，還包括對所提取的序列號碼在數(shù)目上進行計數(shù)。
7.根據(jù)權(quán)利要求6的序列索引方法，其中對數(shù)目的計數(shù)包括對所提取的序列號碼中不冗余的序列號碼進行計數(shù)。
8.根據(jù)權(quán)利要求1的序列索引方法，還包括在從專利文件提取文獻數(shù)據(jù)之后，將與該文獻數(shù)據(jù)以及所提取的序列號碼相應的序列存儲在數(shù)據(jù)庫中。
9.根據(jù)權(quán)利要求8的序列索引方法，其中文獻數(shù)據(jù)包括專利權(quán)人、所提取的序列號碼的數(shù)目以及專利號。
10.根據(jù)權(quán)利要求1的序列索引方法，還包括顯示與所提取的序列號碼相應的文獻數(shù)據(jù)和序列。
11.一種序列索引方法，包括接收檢索專利文件的檢索詢問；基于該檢索詢問，從存儲至少一個專利文件的第一數(shù)據(jù)庫中檢索并獲取專利文件；從所獲取的專利文件中首次提取權(quán)利要求的序列清單和序列號碼；以及從所提取的序列清單中二次提取與所提取的序列號碼相應的序列。
12.根據(jù)權(quán)利要求11的序列索引方法，其中獲取專利文件包括連接到第一數(shù)據(jù)庫所在的網(wǎng)站的URL(統(tǒng)一資源定位符)，以便獲得與該檢索詢問相應的專利文件。
13.根據(jù)權(quán)利要求11的序列索引方法，還包括將與所提取的序列號碼相應的序列信息、該專利文件的文獻數(shù)據(jù)存儲在第二數(shù)據(jù)庫中。
14.根據(jù)權(quán)利要求13的序列索引方法，其中獲取專利文件包括如果與檢索詢問相應的專利文件的序列信息存在于第二數(shù)據(jù)庫中，就提供存儲在該第二數(shù)據(jù)庫中的序列信息。
15.根據(jù)權(quán)利要求11的序列索引方法，其中獲取專利文件包括通過將專利號、申請人以及專利權(quán)人中的任意一個用作檢索詢問來檢索專利文件。
16.一種序列索引系統(tǒng)，包括文件獲取單元，用于獲取具有序列號碼和序列清單的專利文件；序列清單提取單元，用于基于該專利文件所注冊的國家的典型表達方式來從專利文件中提取序列清單；序列號碼提取單元，用于基于該專利文件所注冊的國家的典型表達方式來從專利文件中提取序列號碼；以及序列提取單元，用于從所提取的序列清單中提取與所提取的序列號碼相應的序列。
17.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，其中序列號碼提取單元提取包含在該專利文件的權(quán)利要求書中的序列號碼。
18.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，其中文件獲取單元將移走了HTML標記和空白的HTML專利文件轉(zhuǎn)換為字符串。
19.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，還包括一個數(shù)據(jù)庫，用于存儲與所提取的序列號碼相應的基因序列，以及該專利文件的文獻數(shù)據(jù)。
20.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，還包括一個顯示單元，用于將與所提取的序列號碼相應的序列連同文獻數(shù)據(jù)一起顯示出來。
21.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，還包括一個輸入單元，用于接收檢索專利文件的檢索詢問，其中該文件獲取單元基于該檢索詢問，從存儲至少一個專利文件的第一數(shù)據(jù)庫中獲取該專利文件。
22.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，其中文件獲取單元連接到第一數(shù)據(jù)庫所在的URL，以便獲得與該檢索詢問相應的專利文件。
23.根據(jù)權(quán)利要求16的序列索引系統(tǒng)，還包括存儲與所提取的序列號碼相應的序列信息以及該專利文件的文獻數(shù)據(jù)的第二數(shù)據(jù)庫。
24.根據(jù)權(quán)利要求23的序列索引系統(tǒng)，其中如果與檢索詢問相應的專利文件的序列信息存在于第二數(shù)據(jù)庫中，文件獲取單元就提供存儲在該第二數(shù)據(jù)庫中的序列信息。
25.一種計算機可讀記錄介質(zhì)，記錄用于在計算機中執(zhí)行權(quán)利要求1或11的序列索引方法的程序。
全文摘要
一種序列索引方法，包括基于專利文件所注冊的國家的典型表達方式來對具有序列號碼和序列清單的專利文件進行語法分析；從經(jīng)語法分析的專利文件里首次提取序列號碼和序列清單；以及從所提取的序列清單中二次提取與所提取的序列號碼相應的序列。
文檔編號G06F19/28GK1684071SQ20051006979
公開日2005年10月19日申請日期2005年2月17日優(yōu)先權(quán)日2004年2月17日
發(fā)明者金技垠, 黃貞周申請人:三星電子株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：金技垠;黃貞周
技術所有人：三星電子株式會社
我是此專利的發(fā)明人

上一篇：搜尋結(jié)果的內(nèi)容可自動分類歸檔的方法
上一篇：測量靈敏度分布的測量方法和裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

根序列索引相關技術

根序列索引與pci規(guī)劃相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

序列索引方法及系統(tǒng)的制作方法