欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

標(biāo)識符檢索方法和設(shè)備的制作方法

文檔序號:6425376閱讀:316來源:國知局
專利名稱:標(biāo)識符檢索方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明的各實(shí)施方式涉及信息檢索領(lǐng)域,更具體地涉及用于標(biāo)識符檢索的方法與設(shè)備。
背景技術(shù)
在當(dāng)今的競爭時代,在商業(yè)等各個方面上獲取有效的競爭信息變得越來越重要,越來越多的公司在制定商業(yè)策略過程中考慮和綜合競爭信息。通常,人們通過市場調(diào)研人工地收集需要的競爭信息。隨著社會和信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)向用戶提供越來越多的信息,同時,用戶 也在向互聯(lián)網(wǎng)傳送越來越多的信息。許多信息是由文本來進(jìn)行組織的,例如新聞、介紹性文章、評論內(nèi)容等。這些文本信息中有相當(dāng)數(shù)量的內(nèi)容與產(chǎn)品、人名、機(jī)構(gòu)名等命名實(shí)體類別有關(guān)。例如,許多互聯(lián)網(wǎng)硬件或軟件網(wǎng)站的介紹性文章、評測性文章中都大量出現(xiàn)產(chǎn)品信肩、O然而,通過人工手動地從包含海量數(shù)據(jù)的互聯(lián)網(wǎng)上獲取公司的競爭信息是非常耗費(fèi)時間的,也是不切實(shí)際的。

發(fā)明內(nèi)容
例如,當(dāng)用戶希望知道A公司與哪些公司是競爭對手,或者希望知道A公司的某一產(chǎn)品與哪些其他產(chǎn)品形成競爭關(guān)系時,可能利用源標(biāo)識符來表示希望查詢的產(chǎn)品、并借助互聯(lián)網(wǎng)上的某些評論或介紹信息來檢索表示競爭產(chǎn)品的目標(biāo)標(biāo)識符。這時,如果僅僅通過人工來瀏覽互聯(lián)網(wǎng)上的海量數(shù)據(jù),是無法高效、準(zhǔn)確、迅速地完成這種檢索的。因此,目前需要一種能夠從網(wǎng)絡(luò)上的用戶生成的數(shù)據(jù)或者其他數(shù)據(jù)源高效、準(zhǔn)確、迅速地查找與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符的技術(shù)方案。在一個實(shí)施方式中,提供了一種標(biāo)識符檢索方法。該方法包括根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符;從數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔;以及根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在另一個實(shí)施方式中,提供了一種標(biāo)識符檢索設(shè)備。該設(shè)備包括提取裝置,被配置用于根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符;獲取裝置,被配置用于從數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔;以及選擇裝置,被配置用于根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。利用本發(fā)明各實(shí)施方式中的方法和設(shè)備,可以從網(wǎng)絡(luò)上的用戶生成的數(shù)據(jù)或者其他數(shù)據(jù)源高效、準(zhǔn)確、迅速地查找與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符,從而可以快速確定競爭對手或競爭產(chǎn)品,便于商業(yè)信息的獲取和商業(yè)策略的制定。通過以下對說明本發(fā)明原理的優(yōu)選實(shí)施方式的描述,并結(jié)合附圖,本發(fā)明的其他特征以及優(yōu)點(diǎn)將會是明顯的。


通過以下結(jié)合附圖的說明,并且隨著對本發(fā)明的更全面了解,本發(fā)明的其他目的和效果將變得更加清楚和易于理解,其中圖I是按照本發(fā)明的一個實(shí)施例的標(biāo)識符檢索方法的流程圖;圖2A和圖2B是按照本發(fā)明的另一個實(shí)施例的標(biāo)識符檢索方法的流程圖;圖3A和圖3B是按照本發(fā)明的一個實(shí)施例的可以作為簡檔的示例以及不可以作為簡檔的示例;圖4是按照本發(fā)明的一個實(shí)施例的標(biāo)識符檢索設(shè)備的框圖;以及圖5是適于實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)方框圖。在所有的上述附圖中,相同的標(biāo)號表示具有相同、相似或相應(yīng)的特征或功能。
具體實(shí)施例方式以下結(jié)合附圖對本發(fā)明的實(shí)施方式進(jìn)行更詳細(xì)的解釋和說明。應(yīng)當(dāng)理解,本發(fā)明的附圖及實(shí)施例僅用于示例性作用,并非用于限制本發(fā)明的保護(hù)范圍。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施方式的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為備選的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。為便于描述,首先對本說明書中所使用的術(shù)語作以解釋。I.數(shù)據(jù)源數(shù)據(jù)源可以是用戶生成的數(shù)據(jù)(UGC),例如網(wǎng)絡(luò)上對于某一產(chǎn)品或公司的評論信息、新聞、微博、博客、BBS等內(nèi)容,或者任何其他使得用戶能夠通過通信網(wǎng)絡(luò)瀏覽或查閱的內(nèi)容。另外,數(shù)據(jù)源也可以是本體庫(Ontology)。本體庫可以用于捕獲相關(guān)的領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯或概念,并從不同層次的形式化模式上給出這些概念和概念之間相互關(guān)系的明確定義。從語義上講,概念之間的關(guān)系例如可以是“part-of”,表達(dá)概念之間部分與整體的關(guān)系;“kind-of”表達(dá)概念之間的繼承關(guān)系;“instance_of ”表達(dá)概念的實(shí)例與概念之間的關(guān)系;“attribute_of ”表達(dá)某個概念是另一個概念的屬性。在實(shí)際應(yīng)用中,概念之間的關(guān)系不限于上面列出的4種關(guān)系,而是可以根據(jù)領(lǐng)域的具體情況定義相應(yīng)的關(guān)系。目前廣泛使用的本體庫例如有Wordnet、Framenet>GUM>SENSUS>Mikrokmos等。其中,Wordnet是基于心理語言規(guī)則的英文詞典,以synsets (在特定的上下文環(huán)境中可互換的同義詞的集合)為單位組織信息。Framenet是英文詞典,采用稱為Frame Semantics的描述框架,提供較強(qiáng)的語義分析能力,目前發(fā)展為FramenetII。GUM是面向自然語言處理,支持多語種處理,包括基本概念及獨(dú)立于各種具體語言的概念組織方式。SENSUS也是面向自然語言處理,為機(jī)器翻譯提供概念結(jié)構(gòu),包括7萬多個概念。Mikrokmos也是面向自然語言處理,支持多語種處理,采用一種語言中間的中間語目TMR表不知識。此外,數(shù)據(jù)源也可以是預(yù)先建立的產(chǎn)品知識庫,包括各種產(chǎn)品的品牌名稱、產(chǎn)品型號、所屬公司和產(chǎn)品類別以及其他產(chǎn)品屬性信息等。2.命名實(shí)體命名實(shí)體(以下簡稱“實(shí)體”)是文本中承載信息的重要語言單位,在信息抽取、機(jī)器翻譯、自動文摘等多個領(lǐng)域具有重要作用。命名實(shí)體識別(NER)主要是指識別出數(shù)據(jù)源中實(shí)體概念的命名性指稱項(xiàng)。命名實(shí)體的類別主要包括人名、地名、機(jī)構(gòu)名、時間、數(shù)量、產(chǎn)
P坐·PF[寸 ο3.標(biāo)識符標(biāo)識符可以表示一個實(shí)體,例如可以采用該實(shí)體的全稱、簡稱、英文縮寫等。標(biāo)識符可以是用戶直接輸入的,也可以是根據(jù)輸入的對象而根據(jù)數(shù)據(jù)源的得到的,還可以是根據(jù)命名實(shí)體識別來確定的。4.對象對象可以是與標(biāo)識符相對應(yīng)的實(shí)體。例如,當(dāng)標(biāo)識符表示產(chǎn)品時,對象可以表示該產(chǎn)品所隸屬于的公司,其可以是該公司的全稱、簡稱、英文縮寫等。標(biāo)識符可以與對象相對應(yīng)。在本發(fā)明中,一個標(biāo)識符可以與一個或多個對象相對應(yīng),而一個對象也可以與一個或多個標(biāo)識符與之相對應(yīng)。具體而言,一個產(chǎn)品可以隸屬于一個或多個公司,也可以是兩個公司的合做成果,也即這一個產(chǎn)品可以隸屬于兩個公司。。同時,一個公司可以具有一個或多個產(chǎn)品,所以一個公司可以有一個或多個產(chǎn)品與之相對應(yīng)。在本發(fā)明的一個實(shí)施方式中,描述了一種計(jì)算機(jī)實(shí)現(xiàn)的標(biāo)識符檢索方法。在該實(shí)施方式中,根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符,從該數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,根據(jù)所獲取的源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的標(biāo)識符來作為目標(biāo)標(biāo)識符。圖I是按照本發(fā)明的一個實(shí)施例的標(biāo)識符檢索方法的流程圖。在步驟S101,根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符。在該步驟中首先可以對數(shù)據(jù)源進(jìn)行命名實(shí)體識別,然后可以從識別出的命名實(shí)體中提取與源標(biāo)識符屬于相同實(shí)體類別的標(biāo)識符,作為候選標(biāo)識符。在步驟S102,從該數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔??梢栽跀?shù)據(jù)源中搜索與源標(biāo)識符有關(guān)的信息,以作為源標(biāo)識符的簡檔。例如,可以在源標(biāo)識符的簡檔中查找針對源標(biāo)識符的描述性信息,并可以使用針對源標(biāo)識符的描述性信息來更新源標(biāo)識符的簡檔??梢栽跀?shù)據(jù)源中搜索與候選標(biāo)識符有關(guān)的信息,以作為候選標(biāo)識符的簡檔。例如,可以在候選標(biāo)識符的簡檔中查找針對候選標(biāo)識符的描述性信息,并可以使用針對候選標(biāo)識符的描述性信息來更新候選標(biāo)識符的簡檔。在步驟S103,根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
可以通過計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度,并通過比較相似度與預(yù)定閾值,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的標(biāo)識符作為目標(biāo)標(biāo)識符。該預(yù)定閾值例如可以是根據(jù)經(jīng)驗(yàn)得到的,也可以是預(yù)設(shè)的,還可以是本領(lǐng)域技術(shù)人員根據(jù)任何其他適當(dāng)?shù)姆绞降玫降?。源?biāo)識符與候選標(biāo)識符的相似度可以通過多種方法實(shí)現(xiàn)。例如,可以提取源標(biāo)識符的簡檔中的關(guān)鍵詞(以下稱為“源關(guān)鍵詞”),并可以提取候選標(biāo)識符的簡檔中的關(guān)鍵詞(以下稱為“候選關(guān)鍵詞”),然后根據(jù)源關(guān)鍵詞和候選關(guān)鍵詞計(jì)算該相似度。又例如,可以將源標(biāo)識符的簡檔與候選標(biāo)識符的簡檔直接進(jìn)行比較,比如使用針對兩個語句的比較方法或者針對兩個段落之間的比較方法,來根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度。在根據(jù)本發(fā)明的另一個實(shí)施例中,可以基于源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,確定源標(biāo)識符與候選標(biāo)識符之間的時間順序;并且,當(dāng)該時間順序滿足預(yù)定要求時,可以從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。 然后,圖I的流程結(jié)束。在根據(jù)本發(fā)明的一個實(shí)施例中,在步驟SlOl之前還可以接收用戶輸入的源對象,在數(shù)據(jù)源中查找與該源對象相對應(yīng)的標(biāo)識符,并將該標(biāo)識符作為步驟S101-S103中的源標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,在步驟S103之后還可以確定與源標(biāo)識符相對應(yīng)的源對象和與目標(biāo)標(biāo)識符相對應(yīng)的目標(biāo)對象,并將所確定的源對象與所確定的目標(biāo)對象相關(guān)聯(lián)。圖2A和圖2B是按照本發(fā)明的另一個實(shí)施例的標(biāo)識符檢索方法的流程圖。在步驟S201,對數(shù)據(jù)源進(jìn)行命名實(shí)體識別。命名實(shí)體識別通常是指識別出數(shù)據(jù)源中實(shí)體概念的命名性指稱項(xiàng)。如前所述,命名實(shí)體的類別主要包括人名、地名、機(jī)構(gòu)名、時間、數(shù)量、產(chǎn)品等。所以,對數(shù)據(jù)源進(jìn)行命名實(shí)體識別之后,可以得到人名、地名、機(jī)構(gòu)名、時間、數(shù)量、產(chǎn)品等類型的實(shí)體。在步驟S202,從識別出的命名實(shí)體中提取與源標(biāo)識符屬于相同實(shí)體類別的標(biāo)識符,作為候選標(biāo)識符。在此步驟中,可以首先判斷源標(biāo)識符所屬的實(shí)體類別,然后根據(jù)該實(shí)體類別在步驟S201所識別出的實(shí)體中確定候選標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,假設(shè)源標(biāo)識符為“DB2”,其表示國際商業(yè)機(jī)器(IBM )公司的一個產(chǎn)品。由此,在步驟S202可以首先判斷出源標(biāo)識符“DB2”表示產(chǎn)品類別的實(shí)體。然后,可以從步驟S201所識別出的實(shí)體中查找屬于產(chǎn)品類別的實(shí)體,將查找出來的實(shí)體作為候選標(biāo)識符。在該實(shí)施例中,假設(shè)候選標(biāo)識符包括“SQLServer ”、“Windows ”和“iPhone ”這三個產(chǎn)品類別的實(shí)體。應(yīng)該注意的是,在本發(fā)明中,源標(biāo)識符并不局限于僅表示產(chǎn)品類別的實(shí)體,而是可適用于人名、地名、機(jī)構(gòu)名、時間、數(shù)量等其他類別的實(shí)體。例如,在根據(jù)本發(fā)明的另一個實(shí)施例中,假設(shè)源標(biāo)識符為“喬布斯”,此時源標(biāo)識符表示的是蘋果公司的領(lǐng)導(dǎo)者。由此,在步驟S202可以首先判斷出源標(biāo)識符“喬布斯”屬于人名類別的實(shí)體。然后,可以從步驟S201所識別出的實(shí)體中查找屬于人名類別的實(shí)體,將查找出來的實(shí)體作為候選標(biāo)識符。在該實(shí)施例中,假設(shè)候選標(biāo)識符包括“張三”、“比爾·蓋茨”、“奧巴馬”這三個人名類別的實(shí)體。在步驟S203,在數(shù)據(jù)源中搜索與源標(biāo)識符有關(guān)的信息,以作為源標(biāo)識符的簡檔。在本發(fā)明的實(shí)施方式中,與源標(biāo)識符“DB2”有關(guān)的信息可以是包含比較、列舉、并列、競爭等關(guān)系的語句、片段、段落、文章或其他類型的內(nèi)容。例如,根據(jù)“Such as DB2, A,B and C”這一表述可以確定DB2與A、B和C是并列或列舉關(guān)系,所以可以將包含“Such asDB2,A,B and C”這一表述的內(nèi)容確定為與源標(biāo)識符“DB2”有關(guān)的信息,從而作為源標(biāo)識符“DB2” 的簡檔。根據(jù)“DB2vs A” 或者“Which one is better, DB2 or A ”這兩種表述之一都可以確定DB2與A是比較或競爭關(guān)系,所以可以將包含“DB2vs A”或“Which one isbetter, DB2 or A ”的內(nèi)容也確定為與源標(biāo)識符“DB2”有關(guān)的信息,作為其簡檔。圖3A示出了可以作為簡檔的示例,其中包含“DB2 VS PostgreSQL”,這表示出 DB2與PostgreSQL是比較或競爭關(guān)系,從而該片段可以作為標(biāo)識符“DB2”的簡檔。另一方 面,如果將“PostgreSQL”也認(rèn)為是一個標(biāo)識符,則也可以將圖3A所示的片段作為標(biāo)識符“PostgreSQL” 的簡檔。圖3B示出了不可以作為簡檔的示例,其中“DB2”與“Sun Microsystems ”并不是并列或列舉關(guān)系;相反,二者具有較小的相關(guān)性,因此不將該片段作為“DB2”或者“SunMicrosystems ” 的簡檔。在根據(jù)本發(fā)明的一個實(shí)施例中,可以對步驟S203得到的源標(biāo)識符的簡檔進(jìn)行優(yōu)化,使得優(yōu)化后的簡檔更加有利于準(zhǔn)確確定與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。例如,可以通過在源標(biāo)識符的簡檔中查找針對源標(biāo)識符的描述性信息,并使用該描述性信息來更新源標(biāo)識符的簡檔,從而實(shí)現(xiàn)對源標(biāo)識符的簡檔的優(yōu)化。在源標(biāo)識符的簡檔中查找描述性信息的實(shí)現(xiàn)方法有多種。在一個例子中,可以首先對該簡檔執(zhí)行聚焦的(focused)命名實(shí)體識別或者其他過濾方法,將與源標(biāo)識符關(guān)系較小的內(nèi)容從簡檔中去除,從而得到該簡檔的一個子集SI ;然后用該子集SI作為描述性信息,以便替代源標(biāo)識符當(dāng)前的簡檔。在另一個例子中,可以首先對該簡檔執(zhí)行聚焦的命名實(shí)體識別或者其他過濾方法,將與源標(biāo)識符關(guān)系較小的內(nèi)容從簡檔中去除來得到子集SI ;之后,可以使用樸素貝葉斯、支撐向量積、KNN等分類算法從該子集SI中檢測出關(guān)于源標(biāo)識符的介紹性或者描述性內(nèi)容,也即子集S2 ;然后,用該子集S2作為描述性信息,以便替代源標(biāo)識符當(dāng)前的簡檔。在步驟S204,在數(shù)據(jù)源中搜索與候選標(biāo)識符有關(guān)的信息,以作為候選標(biāo)識符的簡檔。與步驟S203中的源標(biāo)識符的簡檔類似,與候選標(biāo)識符有關(guān)的信息可以是包含比較、列舉、并列、競爭等關(guān)系的語句、片段、段落、文章或其他類型的內(nèi)容。在上述實(shí)施例中,假設(shè)候選標(biāo)識符包括“SQLServer ”、“Windows ”、“ iPhone ”這三個產(chǎn)品類別的實(shí)體,則在步驟S204可以為這三個候選標(biāo)識符分別在數(shù)據(jù)源中搜索與之有關(guān)的信息,作為這三個候選標(biāo)識符的簡檔。在根據(jù)本發(fā)明的一個實(shí)施例中,可以對步驟S204得到的候選標(biāo)識符的簡檔進(jìn)行優(yōu)化,使得優(yōu)化后的簡檔更加有利于準(zhǔn)確確定與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。例如,可以通過在候選標(biāo)識符的簡檔中查找針對候選標(biāo)識符的描述性信息,并使用該描述性信息來更新候選標(biāo)識符的簡檔,從而實(shí)現(xiàn)對候選標(biāo)識符的簡檔的優(yōu)化。在候選標(biāo)識符的簡檔中查找描述性信息的實(shí)現(xiàn)方法有多種。在一個例子中,可以首先對該簡檔執(zhí)行聚焦的命名實(shí)體識別或者其他過濾方法,將與候選標(biāo)識符關(guān)系較小的內(nèi)容從簡檔中去除,從而得到該簡檔的一個子集Si;然后用該子集SI作為描述性信息,以便替代候選標(biāo)識符當(dāng)前的簡檔。在另一個例子中,可以首先對該簡檔執(zhí)行聚焦的命名實(shí)體識別或者其他過濾方法,將與候選標(biāo)識符關(guān)系較小的內(nèi)容從簡檔中去除來得到子集Si ;之后,可以使用樸素貝葉斯、支撐向量積、KNN等分類算法從該子集SI中檢測出關(guān)于候選標(biāo)識符的介紹性或者描述性內(nèi)容,也即子集S2 ;然后,用該子集S2作為描述性信息,以便替代候選標(biāo)識符當(dāng)前的簡檔。在步驟S205,提取源標(biāo)識符的簡檔中的源關(guān)鍵詞??梢岳帽绢I(lǐng)域已知的多種關(guān)鍵詞提取方法來完成步驟S205。已知的關(guān)鍵詞提取算法包括基于頻度或規(guī)則來提取關(guān)鍵詞,例如基于統(tǒng)計(jì)的方法和基于規(guī)則的方法。其中,基于統(tǒng)計(jì)的方法簡單易行不需要復(fù)雜的訓(xùn)練過程,比如基于詞共線的方法等;基于規(guī)則的方法例如采用樸素貝葉斯技術(shù)對短語離散的特征值進(jìn)行訓(xùn)練,獲取模型的權(quán)值。已知的關(guān) 鍵詞提取算法還包括基于語義詞性特征來提取關(guān)鍵詞,能從文檔中提取出較高正確率的關(guān)鍵詞,例如基于自然語言理解的方法,參見“張穎穎等,基于同義詞鏈的中文關(guān)鍵詞提取算法,計(jì)算機(jī)工程,2010,36 (19) :93-95”、“張虹,基于自動文本分類的關(guān)鍵詞抽取算法,計(jì)算機(jī)工程,2009, 35 (12) : 145-147,,、“Medelyan O, Witten I H. Thesaurus Based AutomaticKeyphrase Indexing[C]//Proc. of the Joint Conference on Digital Libraries. ChapelHill, NC,USA :[s.n.],2006 :296-297” 或“Ercan G, Ciekli I.Using Lexical Chainsfor Keyword Extraction[J]. Information Processing and Management,2007,43 (6)1705-1714” 等。在根據(jù)本發(fā)明的一個實(shí)施例中,當(dāng)源標(biāo)識符表示產(chǎn)品類別的實(shí)體時,源關(guān)鍵詞例如可以是源標(biāo)識符的簡檔中用于描述產(chǎn)品型號、系列、技術(shù)參數(shù)、出現(xiàn)頻率等信息中的一個或多個關(guān)鍵詞。在根據(jù)本發(fā)明的另一個實(shí)施例中,當(dāng)源標(biāo)識符表示人名類別的實(shí)體時,源關(guān)鍵詞例如可以是源標(biāo)識符的簡檔中用于描述職位、學(xué)歷、專業(yè)、任職期限、出現(xiàn)頻率等信息中的一個或多個關(guān)鍵詞。在步驟S206,提取候選標(biāo)識符的簡檔中的候選關(guān)鍵詞。該步驟的實(shí)現(xiàn)方法與步驟S205類似,不同之處僅在于,候選關(guān)鍵詞是候選標(biāo)識符的簡檔中的一個或多個關(guān)鍵詞,與源關(guān)鍵詞的來源不同。在步驟S207,根據(jù)源關(guān)鍵詞和候選關(guān)鍵詞,計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度??梢酝ㄟ^多種相似度計(jì)算方法來得到源標(biāo)識符與候選標(biāo)識符的相似度。在根據(jù)本發(fā)明的一個實(shí)施例中,根據(jù)步驟S205得到的源關(guān)鍵詞,可以得到由源關(guān)鍵詞組成的向量,稱為源向量;同樣,根據(jù)步驟S206得到的候選關(guān)鍵詞,可以得到由候選關(guān)鍵詞組成的向量,稱為候選向量。根據(jù)得到的源向量和候選向量,可以通過計(jì)算二者的夾角余弦來計(jì)算二者的相似度。另外,還可以通過利用戴斯系數(shù)、Chi-square、對數(shù)似然率或類Fl measure等相似度計(jì)算方法來計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度。
在步驟S208,判斷步驟S207計(jì)算出的相似度是否大于預(yù)定閾值。如果是,則進(jìn)入步驟S209 ;如果否,則流程結(jié)束??梢酝ㄟ^多種方式得到與步驟S207計(jì)算出的相似度進(jìn)行比較的預(yù)定閾值。例如,預(yù)定閾值可以根據(jù)經(jīng)驗(yàn)得到,也可以是預(yù)設(shè)的,還可以是本領(lǐng)域技術(shù)人員根據(jù)任何其他適當(dāng)?shù)姆绞降玫降?。在根?jù)步驟S202中所述的實(shí)施例中,假設(shè)源標(biāo)識符為IBM 公司的產(chǎn)品“DB2”,在步驟S202可以識別出的候選標(biāo)識符為“SQLServer ”、“Windows ”和“ iPhone ”。假設(shè)在步驟S207計(jì)算出源標(biāo)識符“DB2”與第一個候選標(biāo)識符“Windows ”的相似度為O. 2,源標(biāo)識符“DB2”與第二個候選標(biāo)識符“iPhone ”的相似度為O. 1,源標(biāo)識符“DB2”與第三個候選標(biāo)識符“SQLServer ”的相似度為O. 8。另外,假設(shè)在步驟S208中的預(yù)定閾值為O. 6,則在步驟S208可以判斷出第三個候選標(biāo)識符“SQLServer ”與源標(biāo)識符“DB2”的相似度大于預(yù)定閾值。 在步驟S209,將該候選標(biāo)識符選擇為與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。此時,可以確定出與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符是第三個候選標(biāo)識符“SQLServer ,,。在本發(fā)明中,兩個標(biāo)識符相“關(guān)聯(lián)”可以表示這兩個標(biāo)識符具有競爭關(guān)系、比較關(guān)系或者其他任何適當(dāng)?shù)念A(yù)定義關(guān)系。根據(jù)以上步驟,可以實(shí)現(xiàn)從源標(biāo)識符查找關(guān)聯(lián)目標(biāo)標(biāo)識符的過程。在實(shí)際應(yīng)用中,可以通過這一過程查找到與DB2這一產(chǎn)品具有競爭關(guān)系的產(chǎn)品 SQLServer 。在根據(jù)本發(fā)明的另一個實(shí)施例中,假設(shè)源標(biāo)識符為“喬布斯”,屬于人名類型的實(shí)體,假設(shè)候選標(biāo)識符包括“張三”、“比爾 蓋茨”、“奧巴馬”這三個人名類別的實(shí)體。通過步驟S203-S209的處理之后,可以根據(jù)“比爾·蓋茨”與“喬布斯”的相似度大于預(yù)定閾值,從而確定“比爾·蓋茨”為目標(biāo)標(biāo)識符,由此實(shí)現(xiàn)了從源標(biāo)識符到與之相關(guān)聯(lián)的目標(biāo)標(biāo)識符的檢索。在步驟S210,確定與源標(biāo)識符相對應(yīng)的源對象。在根據(jù)本發(fā)明的一個實(shí)施例中,源標(biāo)識符為“DB2”,由于其是國際商業(yè)機(jī)器(IBM )公司的一個產(chǎn)品,因此可以確定與源標(biāo)識符“DB2”相對應(yīng)的源對象是“國際商業(yè)機(jī)器公司”。注意,源對象可以是“國際商業(yè)機(jī)器公司”,也可以國際商業(yè)機(jī)器公司的簡稱、縮寫、通稱或者用戶經(jīng)常使用的任何可以標(biāo)識該公司的名稱,例如“IBM”等。在步驟S211,確定與目標(biāo)標(biāo)識符相對應(yīng)的目標(biāo)對象。該步驟與S210相類似,可以根據(jù)目標(biāo)標(biāo)識符所表示的產(chǎn)品來確定其所屬的公司。例如,對于目標(biāo)標(biāo)識符“SQLServer ”,可以確定與其相對應(yīng)的目標(biāo)對象是“微軟公司”。注意,目標(biāo)對象可以是“微軟公司”,也可以國際商業(yè)機(jī)器公司的簡稱、縮寫、通稱或者用戶經(jīng)常使用的任何可以標(biāo)識該公司的名稱,例如“Microsoft ”或“MS”。在步驟S212,將源對象與目標(biāo)對象相關(guān)聯(lián)。此時,可以確定出與源對象(例如,“IBM ”)相關(guān)聯(lián)的目標(biāo)對象是“Microsoft ”。在本發(fā)明中,兩個對象相“關(guān)聯(lián)”可以表示這兩個對象具有競爭關(guān)系、比較關(guān)系或者其他任何適當(dāng)?shù)念A(yù)定義關(guān)系。根據(jù)以上步驟,可以實(shí)現(xiàn)從源對象查找關(guān)聯(lián)目標(biāo)對象的過程。在實(shí)際應(yīng)用中,可以通過查找到與DB2這一產(chǎn)品具有競爭關(guān)系的產(chǎn)品SQLServer ,來確定與IBM 具有競爭關(guān)系的公司Microsoft 。在根據(jù)本發(fā)明的一個例子中,將源對象與目標(biāo)對象相關(guān)聯(lián)時可以輸出類似以下的示意性示例的結(jié)果“IBM vs Microsoft(DB2 vs SQLServer)“IBM vs Oracle(DB2 vs Oracle)...... ”上述結(jié)果表明IBM 與Microsoft 由于各自的產(chǎn)品DB2和SQLServer 而具有關(guān)聯(lián)(例如,競爭)關(guān)系;IBM 與Oracle 由于各自的產(chǎn)品DB2和Oracle 互相競爭而具有關(guān)聯(lián)(例如,競爭)關(guān)系。
然后,圖2的流程結(jié)束。應(yīng)該注意的是,步驟S210-S212是可選的而不是必需的。在步驟S209已可以確定與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。步驟S210-S212對于這一過程進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了根據(jù)源標(biāo)識符與目標(biāo)標(biāo)識符的關(guān)聯(lián)性來確定與源對象相關(guān)聯(lián)的目標(biāo)對象。在根據(jù)本發(fā)明的一個實(shí)施例中,在步驟S201之前還可以接收用戶輸入的源對象(例如用戶輸入的是“IBM” ),隨后可以在數(shù)據(jù)源中查找與該源對象相對應(yīng)的標(biāo)識符(例如“DB2”),并將該標(biāo)識符作為步驟S201-S212中使用的源標(biāo)識符。應(yīng)該注意的是,源標(biāo)識符并不限于僅來源于用戶輸入的源對象,而是可以由用戶直接輸入或者本領(lǐng)域技術(shù)人員可以想到的任何其他適當(dāng)方式。在根據(jù)本發(fā)明的另一個實(shí)施例中,根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符的過程還可以通過以下實(shí)現(xiàn)基于源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔來確定源標(biāo)識符與候選標(biāo)識符之間的時間順序,當(dāng)該時間順序滿足預(yù)定要求時從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在一種具體實(shí)現(xiàn)中,可以在源標(biāo)識符的簡檔中識別與源標(biāo)識符有關(guān)的時間信息,并在候選標(biāo)識符的簡檔中識別與候選標(biāo)識符有關(guān)的時間信息,通過比較這些時間信息來確定源標(biāo)識符與候選標(biāo)識符的時間順序;然后,可以根據(jù)預(yù)定要求來篩除或過濾掉不滿足條件的候選標(biāo)識符。例如,可以確定源標(biāo)識符“DB2”發(fā)布于候選標(biāo)識符“SQLSever ”之前或之后,當(dāng)預(yù)定要求是源標(biāo)識符應(yīng)當(dāng)發(fā)布于候選標(biāo)識符之前,則應(yīng)篩除在源標(biāo)識符“DB2”之前發(fā)布的候選標(biāo)識符,然后可以將在源標(biāo)識符“DB2 ”之后發(fā)布的候選標(biāo)識符確定為與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在另一種具體實(shí)現(xiàn)中,可以在源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔中分別識別與源標(biāo)識符有關(guān)的時間信息以及與候選標(biāo)識符有關(guān)的時間信息,然后通過比較這些時間信息來確定源標(biāo)識符與候選標(biāo)識符的時間順序;繼而,可以根據(jù)預(yù)定要求來篩除或過濾不滿足條件的候選標(biāo)識符;隨后可以繼續(xù)按照步驟S205-S209來從候選標(biāo)識符中選擇目標(biāo)標(biāo)識符。在根據(jù)本發(fā)明的另一個實(shí)施例中,當(dāng)源標(biāo)識符和/或目標(biāo)標(biāo)識符數(shù)量較多的時候,可以將源標(biāo)識符與目標(biāo)標(biāo)識符的關(guān)聯(lián)關(guān)系構(gòu)建為圖的形式,簡稱為“標(biāo)識符關(guān)聯(lián)圖”。標(biāo)識符關(guān)聯(lián)圖中的頂點(diǎn)可以對應(yīng)于源標(biāo)識符或目標(biāo)標(biāo)識符,該圖中在兩個頂點(diǎn)之間的邊可以對應(yīng)于源標(biāo)識符與目標(biāo)標(biāo)識符的關(guān)聯(lián)關(guān)系,該邊可以具有方向性(例如用箭頭來表示),表示這兩個頂點(diǎn)的先后順序。例如,從第一頂點(diǎn)指向第二頂點(diǎn)的箭頭表示第二頂點(diǎn)出現(xiàn)或者發(fā)生的時間在第一頂點(diǎn)之后。另外,以上的標(biāo)識符關(guān)聯(lián)圖也可以用文本形式(例如TXT、XML或其他常用文本標(biāo)記工具)進(jìn)行表示。此外,本領(lǐng)域的技術(shù)人員完全可以理解,標(biāo)識符之間的關(guān)聯(lián)關(guān)系可以用多種適當(dāng)?shù)男问絹肀硎?,而不限于在此僅作為示例的圖或者文本文件。標(biāo)識符關(guān)聯(lián)圖可以在后臺完成。根據(jù)標(biāo)識符關(guān)聯(lián)圖,可以直接從源標(biāo)識符確定關(guān)聯(lián)的目標(biāo)標(biāo)識符,從而提高了實(shí)時處理速度,增加了處理效率。在根據(jù)本發(fā)明的另一個實(shí)施例中,當(dāng)源對象和/或目 標(biāo)對象數(shù)量較多的時候,也可以將源對象與目標(biāo)對象的關(guān)聯(lián)關(guān)系構(gòu)建為圖的形式,簡稱為 “對象關(guān)聯(lián)圖”。與標(biāo)識符關(guān)聯(lián)圖類似,對象關(guān)聯(lián)圖中的頂點(diǎn)可以對應(yīng)于源對象或目標(biāo)對象,該圖中在兩個頂點(diǎn)之間的邊可以對應(yīng)于源對象與目標(biāo)對象的關(guān)聯(lián)關(guān)系,該邊可以具有方向性(例如用箭頭來表示),表示這兩個頂點(diǎn)的先后順序。注意,對象之間的關(guān)聯(lián)關(guān)系可以用多種適當(dāng)?shù)男问絹肀硎?,而不限于在此僅作為示例的圖或者文本文件。對象關(guān)聯(lián)圖也可以在后臺完成。根據(jù)對象關(guān)聯(lián)圖,可以直接從源對象確定關(guān)聯(lián)的目標(biāo)對象,同樣提高了實(shí)時處理速度,增加了處理效率。圖4是按照本發(fā)明的一個實(shí)施例的標(biāo)識符檢索設(shè)備400的方框圖。標(biāo)識符檢索設(shè)備400可以包括提取設(shè)備410、獲取裝置420以及選擇裝置430。提取裝置410可以被配置用于根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符。獲取裝置420可以被配置用于從數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔。選擇裝置430可以被配置用于根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,提取裝置410可以包括命名實(shí)體識別裝置,被配置用于對數(shù)據(jù)源進(jìn)行命名實(shí)體識別;以及候選標(biāo)識符提取裝置,被配置用于從識別出的命名實(shí)體中提取與源標(biāo)識符屬于相同實(shí)體類別的標(biāo)識符作為候選標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,獲取裝置420可以包括源標(biāo)識符簡檔搜索裝置,被配置用于在數(shù)據(jù)源中搜索與源標(biāo)識符有關(guān)的信息以作為源標(biāo)識符的簡檔;以及候選標(biāo)識符簡檔搜索裝置,被配置用于在數(shù)據(jù)源中搜索與候選標(biāo)識符有關(guān)的信息以作為候選標(biāo)識符的簡檔。在一種實(shí)現(xiàn)方式中,源標(biāo)識符簡檔搜索裝置還可以包括源標(biāo)識符描述性信息查找裝置,被配置用于在源標(biāo)識符的簡檔中查找針對源標(biāo)識符的描述性信息;以及源標(biāo)識符簡檔更新裝置,被配置用于使用針對源標(biāo)識符的描述性信息來更新源標(biāo)識符的簡檔。在一種實(shí)現(xiàn)方式中,候選標(biāo)識符簡檔搜索裝置還可以包括候選標(biāo)識符描述性信息查找裝置,被配置用于在候選標(biāo)識符的簡檔中查找針對候選標(biāo)識符的描述性信息;以及候選標(biāo)識符簡檔更新裝置,被配置用于使用針對候選標(biāo)識符的描述性信息來更新候選標(biāo)識符的簡檔。在根據(jù)本發(fā)明的一個實(shí)施例中,選擇裝置430可以包括計(jì)算單元,被配置用于計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度;以及選擇單元,被配置用于當(dāng)相似度大于預(yù)定閾值時,將候選標(biāo)識符選擇為與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在一種實(shí)現(xiàn)方式中,計(jì)算單元可以包括源關(guān)鍵詞提取裝置,被配置用于提取源標(biāo)識符的簡檔中的源關(guān)鍵詞;候選關(guān)鍵詞提取裝置,被配置用于提取候選標(biāo)識符的簡檔中的候選關(guān)鍵詞;以及相似度計(jì)算裝置,被配置用于根據(jù)源關(guān)鍵詞和候選關(guān)鍵詞計(jì)算源標(biāo)識符與候選標(biāo)識符的相似度。
在根據(jù)本發(fā)明的一個實(shí)施例中,選擇裝置430可以包括時間順序確定裝置,被配置用于基于源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,確定源標(biāo)識符與候選標(biāo)識符之間的時間順序;以及目標(biāo)標(biāo)識符選擇裝置,被配置用于當(dāng)時間順序滿足預(yù)定要求時,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,標(biāo)識符檢索設(shè)備400還可以包括接收裝置(未示出),其可以被配置用于接收用戶輸入的源對象;以及查找裝置(未示出),其可以被配置用于在數(shù)據(jù)源中查找與源對象相對應(yīng)的標(biāo)識符,作為源標(biāo)識符。在根據(jù)本發(fā)明的一個實(shí)施例中,標(biāo)識符檢索設(shè)備400還可以包括確定裝置(未示出),其可以被配置為確定與源標(biāo)識符相對應(yīng)的源對象和確定與目標(biāo)標(biāo)識符相對應(yīng)的目標(biāo)對象;以及關(guān)聯(lián)裝置(未示出),其可以被配置為將源對象與目標(biāo)對象相關(guān)聯(lián)。圖5示意性示出了適于實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)方框圖。圖5中所示的計(jì)算機(jī)系統(tǒng)包括CPU(中央處理單元)501、RAM(隨機(jī)存取存儲 器)502、ROM (只讀存儲器)503、系統(tǒng)總線504,硬盤控制器505、鍵盤控制器506、串行接口控制器507、并行接口控制器508、顯示器控制器509、硬盤510、鍵盤511、串行外部設(shè)備512、并行外部設(shè)備513和顯示器514。在這些部件中,與系統(tǒng)總線504相連的有CPU 501、RAM 502、ROM 503、硬盤控制器505、鍵盤控制器506,串行接口控制器507,并行接口控制器508和顯示器控制器509。硬盤510與硬盤控制器505相連,鍵盤511與鍵盤控制器506相連,串行外部設(shè)備512與串行接口控制器507相連,并行外部設(shè)備513與并行接口控制器508相連,以及顯示器514與顯示器控制器509相連。圖5中每個部件的功能在本技術(shù)領(lǐng)域內(nèi)都是眾所周知的,并且圖5所示的結(jié)構(gòu)也是常規(guī)的。不同的應(yīng)用中,可以向圖5中所示的結(jié)構(gòu)添加某些部件,或者圖5中的某些部件可以被省略。圖5中所示的整個系統(tǒng)由通常作為軟件存儲在硬盤510中、或者存儲在EPROM或者其他非易失性存儲器中的計(jì)算機(jī)可讀指令控制。軟件也可從網(wǎng)絡(luò)(圖中未示出)下載?;蛘叽鎯υ谟脖P510中,或者從網(wǎng)絡(luò)下載的軟件可被加載到RAM 502中,并由CPU 501執(zhí)行,以便完成由軟件確定的功能。盡管圖5中描述的計(jì)算機(jī)系統(tǒng)能夠支持根據(jù)本發(fā)明的標(biāo)識符檢索設(shè)備,但是其只是計(jì)算機(jī)系統(tǒng)的一個例子。本領(lǐng)域的熟練技術(shù)人員可以理解,許多其他計(jì)算機(jī)系統(tǒng)設(shè)計(jì)也能實(shí)現(xiàn)本發(fā)明的實(shí)施例。本發(fā)明還涉及一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括用于執(zhí)行如下的代碼根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符;從該數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔;以及根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。在使用之前,可以把代碼存儲在其他計(jì)算機(jī)系統(tǒng)的存儲器中,例如,存儲在硬盤或諸如光盤或軟盤的可移動的存儲器中,或者經(jīng)由因特網(wǎng)或其他計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行下載。本發(fā)明的實(shí)施方式所公開的方法可以在軟件、硬件、或軟件和硬件的結(jié)合中實(shí)現(xiàn)。硬件部分可以利用專用邏輯來實(shí)現(xiàn);軟件部分可以存儲在存儲器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器、個人計(jì)算機(jī)(PC)或大型機(jī)來執(zhí)行。在優(yōu)選實(shí)施方式中,本發(fā)明實(shí)現(xiàn)為軟件,其包括但不限于固件、駐留軟件、微代碼等。而且,本發(fā)明的實(shí)施方式還可以采取可從計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)訪問的計(jì)算機(jī)程序產(chǎn)品的形式,這些介質(zhì)提供程序代碼以供計(jì)算機(jī)或任何指令執(zhí)行系統(tǒng)使用或與其結(jié)合使用。出于描述目的,計(jì)算機(jī)可用或計(jì)算機(jī)可讀機(jī)制可以是任何有形的裝置,其可以包含、存儲、通信、傳播或傳輸程序以由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與其結(jié)合使用。介質(zhì)可以是電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)(或裝置或器件)或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的例子包括半導(dǎo)體或固態(tài)存儲器、磁帶、可移動計(jì)算機(jī)磁盤、隨機(jī)訪問存儲器(RAM)、只讀存儲器(ROM)、硬磁盤和光盤。目前光盤的例子包括緊湊盤-只讀存儲器(CD-ROM)、壓縮盤-讀/寫(CD-R/W)和DVD。適合于存儲/或執(zhí)行根據(jù)本發(fā)明的實(shí)施方式的程序代碼的系統(tǒng)將包括至少一個處理器,其直接地或通過系統(tǒng)總線間接地耦合到存儲器元件。存儲器元件可以包括在程序代碼的實(shí)際執(zhí)行期間所利用的本地存儲器、大容量存儲器、以及提供至少一部分程序代碼的臨時存儲以便減少執(zhí)行期間從大容量存儲器必須取回代碼的次數(shù)的高速緩存存儲器。輸入/輸出或I/O設(shè)備(包括但不限于鍵盤、顯示器、指點(diǎn)設(shè)備等等)可以直接地或通過中間I/o控制器耦合到系統(tǒng)。 網(wǎng)絡(luò)適配器也可以耦合到系統(tǒng),以使得系統(tǒng)能夠通過中間的私有或公共網(wǎng)絡(luò)而耦合到其他系統(tǒng)或遠(yuǎn)程打印機(jī)或存儲設(shè)備。調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器以及以太網(wǎng)卡僅僅是當(dāng)前可用的網(wǎng)絡(luò)適配器類型的幾個例子。說明書中提及的通信網(wǎng)絡(luò)可以包括各類網(wǎng)絡(luò),包括但不限于局域網(wǎng)(“LAN”),廣域網(wǎng)(“WAN”),根據(jù)IP協(xié)議的網(wǎng)絡(luò)(例如,因特網(wǎng))以及端對端網(wǎng)絡(luò)(例如,ad hoc對等網(wǎng)絡(luò))。應(yīng)當(dāng)注意,為了使本發(fā)明的實(shí)施方式更容易理解,上面的描述省略了對于本領(lǐng)域的技術(shù)人員來說是公知的、并且對于本發(fā)明的實(shí)施方式的實(shí)現(xiàn)可能是必需的更具體的一些技術(shù)細(xì)節(jié)。提供本發(fā)明的說明書是為了說明和描述,而不是用來窮舉或?qū)⒈景l(fā)明限制為所公開的形式。對本領(lǐng)域的普通技術(shù)人員而言,許多修改和變更都是可以的。因此,選擇并描述實(shí)施方式是為了更好地解釋本發(fā)明的原理及其實(shí)際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員明白,在不脫離本發(fā)明實(shí)質(zhì)的前提下,所有修改和變更均落入由權(quán)利要求所限定的本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的標(biāo)識符檢索方法,包括 根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符; 從所述數(shù)據(jù)源中獲取所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔;以及根據(jù)所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
2.根據(jù)權(quán)利要求I的方法,其中根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符包括 對數(shù)據(jù)源進(jìn)行命名實(shí)體識別;以及 從識別出的命名實(shí)體中提取與源標(biāo)識符屬于相同實(shí)體類別的標(biāo)識符,作為候選標(biāo)識符。
3.根據(jù)權(quán)利要求I的方法,其中從所述數(shù)據(jù)源中獲取所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔包括 在所述數(shù)據(jù)源中搜索與所述源標(biāo)識符有關(guān)的信息,以作為所述源標(biāo)識符的簡檔;以及 在所述數(shù)據(jù)源中搜索與所述候選標(biāo)識符有關(guān)的信息,以作為所述候選標(biāo)識符的簡檔。
4.根據(jù)權(quán)利要求3的方法,其中在所述數(shù)據(jù)源中搜索與所述源標(biāo)識符有關(guān)的信息,以作為所述源標(biāo)識符的簡檔還包括 在所述源標(biāo)識符的簡檔中查找針對所述源標(biāo)識符的描述性信息;以及 使用針對所述源標(biāo)識符的描述性信息來更新所述源標(biāo)識符的簡檔。
5.根據(jù)權(quán)利要求3的方法,其中在所述數(shù)據(jù)源中搜索與所述候選標(biāo)識符有關(guān)的信息,以作為所述候選標(biāo)識符的簡檔還包括 在所述候選標(biāo)識符的簡檔中查找針對所述候選標(biāo)識符的描述性信息;以及 使用針對所述候選標(biāo)識符的描述性信息來更新所述候選標(biāo)識符的簡檔。
6.根據(jù)權(quán)利要求I的方法,其中根據(jù)所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符包括 計(jì)算所述源標(biāo)識符與候選標(biāo)識符的相似度;以及 當(dāng)所述相似度大于預(yù)定閾值時,將所述候選標(biāo)識符選擇為與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
7.根據(jù)權(quán)利要求6的方法,其中計(jì)算所述源標(biāo)識符與候選標(biāo)識符的相似度包括 提取所述源標(biāo)識符的簡檔中的源關(guān)鍵詞; 提取所述候選標(biāo)識符的簡檔中的候選關(guān)鍵詞;以及 根據(jù)所述源關(guān)鍵詞和所述候選關(guān)鍵詞,計(jì)算所述源標(biāo)識符與候選標(biāo)識符的相似度。
8.根據(jù)權(quán)利要求I的方法,其中根據(jù)所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符還包括 基于所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,確定所述源標(biāo)識符與所述候選標(biāo)識符之間的時間順序;以及 當(dāng)所述時間順序滿足預(yù)定要求時,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
9.根據(jù)權(quán)利要求I的方法,其中在根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符之前還包括 接收用戶輸入的源對象;以及在數(shù)據(jù)源中查找與所述源對象相對應(yīng)的標(biāo)識符,作為所述源標(biāo)識符。
10.根據(jù)權(quán)利要求I的方法,還包括 確定與所述源標(biāo)識符相對應(yīng)的源對象; 確定與所述目標(biāo)標(biāo)識符相對應(yīng)的目標(biāo)對象;以及 將所述源對象與所述目標(biāo)對象相關(guān)聯(lián)。
11.一種標(biāo)識符檢索設(shè)備,包括 提取裝置,被配置用于根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符; 獲取裝置,被配置用于從所述數(shù)據(jù)源中獲取所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔;以及 選擇裝置,被配置用于根據(jù)所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
12.根據(jù)權(quán)利要求11的設(shè)備,其中所述提取裝置包括 命名實(shí)體識別裝置,被配置用于對數(shù)據(jù)源進(jìn)行命名實(shí)體識別;以及候選標(biāo)識符提取裝置,被配置用于從識別出的命名實(shí)體中提取與源標(biāo)識符屬于相同實(shí)體類別的標(biāo)識符作為候選標(biāo)識符。
13.根據(jù)權(quán)利要求11的設(shè)備,其中所述獲取裝置包括 源標(biāo)識符簡檔搜索裝置,被配置用于在所述數(shù)據(jù)源中搜索與所述源標(biāo)識符有關(guān)的信息以作為所述源標(biāo)識符的簡檔;以及 候選標(biāo)識符簡檔搜索裝置,被配置用于在所述數(shù)據(jù)源中搜索與所述候選標(biāo)識符有關(guān)的信息以作為所述候選標(biāo)識符的簡檔。
14.根據(jù)權(quán)利要求13的設(shè)備,其中所述源標(biāo)識符簡檔搜索裝置還包括 源標(biāo)識符描述性信息查找裝置,被配置用于在所述源標(biāo)識符的簡檔中查找針對所述源標(biāo)識符的描述性信息;以及 源標(biāo)識符簡檔更新裝置,被配置用于使用針對所述源標(biāo)識符的描述性信息來更新所述源標(biāo)識符的簡檔。
15.根據(jù)權(quán)利要求13的設(shè)備,其中所述候選標(biāo)識符簡檔搜索裝置還包括 候選標(biāo)識符描述性信息查找裝置,被配置用于在所述候選標(biāo)識符的簡檔中查找針對所述候選標(biāo)識符的描述性信息;以及 候選標(biāo)識符簡檔更新裝置,被配置用于使用針對所述候選標(biāo)識符的描述性信息來更新所述候選標(biāo)識符的簡檔。
16.根據(jù)權(quán)利要求11的設(shè)備,其中所述選擇裝置包括 計(jì)算單元,被配置用于計(jì)算所述源標(biāo)識符與候選標(biāo)識符的相似度;以及選擇單元,被配置用于當(dāng)所述相似度大于預(yù)定閾值時,將所述候選標(biāo)識符選擇為與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
17.根據(jù)權(quán)利要求16的設(shè)備,其中所述計(jì)算單元包括 源關(guān)鍵詞提取裝置,被配置用于提取所述源標(biāo)識符的簡檔中的源關(guān)鍵詞; 候選關(guān)鍵詞提取裝置,被配置用于提取所述候選標(biāo)識符的簡檔中的候選關(guān)鍵詞;以及相似度計(jì)算裝置,被配置用于根據(jù)所述源關(guān)鍵詞和所述候選關(guān)鍵詞計(jì)算所述源標(biāo)識符與候選標(biāo)識符的相似度。
18.根據(jù)權(quán)利要求11的設(shè)備,其中所述選擇裝置包括 時間順序確定裝置,被配置用于基于所述源標(biāo)識符的簡檔和所述候選標(biāo)識符的簡檔,確定所述源標(biāo)識符與所述候選標(biāo)識符之間的時間順序;以及 目標(biāo)標(biāo)識符選擇裝置,被 配置用于當(dāng)所述時間順序滿足預(yù)定要求時,從所述候選標(biāo)識符中選擇與所述源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
19.根據(jù)權(quán)利要求11的設(shè)備,還包括 接收裝置,被配置用于接收用戶輸入的源對象;以及 查找裝置,被配置用于在數(shù)據(jù)源中查找與所述源對象相對應(yīng)的標(biāo)識符,作為所述源標(biāo)識符。
20.根據(jù)權(quán)利要求11的設(shè)備,還包括 確定裝置,被配置為確定與所述源標(biāo)識符相對應(yīng)的源對象和確定與所述目標(biāo)標(biāo)識符相對應(yīng)的目標(biāo)對象;以及 關(guān)聯(lián)裝置,被配置為將所述源對象與所述目標(biāo)對象相關(guān)聯(lián)。
全文摘要
公開了一種標(biāo)識符檢索方法,該方法可以包括步驟根據(jù)源標(biāo)識符從數(shù)據(jù)源中提取候選標(biāo)識符;從數(shù)據(jù)源中獲取源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔;以及根據(jù)源標(biāo)識符的簡檔和候選標(biāo)識符的簡檔,從候選標(biāo)識符中選擇與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。該方法可以高效、準(zhǔn)確、迅速地查找與源標(biāo)識符相關(guān)聯(lián)的目標(biāo)標(biāo)識符。
文檔編號G06F17/30GK102789473SQ201110145948
公開日2012年11月21日 申請日期2011年5月18日 優(yōu)先權(quán)日2011年5月18日
發(fā)明者包勝華, 姚劍, 張俐, 張碩, ?;奂? 蘇中, 郭宏蕾 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
溧水县| 玉环县| 平谷区| 科尔| 汉阴县| 太湖县| 乌鲁木齐县| 肥乡县| 丘北县| 赤城县| 大城县| 忻州市| 四平市| 盐城市| 富阳市| 清水河县| 三明市| 卓尼县| 天门市| 伊春市| 章丘市| 紫金县| 定南县| 舟山市| 赫章县| 漾濞| 尉氏县| 扶余县| 苏尼特右旗| 华池县| 尉氏县| 永嘉县| 喀喇沁旗| 嘉定区| 南丰县| 务川| 武冈市| 新巴尔虎左旗| 公主岭市| 务川| 米脂县|