專利名稱:同名人物搜索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及搜索技術(shù)領(lǐng)域,尤其是一種同名人物搜索方法及系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)上的重名信息越來越多,如何區(qū)分這些具有相同人名的人稱為信息搜索過程中需要關(guān)注的問題。例如,當(dāng)用戶在搜索引擎中輸入一個人名時,返回的結(jié)果中包含了很多同名的人的信息,需要用戶逐一點擊瀏覽以確定哪些信息才是真正所需要的,這顯然會比較費時費力。當(dāng)然,用戶還可以通過人工添加查詢詞等方式來縮小搜索范圍。但是,人工添加查詢詞,相當(dāng)于對查詢結(jié)果進(jìn)行了過濾,也就降低了查詢的覆蓋率。因此,理想的解決方案是將搜索引擎返回的結(jié)果進(jìn)行聚類,期望將同名的不同人物聚在不同的類別中,用戶可以到自己需要的類別中去查找自己搜索結(jié)果。這樣,既保證了信息的不丟失,又節(jié)約了瀏覽時間?,F(xiàn)有技術(shù)中,在對同名人物進(jìn)行聚類時,大多數(shù)的方案都是采用網(wǎng)頁聚類的方法,也即將包含相同人名的相似文檔聚在一起。例如,從包含同名人物的網(wǎng)頁文檔中提取能夠代表網(wǎng)頁內(nèi)容的關(guān)鍵詞,然后通過些關(guān)鍵詞的相似性,來進(jìn)行聚類。這種網(wǎng)頁聚類的方法對于闡述同一個主題的文檔集合而言,能夠得到很好的結(jié)果。也就是說,這種方法的有效性依賴于這樣一個假設(shè)的前提同一個人物涉及到的事件是相同或相似的。但是本發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),在實際應(yīng)用中,同一個人可能涉及到不同的事件,當(dāng)不同的文檔是針對不同的事件對同一個人物進(jìn)行報道時,文檔在內(nèi)容上區(qū)別是很大的,此時,就難以用網(wǎng)頁主題之間的文檔相似度,將這樣的文檔中的人物聚為一類??傊诂F(xiàn)有技術(shù)中,依賴于文檔主題之間的相似性對包含同名人物的網(wǎng)頁進(jìn)行聚類時,可能存在聚類不準(zhǔn)確的問題,進(jìn)而在依據(jù)聚類結(jié)果提供搜索結(jié)果時,也會使得搜索結(jié)果的質(zhì)量不高,進(jìn)而限制了搜索引擎性能的提高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供了一種同名人物搜索方法及裝置,能夠提高同名人物聚類的準(zhǔn)確度,進(jìn)而提高搜索結(jié)果的質(zhì)量,提升搜索引擎的性能。根據(jù)本發(fā)明實施例的一個方面,提供一種同名人物搜索方法,包括針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息;統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。
根據(jù)本發(fā)明實施例的另一個方面,提供一種同名人物搜索裝置,包括檢索單元,配置為針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;人物關(guān)系提取單元,配置為分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息;統(tǒng)計單元,配置為統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;向量建立單元,配置為根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;人物關(guān)系聚類單元,配置為根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述同名人物搜索方法。此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述同名人物搜索方法。根據(jù)本發(fā)明實施例的上述方法,在得到包含目標(biāo)人物名稱的相關(guān)文檔之后,會首先從相關(guān)文檔中分析出人物關(guān)系信息,也就是說,可以統(tǒng)計出各個相關(guān)文檔中,與目標(biāo)人物名稱共現(xiàn)過的其他人物名稱,通過統(tǒng)計信息,可以建立起人物關(guān)系圖,并計算出目標(biāo)人物名稱與相關(guān)文檔中出現(xiàn)的其他各人物名稱之間的關(guān)系強(qiáng)度,最終以此建立起各個相關(guān)文檔的特征向量,并通過向量間的相似度計算等,即可實現(xiàn)對相關(guān)文檔的聚類,進(jìn)而根據(jù)聚類結(jié)果向用戶提供搜索結(jié)果??梢姡诒景l(fā)明實施例中,在對相關(guān)文檔進(jìn)行聚類時,可以通過挖掘人物之間的關(guān)系來實現(xiàn),這樣,即使對同一人物的不同事件的報道,也可能會因為都與其他人物共現(xiàn),而被聚為一類。可見,通過該方法,可以避免相關(guān)文檔中的“事件內(nèi)容”在聚類過程中所起的作用被放大,從而有利于提高聚類的準(zhǔn)確度,進(jìn)而提高搜索結(jié)果的質(zhì)量,提升搜索引擎的性能。在下面的說明書部分中給出本發(fā)明實施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實施例的優(yōu)選實施例,而不對其施加限定。
下面結(jié)合具體的實施例,并參照附圖,對本發(fā)明實施例的上述和其它目的和優(yōu)點做進(jìn)一步的描述。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖I是示出作為本發(fā)明實施例提供的方法的流程圖;圖2是示出作為本發(fā)明實施例提供的人物關(guān)系圖的示意圖;圖3是示出作為本發(fā)明實施例提供的第一裝置的示意圖;圖4是示出作為本發(fā)明實施例提供的第二裝置的示意圖;圖5是示出作為本發(fā)明實施例提供的第三裝置的示意圖;圖6是示出作為本發(fā)明實施例提供的第四裝置的示意圖;和圖7是示出作為本發(fā)明的實施例中所采用的信息處理設(shè)備的個人計算機(jī)的示例性結(jié)構(gòu)的框圖。
具體實施例方式
下面參照附圖來說明本發(fā)明實施例。參見圖1,本發(fā)明實施例提供的同名人物搜索方法包括以下步驟SlOl :針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔。其中,目標(biāo)人物名稱可以是用戶根據(jù)自己的需要在搜索引擎的搜索框輸入的。例如,用戶想要搜索有關(guān)“張三”的相關(guān)信息,則可以在搜索引擎的搜索框中輸入“張三”作為查詢詞,之后可以通過按下“回車”鍵,或者點擊“張三”按鈕等方式,觸發(fā)搜索引擎開始搜索。搜索引擎在接收到觸發(fā)之后,就可以針對用戶輸入的查詢詞進(jìn)行檢索,得到包含查詢詞的相關(guān)文檔。當(dāng)然在本發(fā)明實施例中,查詢詞主要是指用戶輸入的目標(biāo)人物名稱,如前文所述的“張三”,則搜索引擎就可以從數(shù)據(jù)庫中檢索出包含有“張三”的相關(guān)文檔。其中,當(dāng)搜索引擎為網(wǎng)頁搜索引擎時,這種相關(guān)文檔主要是指網(wǎng)頁文檔,例如,某網(wǎng)頁是關(guān)于一個名為“張三”的人的報道,其中出現(xiàn)了“張三”這樣的文字,則這個網(wǎng)頁就可能被作為“張三”的相關(guān)文檔而檢索出來。S102:分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息。
在檢索得到各個相關(guān)文檔之后,如果確定查詢詞是人物名稱,則在本發(fā)明實施例中,可以首先從中提取其中包含的人物關(guān)系特征,這種人物關(guān)系特征主要是根據(jù)同一相關(guān)文檔中,目標(biāo)人物名稱與其他人物名稱的共現(xiàn)情況來確定的。例如,仍以查詢詞為“李剛”為例,在某相關(guān)文檔中,不僅出現(xiàn)了“張三”這一目標(biāo)人物名稱,還出現(xiàn)了“李四”等其他人物名稱,則可以認(rèn)定“張三”與“李四”之間存在某種關(guān)系,因此可以將這兩者之間的人物關(guān)系作為該相關(guān)文檔中包含的人物關(guān)系特征信息提取出來。此外,如果在某相關(guān)文檔中,包含“張三”、“李四”、“王五”這樣三個人物名稱,則不僅可以提取“張三”與“李四”、“張三”與“王五”之間的關(guān)系,還可以提取“李四”與“王五”之間的關(guān)系。其他相關(guān)文檔也可以做類似處理。需要說明的是,在本發(fā)明實施例中,當(dāng)用戶輸入的查詢詞為某人物名稱時,才會按照后續(xù)的步驟執(zhí)行,因此,在接收到用戶的搜索請求之后,可以首先判斷用戶輸入的查詢詞是否為人物名稱,具體實現(xiàn)時,可以通過查詢預(yù)先建立的人名詞庫等方式來實現(xiàn)。也就是說,可以預(yù)先建立人名詞庫,其中包含了若干個人名詞條,當(dāng)用戶在搜索引擎的搜索框中輸入查詢詞時,就可以首先判斷該查詢詞是否出現(xiàn)在該人名詞庫中,如果是,則確定用戶需要搜索的是與某人物名稱相關(guān)的信息。其中,該人名詞庫也是是隨時更新的,例如,隨著一些新聞熱點事件的發(fā)生,可以將涉及到的新的人物名稱添加到該詞庫中,等等。當(dāng)然,除了采用預(yù)先設(shè)置人名詞庫的方式以外,還可以采用其他的方式來判斷用戶輸入的查詢詞是否為人名。例如,預(yù)先設(shè)置姓氏詞庫,此時,可以判斷用戶輸入的查詢詞中的第一個字是否出現(xiàn)在姓氏詞庫中,如果是,證明用戶輸入的查詢詞可能是人物名稱,等等。此外,在從相關(guān)文檔中提取人物關(guān)系特征信息時,會涉及到提取相關(guān)文檔中存在的其他人物名稱。此時,可以首先對相關(guān)文檔中的文本內(nèi)容進(jìn)行分詞處理,得到一個個的詞語或短語等,然后判斷各個詞語或短語是否出現(xiàn)在預(yù)置的人名詞庫中,或者是否具有人物名稱的特征等等,如果是,則可以確認(rèn)為一個人物名稱,從而將相關(guān)文檔中的人物名稱提取出來。S103:統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。在提取出各個相關(guān)文檔中包含的人物關(guān)系特征信息之后,就可以將提取出的特征信息綜合在一起進(jìn)行統(tǒng)計,從而建立人物關(guān)系圖。其中,人物關(guān)系圖中的節(jié)點為目標(biāo)人物名稱,以及相關(guān)文檔中與目標(biāo)人物名稱共現(xiàn)過的其他人物名稱,當(dāng)兩個人物名稱在同一相關(guān)文檔中選線時,就可以在這兩個人物名稱對應(yīng)的節(jié)點之間建立一條邊,每條邊還可以具有一定的權(quán)重,權(quán)重的大小代表其連接的兩個節(jié)點共現(xiàn)的頻率。例如,如圖2所示,其中A、B……G代表各個節(jié)點上的人物名稱,如果兩個節(jié)點之間具有連線,則代表這兩個節(jié)點之間在同一文檔中共現(xiàn)過。如果節(jié)點A與節(jié)點B在兩篇相關(guān)文檔中共現(xiàn)過,則這兩個節(jié)點之間的邊的權(quán)重可以為2,如果節(jié)點B與節(jié)點C在四篇相關(guān)文檔中共現(xiàn)過,則這兩個節(jié)點之間的邊的權(quán)重可以為4,以此類推,當(dāng)然,最后還可以將各個邊的權(quán)重做歸一化處理。
在得到人物關(guān)系圖之后,就可以在這個關(guān)系圖的基礎(chǔ)上,計算出目標(biāo)人物名稱與各個其他人物名稱之間的關(guān)系強(qiáng)度,這個關(guān)系強(qiáng)度可以是一個量化的值,具體的計算方法可以有多種。例如,在其中一種方式下,可以根據(jù)目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到目標(biāo)人物名稱與人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。此時,具體可以通過以下公式計算出該關(guān)系強(qiáng)度
Relation(x, y) = aN(x, y) / max(7V(x), 7V(j;)) + βΥ+丨( I )
N(Z)其中,X是目標(biāo)人物名稱,y是與X在相關(guān)文檔中共現(xiàn)過的其他人物名稱,z是與x在相關(guān)文檔中共現(xiàn)過、并且與I在其他相關(guān)文檔中共現(xiàn)過的其他人物名稱,U是z的集合,UU)是集合U中包含的元素的數(shù)目。N(x,y)是X與y共現(xiàn)的相關(guān)文檔數(shù)目,N(x)是包含X的相關(guān)文檔數(shù)目,N(y)是包含y的相關(guān)文檔數(shù)目,N(x,z)是X與z共現(xiàn)的相關(guān)文檔數(shù)目,N(y,z)是y與z共現(xiàn)的相關(guān)文檔數(shù)目,N(Z)是包含z的相關(guān)文檔數(shù)目。這樣,N(x,y)/
max (N(x),N(y))就可以代表x與y的直接關(guān)系強(qiáng)度,Σ ^ ^ ^^丨Ι#)則可以代表
^ N{z)
X與y的間接關(guān)系強(qiáng)度。其中,α、β為權(quán)重因子,可以根據(jù)直接關(guān)系強(qiáng)度與間接關(guān)系強(qiáng)度的參考價值或者實際的需要,來靈活確定各自的取值。通過上述方式計算關(guān)系強(qiáng)度時,相當(dāng)于利用了人物關(guān)系之間具有傳遞性這一特點,這樣可以使得計算出的關(guān)系強(qiáng)度能夠更好地反映實際的情況。例如,某相關(guān)文檔中提到了人物B和Ε,但是同時提到人物B和E的相關(guān)文檔數(shù)目可能比較少,則通過直接關(guān)系計算得到這兩者之間的關(guān)系可能比較弱;然而實際情況是,人物B與E之間的關(guān)系應(yīng)該是比較密切的,可見,通過上述直接關(guān)系的計算,得到的關(guān)系強(qiáng)度就沒有很好地體現(xiàn)出實際的情況。但是,當(dāng)引入間接關(guān)系強(qiáng)度之后,就可以使得上述情況得到改善。例如,當(dāng)計算得到人物B與F、E與F之間都有很強(qiáng)的直接關(guān)系時,就可以通過第三方F來加強(qiáng)人物B和E之間的關(guān)系,使得B與E之間的關(guān)系增強(qiáng),從而更好地反映出實際的情況。當(dāng)然,除了上述公式⑴的方式以外,還可以通過其他方式來計算出人物之間的關(guān)系強(qiáng)度,例如,還可以將直接關(guān)系強(qiáng)度與間接關(guān)系強(qiáng)度相乘,將所得的積作為人物之間的關(guān)系強(qiáng)度,等等。此外,在計算人物之間的關(guān)系強(qiáng)度時,也可以不必綜合考慮人物之間的直接關(guān)系強(qiáng)度以及間接關(guān)系強(qiáng)度,單獨考慮人物之間的直接關(guān)系強(qiáng)度或者間接關(guān)系強(qiáng)度也是可以實現(xiàn)的,具體的實現(xiàn)過程這里不再贅述。 S104 :根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量。在得到目標(biāo)人物名稱與其他各人物名稱之間的關(guān)系強(qiáng)度之后,就可以為各個相關(guān)文檔建立人物關(guān)系特征向量。例如,某相關(guān)文檔中除了包含目標(biāo)人物名稱A之外,還包括人物名稱B、C、D,則針對該相關(guān)文檔,可以建立一個三維向量,其中,人物名稱B、C、D分別與人物名稱A之間的關(guān)系強(qiáng)度就作為向量各個維度上的數(shù)值。例如,A與B之間的關(guān)系強(qiáng)度為O. 5,A與C之間的關(guān)系強(qiáng)度為O. 3,A與D之間的關(guān)系強(qiáng)度為O. 7,則針對該相關(guān)文檔建立的向量可以為(O. 5,0. 3,0. 7)。以此類推,其他的相關(guān)文檔也可以分別建立起各自的人物關(guān)系特征向量。S105:根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。在得到各個相關(guān)文檔的人物關(guān)系特征向量之后,就可以實現(xiàn)對各個相關(guān)文檔的聚類。其中,具體在進(jìn)行相關(guān)文檔的聚類時,可以通過向量之間的運(yùn)算來計算文檔之間的相似度,進(jìn)而實現(xiàn)聚類。向量之間的運(yùn)算可以是計算向量之間的夾角,夾角越小,則證明對應(yīng)的兩個相關(guān)文檔之間的相似度越大。關(guān)于向量之間的夾角,可以采用計算余弦值的方式實現(xiàn)。例如,相關(guān)文檔I中包含的人物名稱除了目標(biāo)人物名稱A以外,還有人物名稱B、C、D,對應(yīng)的人物關(guān)系特征向量為(B :0. 5,C :0. 3,D :0. 7);相關(guān)文檔2中包含的人物名稱除了目標(biāo)人物名稱A以外,還有人物名稱B、C、E、F,對應(yīng)的人物關(guān)系特征向量為(B :0. 4,C :0. 5,E O. 3,F(xiàn) :0. 2),在計算這兩個向量之間的相似度時,可以首先將兩個向量擴(kuò)展為相同維度,例如,將相關(guān)文檔I的向量擴(kuò)展為(B :0. 5,C :0. 3,D :0. 7,E :0,F(xiàn) :0),將相關(guān)文檔2的向量擴(kuò)展為(B :0. 4,C :0. 5,D :0,E :0. 3,F(xiàn) :0. 2),這樣,可以通過以下公式計算出這兩個向量之間的夾角的余弦值 7(0.5 - 0.4)2 + (0.3 - 0.5)2 + (0.7 - O)2 + (O - 0.3)2 + (O - 0.2)2( 2 )其他相關(guān)文檔之間的相似度也可以通過以上方式計算出來。最后,再根據(jù)相似度進(jìn)行聚類,相當(dāng)于將各個相關(guān)文檔劃分為多個類別,同一類別中的文檔中涉及到的目標(biāo)人物名稱可能指代的是同一人,而不同類別的文檔中涉及到的目標(biāo)人物名稱則可能指代的不是同一人,只是這些人物同名而已。然后就可以根據(jù)聚類的結(jié)果向用戶提供搜索結(jié)果。例如,聚類結(jié)果為相關(guān)文檔1、2、4、7是一類,相關(guān)文檔3、5、6、8是另一類,則證明在相關(guān)文檔1、2、4、7中涉及到的目標(biāo)人物名稱可能指代的可以是同一個人物,而相關(guān)文檔3、5、6、8中涉及到的目標(biāo)人物名稱可能是指代的可能是另一個人物。在向用戶提供搜索結(jié)果時,就可以將相關(guān)文檔1、2、4、7作為一類一起展現(xiàn)給用戶,相關(guān)文檔3、5、6、8作為另一類一起展現(xiàn)給用戶,這樣,如果用戶實際需要搜索的是第一個人物,則可以直接查看第一類搜索結(jié)果中的信息,如果實際要搜索的是第二個人物,則可以直接查看第二類搜索結(jié)果中的信息,而不必再手動地篩選,或者增加查詢詞??傊?,在本發(fā)明實施例中,在得到包含目標(biāo)人物名稱的相關(guān)文檔之后,會首先從相關(guān)文檔中分析出人物關(guān)系信息,也就是說,可以統(tǒng)計出各個相關(guān)文檔中,與目標(biāo)人物名稱共現(xiàn)過的其他人物名稱,通過統(tǒng)計信息,可以建立起人物關(guān)系圖,并計算出目標(biāo)人物名稱與相關(guān)文檔中出現(xiàn)的其他各人物名稱之間的關(guān)系強(qiáng)度,最終以此建立起各個相關(guān)文檔的特征向量,并通過向量間的相似度計算等,即可實現(xiàn)對相關(guān)文檔的聚類,進(jìn)而根據(jù)聚類結(jié)果向用戶提供搜索結(jié)果??梢?,在本發(fā)明實施例中,在對相關(guān)文檔進(jìn)行聚類時,可以通過挖掘人物之間的關(guān)系來實現(xiàn),這樣,即使對同一人物的不同事件的報道,也可能會因為都與其他人物共現(xiàn),而被聚為一類。可見,通過該方法,可以避免相關(guān)文檔中的“事件內(nèi)容”在聚類過程中所起的作用被放大,從而有利于提高聚類的準(zhǔn)確度,進(jìn)而提高搜索結(jié)果的質(zhì)量,提升搜索引擎的性能。在實際應(yīng)用中,還可以綜合考慮多方面的因素實現(xiàn)對相關(guān)文檔的聚類,其中,上述人物關(guān)系特征可以作為這些因素之一,其他因素還可以是文檔中的主題特征信息、人物屬性信息等等。其中,主題特征信息是指相關(guān)文檔中的文本內(nèi)容特征,通過對文檔中的文本內(nèi)容進(jìn)行分詞,得到多個詞語,然后分別統(tǒng)計各個詞語在文檔中的詞頻,可以建立主題特征模型,這樣,通過不同文檔的主題特征模型之間的相似度計算,可以得到主題聚類結(jié)果。人物屬性信息是指文檔中包含的與人物的職稱、單位、住址、特長、愛好等屬性信息,通過這些信 息的提取可以建立相關(guān)文檔的人物屬性模型,進(jìn)而通過不同文檔的人物屬性模型之間的相似度計算,可以得到人物屬性聚類結(jié)果。在本發(fā)明實施例中,就可以針對各個相關(guān)文檔,從多個層面分別得到聚類結(jié)果,例如,可以將利用文檔中存在的人物關(guān)系特征信息得到的人物關(guān)系聚類結(jié)果,利用文檔中存在的主題特征信息得到主題聚類結(jié)果,利用文檔中存在的人物屬性特征得到人物屬性聚類結(jié)果,然后再將各個層面上得到的聚類結(jié)果進(jìn)行融合,得到最終的聚類結(jié)果。具體在對各個層面上的聚類結(jié)果進(jìn)行融合時,可能存在各個層面上的聚類結(jié)果矛盾的情況,此時,可以根據(jù)預(yù)先制定的策略進(jìn)行融合。例如,該策略可以是人物屬性聚類結(jié)果>人物關(guān)系聚類結(jié)果>主題特征聚類結(jié)果,也就是說,當(dāng)出現(xiàn)矛盾時,可以優(yōu)先考慮人物屬性聚類結(jié)果。例如,在人物關(guān)系聚類結(jié)果中,文檔I與2是一類,3與4是另一類,而在人物屬性聚類結(jié)果中,文檔I與3是一類,2與4是另一類,此時,融合之后的結(jié)果就可以是文檔I與3是一類,2與4是另一類,相當(dāng)于選擇了人物屬性聚類結(jié)果作為最終的聚類結(jié)果。當(dāng)然,在其他的融合策略中,也可以按照一定的比例將各種聚類結(jié)果進(jìn)行量化,經(jīng)加權(quán)計算得到最終的結(jié)果。或者,還可以采用投票的方式對各種聚類結(jié)果進(jìn)行融合,等等。例如,對于兩篇相關(guān)文檔,通過前述三個層面上的聚類,存在兩種結(jié)果被聚為一類,或者沒有被聚為一類,則采用投票的策略對結(jié)果進(jìn)行融合時,可以有如下結(jié)果首先對于三個層面結(jié)果一致的,將其作為最后結(jié)果;其次,對于某一層面具有強(qiáng)相似度的(例如大于某設(shè)定的閾值等等),確定為最后結(jié)果;最后,在兩個層面結(jié)果一致的,將其作為最后結(jié)果??傊?,可以分別從多個層面來考察文檔之間的相似關(guān)系,如果某一層面具有很強(qiáng)的相似關(guān)系,則可以被挖掘出來。需要說明的是,在進(jìn)行多個層面上的聚類時,也可以僅從人物關(guān)系特征層面及主題特征層面進(jìn)行聚類,或者,僅從人物關(guān)系特征及人物屬性特征層面進(jìn)行聚類,等等。另外需要說明的是,關(guān)于利用文檔中存在的主題特征信息得到主題聚類結(jié)果,以及利用文檔中存在的人物屬性特征得到人物屬性聚類結(jié)果的具體實現(xiàn),可以采用已有技術(shù)中的方法來實現(xiàn)。其中,在利用主題特征信息計算得到主題聚類結(jié)果時,已有技術(shù)中的方法通常是直接對文檔進(jìn)行分詞,然后統(tǒng)計各個詞語在文檔中的詞頻,從而建立起針對各個相關(guān)文檔的主題模型,再根據(jù)主題模型之間的相似度比較,進(jìn)行相關(guān)文檔的聚類。例如,某相關(guān)文檔中的文本內(nèi)容為“李想是80后的典型代表,北京泡泡信息技術(shù)有限公司首席執(zhí)行官……一家從事電腦硬件個人和辦公數(shù)碼產(chǎn)品服務(wù)網(wǎng)站……”,利用已有技術(shù)的方法為其建立主題模型時,可能為<李想/50是/0. I 80后/10的/0. 01典型/I代表/2泡泡網(wǎng)/40北京/20泡泡/30信息/15技術(shù)/7有限/5公司/4首席/20執(zhí)行官/30他/0. 6 — /I家/2從事/4電腦/8硬件/8個人/4和/0. 7辦公/7數(shù)碼/8產(chǎn)品/4服務(wù)/12網(wǎng)站/30首都/10 IT/10CE0/15高管/I. 5計算機(jī)/4私人/2電子/1〉,其中,“/”后顯示的數(shù)字代表對應(yīng)的詞語在該文檔中出現(xiàn)的詞頻。利用上述已有技術(shù)在進(jìn)行相關(guān)文檔的聚類時,由于主題模型中可能包含了一些區(qū)·分度比較低的詞條,以至于最終的聚類結(jié)果可能不夠準(zhǔn)確。為此,在本發(fā)明實施例中,為了提高基于主題模型進(jìn)行聚類時的準(zhǔn)確度,可以首先通過權(quán)重計算、關(guān)鍵詞識別等方式,從相關(guān)文檔中提取能夠表征該文檔主要內(nèi)容的詞語,來刻畫相關(guān)文檔描述的主要內(nèi)容,然后在這些詞語的基礎(chǔ)上建立其主題模型,并進(jìn)一步進(jìn)行聚類。為此,可以對各個相關(guān)文檔進(jìn)行分詞處理,然后在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計,選取用于表述各個相關(guān)文檔的主題詞語,最后根據(jù)各個相關(guān)文檔的主題詞語,對各個相關(guān)文檔進(jìn)行聚類。也就是說,在選取某相關(guān)文檔的主題詞語時,不是僅考慮該相關(guān)文檔本身包含的詞語以及詞頻,而是要從整個相關(guān)文檔集合進(jìn)行考慮。具體實現(xiàn)時,可以首先計算相關(guān)文檔中各詞語的權(quán)重,例如,針對某相關(guān)文檔D,可以通過以下方式計算該相關(guān)文檔D中各個詞語\的權(quán)重_21ogX = 2[log Lb1, on, on+o12)+log L(p2, o21, o21+o22) (3)-log L(p, on, on+o12)-log L(p, O21, o21+o22)]在公式(3)中,λ表示詞語\在相關(guān)文檔D中的權(quán)重,O11表示詞語\在相關(guān)文檔D中出現(xiàn)的詞頻,O12表示詞語\在相關(guān)文檔D以外的其他文檔中出現(xiàn)的詞頻,O21表示\以外的其他詞語在相關(guān)文檔D中出現(xiàn)的詞頻,O22表示\以外的其他詞語在相關(guān)文檔D以外的其他相關(guān)文檔中出現(xiàn)的詞頻。L(·)是一個函數(shù),其函數(shù)表達(dá)式為L(p,k,n) =Pk(I-P)(n k),P1 = O11/ (0n+012),P2 = O21/ (021+022),P = (on+o21)/ (on+o12+o21+o22)。經(jīng)過計算各個詞語的權(quán)重,可以通過設(shè)定閾值等方式來選取詞語作為文檔的主題詞,用來表示該相關(guān)文檔的主題信息。其中,閾值可以通過統(tǒng)計表設(shè)定為與權(quán)重相關(guān)的某個分值,大于某分值的詞語為主題詞語,也可以設(shè)定為按權(quán)重降序排列,選取前N個為主題詞
冉坐坐
P 口,寸寸O例如,對于前述例子中的相關(guān)文檔,使用本發(fā)明實施例的方法進(jìn)行主題詞語的選取之后,建立的主題模型可以為<泡泡,北京,信息,技術(shù),公司,首席,執(zhí)行官,電腦,硬件,辦公,數(shù)碼,產(chǎn)品,服務(wù),網(wǎng)站,CEO,高管,計算機(jī),電子>??梢?,相當(dāng)于對文檔中出現(xiàn)的詞語進(jìn)行了篩選,僅保留了能夠表征文檔主要內(nèi)容的詞語。需要說明的是,在根據(jù)該模型建立相關(guān)文檔的向量時,可以將各個詞語的權(quán)重值作為向量各個維度上的數(shù)值,進(jìn)而通過向量運(yùn)算的方式來計算相關(guān)文檔之間的相似度即可。另外需要說明的是,前述公式(3)僅僅是一種具體的實現(xiàn)方式,在實際應(yīng)用中,還可以采用其他的公式來計算相關(guān)文檔中詞語的權(quán)重,只要通過在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計的方式,來選取用于表述各個相關(guān)文檔的主題詞語,就都在本發(fā)明的保護(hù)范圍之內(nèi)。另外,在通過提取相關(guān)文檔中的人物屬性特征建立人物屬性模型,并得到人物屬性聚類結(jié)果的過程中,由于人 物屬性特征相對于主題詞語等特征而言,比較稀疏,因此,在本發(fā)明實施例中,人物屬性的定義可以比較寬泛,只要與人物相關(guān)即可,如不僅僅可以是職稱、工作單位,還可以是特長、專業(yè)、愛好等等,而不是嚴(yán)格限定為獲取哪幾種屬性,這樣有利于發(fā)現(xiàn)可能存在的具有強(qiáng)指示性的特征來挖掘指向同一人的相關(guān)文檔。以上對本發(fā)明實施例提供的同名人物搜索方法進(jìn)行了詳細(xì)地介紹,在該方法中,首先可以在相關(guān)文檔中提取人物關(guān)系特征信息,根據(jù)人物關(guān)系特征信息對各個相關(guān)文檔進(jìn)行聚類,這樣可以解決事件對聚類結(jié)果的影響被放大、以至于內(nèi)容相似度較小的相關(guān)文檔很難聚在一起的問題。在此基礎(chǔ)上,為了進(jìn)一步優(yōu)化聚類結(jié)果,還可以綜合考慮其他方面的因素。在考慮這些因素時,本發(fā)明實施例并不是將這些因素放在一起、為相關(guān)文檔建立一個大的模型(模型中包含人物關(guān)系特征、人物屬性特征、主題詞語等等),而是從各個層面分別對相關(guān)文檔建立不同的模型(例如,分別建立人物關(guān)系屬性模型、主題模型并建立人物關(guān)系網(wǎng)等等),并且分別進(jìn)行聚類,最后再將各個層面上的聚類結(jié)果進(jìn)行融合,得到最終的聚類結(jié)果。這樣做的好處在于,能夠抓住各個層面上所表述的重要信息,避免相互影響,如果某一層面具有很強(qiáng)的相似關(guān)系,則可以被挖掘出來,此外,也便于相似度計算方法的選擇以及閾值的設(shè)定。與該方法相對應(yīng),本發(fā)明實施例還提供可一種同名人物搜索裝置,參見圖3,該裝置包括檢索單元301,配置為針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;人物關(guān)系提取單元302,配置為分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息;統(tǒng)計單元303,配置為統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;向量建立單元304,配置為根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;人物關(guān)系聚類單元305,配置為根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。其中,統(tǒng)計單元303具體可以配置為根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。具體實現(xiàn)時,統(tǒng)計單元可以采用公式(I)來計算上述關(guān)系強(qiáng)度,當(dāng)然也可以采用其他的公式或其他方式來實現(xiàn)。向量建立單元304具體可以配置為將相關(guān)文檔中包含的目標(biāo)人物名稱以外的其他人物名稱作為向量各個維度上的參數(shù),將目標(biāo)人物名稱與各其他人物名稱之間的關(guān)系強(qiáng)度作為各個維度上的數(shù)值,建立所述人物關(guān)系特征向量。參見圖4,人物關(guān)系聚類單元305具體可以包括第一相似度計算子單元3051,配置為根據(jù)各個相關(guān)文檔的人物關(guān)系特征向量,將各個相關(guān)文檔進(jìn)行相似度計算;第一聚類子單元3052,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)設(shè)的第一閾值,對各個相關(guān)文檔進(jìn)行聚類。在實際應(yīng)用中,為了實現(xiàn)更有效的聚類,還可以從多個層面上對相關(guān)文檔進(jìn)行挖掘,例如,參見圖5,該裝置還可以包括主題聚類單元306,配置為根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類,得到主題聚類結(jié)果;和/或,人物屬性聚類單元307,配置為根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類,得到人物屬性聚類結(jié)果;融合單元308,配置為將所述主題聚類結(jié)果和/或人物屬性聚類結(jié)果與所述人物關(guān)系聚類結(jié)果相融合,得到最終的聚類結(jié)果,以便根據(jù)所述最終的聚類結(jié)果給出搜索結(jié)果。當(dāng)然,如果僅將主題聚類結(jié)果與人物關(guān)系聚類結(jié)果相融合,或者僅將人物屬性聚類結(jié)果與人物關(guān)系聚類結(jié)果相融合,也是可以的。具體實現(xiàn)時,參見圖6,主題聚類單元306可以包括主題特征提取子單元3061,配置為提取各相關(guān)文檔中包含的主題特征信息;主題特征向量建立子單元3062,配置為根據(jù)各個相關(guān)文檔的主題特征信息建立各相關(guān)文檔的主題特征向量;第二相似度計算子單元3063,配置為根據(jù)所述主題特征向量對各個相關(guān)文檔進(jìn)行相似度計算;第二聚類子單元3064,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第二閾值,對各個相關(guān)文檔進(jìn)行聚類。為了提高主題聚類結(jié)果的有效性,在進(jìn)行主題特征提取時,可以對文檔中的詞語進(jìn)行篩選,得到能夠表達(dá)相關(guān)文檔主要內(nèi)容的詞語作為相關(guān)文檔的主題詞,然后再建立向量,并進(jìn)行相似度的計算。此時,主題特征提取子單元3061可以包括分詞子單元30611,配置為對各個相關(guān)文檔進(jìn)行分詞處理;統(tǒng)計子單元30612,配置為在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計得到各個詞語的權(quán)重;選取子單元30613,配置為根據(jù)所述權(quán)重選取用于表述各個相關(guān)文檔主要內(nèi)容的主題詞語。具體實現(xiàn)時,統(tǒng)計子單元30612可以利用公式(3)或其他方式實現(xiàn)上述統(tǒng)計。此外,人物屬性信息聚類單元307可以包括人物屬性特征提取子單元3071,配置為提取各相關(guān)文檔中包含的人物屬性信息;人物屬性向量建立子單元3072,配置為根據(jù)各個相關(guān)文檔的人物屬性信息建立各相關(guān)文檔的人物屬性向量;第三相似度計算子單元3073,配置為根據(jù)所述人物屬性向量對各個相關(guān)文檔進(jìn)行相似度計算;第三聚類子單元3074,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第三閾值,對各個相關(guān)文檔進(jìn)行聚類??傊?,在本發(fā)明實施例提供的上述裝置中,首先可以在相關(guān)文檔中提取人物關(guān)系特征信息,根據(jù)人物關(guān)系特征信息對各個相關(guān)文檔進(jìn)行聚類,這樣可以解決事件對聚類結(jié)果的影響被放大、以至于內(nèi)容相似度較小的相關(guān)文檔很難聚在一起的問題。在此基礎(chǔ)上,為了進(jìn)一步優(yōu)化聚類結(jié)果,還可以綜合考慮其他方面的因素。在考慮這些因素時,本發(fā)明實施例并不是將這些因素放在一起、為相關(guān)文檔建立一個大的模型(模型中包含人物關(guān)系特征、人物屬性特征、主題詞語等等),而是從各個層面分別對相關(guān)文檔建立不同的模型(例如,分別建立人物關(guān)系屬性模型、主題模型并建立人物關(guān)系網(wǎng)等 等),并且分別進(jìn)行聚類,最后再將各個層面上的聚類結(jié)果進(jìn)行融合,得到最終的聚類結(jié)果。這樣做的好處在于,能夠抓住各個層面上所表述的重要信息,避免相互影響,如果某一層面具有很強(qiáng)的相似關(guān)系,則可以被挖掘出來,此外,也便于相似度計算方法的選擇以及閾值的設(shè)定。需要說明的是,上述裝置實施例是與前述方法實施例相對應(yīng)的,因此,裝置實施例中未詳述部分可以參見方法實施例部分的介紹,這里不再贅述。另外,還應(yīng)該指出的是,上述系列處理和裝置也可以通過軟件和/或固件實現(xiàn)。在通過軟件和/或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(jī),例如圖7所示的通用個人計算機(jī)700安裝構(gòu)成該軟件的程序,該計算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。在圖7中,中央處理單元(CPU) 701根據(jù)只讀存儲器(ROM) 702中存儲的程序或從存儲部分708加載到隨機(jī)存取存儲器(RAM) 703的程序執(zhí)行各種處理。在RAM 703中,也根據(jù)需要存儲當(dāng)CPU701執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 701、ROM 702和RAM 703經(jīng)由總線704彼此連接。輸入/輸出接口 705也連接到總線704。下述部件連接到輸入/輸出接口 705 :輸入部分706,包括鍵盤、鼠標(biāo)等等;輸出部分707,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚(yáng)聲器等等;存儲部分708,包括硬盤等等;和通信部分709,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器710也連接到輸入/輸出接口 705。可拆卸介質(zhì)711比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器710上,使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分708中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)711安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖7所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711??刹鹦督橘|(zhì)711的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是ROM 702、存儲部分708中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點,但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本發(fā)明實施例的術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或 者設(shè)備中還存在另外的相同要素。關(guān)于包括以上實施例的實施方式,還公開下述附記附記I、一種同名人物搜索方法,包括針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息;統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。附記2、根據(jù)附記I所述的方法,所述計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度,包括根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。附記3、根據(jù)附記I所述的方法,所述根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度,包括通過如下公式計算所述關(guān)系強(qiáng)度Relation(x, y) = aN (x, y) / max(7V(x), N(y)) +j L(U)
zeUN{Z)其中,x:目標(biāo)人物名稱;y :與X在相關(guān)文檔中共現(xiàn)過的其他人物名稱;z :與X在相關(guān)文檔中共現(xiàn)過、并且與y在其他相關(guān)文檔中共現(xiàn)過的其他人物名稱;U:z 的集合;L(U):集合U中包含的元素的數(shù)目;N(x, y) :x與y共現(xiàn)的相關(guān)文檔數(shù)目;
N(x):包含X的相關(guān)文檔數(shù)目;N(y):包含y的相關(guān)文檔數(shù)目;N(x, z) :x與z共現(xiàn)的相關(guān)文檔數(shù)目;N(y,z) :y與z共現(xiàn)的相關(guān)文檔數(shù)目;N(Z):包含z的相關(guān)文檔數(shù)目;N(x, y) /max (N(x), N(y)) :x 與 y 的直接關(guān)系強(qiáng)度;yNW) + N{y,z) : x與y的間接關(guān)系強(qiáng)度;
N(z)α、β :權(quán)重因子。附記4、根據(jù)附記I所述的方法,對于某相關(guān)文檔,通過以下方式為其建立人物關(guān)系特征向量將該相關(guān)文檔中包含的目標(biāo)人物名稱以外的其他人物名稱作為向量各個維度上的參數(shù),將目標(biāo)人物名稱與各其他人物名稱之間的關(guān)系強(qiáng)度作為各個維度上的數(shù)值,建立所述人物關(guān)系特征向量。附記5、根據(jù)附記I所述的方法,所述根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類包括根據(jù)各個相關(guān)文檔的人物關(guān)系特征向量,將各個相關(guān)文檔進(jìn)行相似度計算;根據(jù)相關(guān)文檔之間的相似度以及預(yù)設(shè)的第一閾值,對各個相關(guān)文檔進(jìn)行聚類。附記6、根據(jù)附記I至5任一項所述的方法,還包括根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類,得到主題聚類結(jié)果;和/或,根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類,得到人物屬性聚類結(jié)果;將所述主題聚類結(jié)果和/或人物屬性聚類結(jié)果與所述人物關(guān)系聚類結(jié)果相融合,得到最終的聚類結(jié)果,以便根據(jù)所述最終的聚類結(jié)果給出搜索結(jié)果。附記7、根據(jù)附記6所述的方法,所述根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類包括提取各相關(guān)文檔中包含的主題特征信息;根據(jù)各個相關(guān)文檔的主題特征信息建立各相關(guān)文檔的主題特征向量;根據(jù)所述主題特征向量對各個相關(guān)文檔進(jìn)行相似度計算;根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第二閾值,對各個相關(guān)文檔進(jìn)行聚類。附記8、根據(jù)附記7所述的方法,所述獲取各相關(guān)文檔中包含的主題特征信息包括對各個相關(guān)文檔進(jìn)行分詞處理;在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計得到各個詞語的權(quán)重;根據(jù)所述權(quán)重選取用于表述各個相關(guān)文檔主要內(nèi)容的主題詞語。附記9、根據(jù)附記8所述的方法,針對某相關(guān)文檔D,通過以下方式計算該相關(guān)文檔D中各個詞語\的權(quán)重-21og λ = 2[log L(P1, on, on+o12)+log L(p2, O21, o21+o22)-log L(p, on, on+o12)-log L(p, O21, o21+o22)]
其中,λ :詞語\在相關(guān)文檔D中的權(quán)重;O11 :詞語\在相關(guān)文檔D中出現(xiàn)的詞頻;O12 :詞語\在相關(guān)文檔D以外的其他文檔中出現(xiàn)的詞頻;O21 t,以外的其他詞語在相關(guān)文檔D中出現(xiàn)的詞頻;O22 ti以外的其他詞語在相關(guān)文檔D以外的其他相關(guān)文檔中出現(xiàn)的詞頻;L(p,k,n) =Pk(I-P) (n-k);·
P1 = O11/ (0n+012);P2 = O21/ (021+022);P = (0n+021) / (0n+012+021+022) o附記10、根據(jù)附記6所述的方法,所述根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類包括提取各相關(guān)文檔中包含的人物屬性信息;根據(jù)各個相關(guān)文檔的人物屬性信息建立各相關(guān)文檔的人物屬性向量;根據(jù)所述人物屬性向量對各個相關(guān)文檔進(jìn)行相似度計算;根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第三閾值,對各個相關(guān)文檔進(jìn)行聚類。附記11、一種同名人物搜索裝置,包括檢索單元,配置為針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;人物關(guān)系提取單元,配置為分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息;統(tǒng)計單元,配置為統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;向量建立單元,配置為根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;人物關(guān)系聚類單元,配置為根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。附記12、根據(jù)附記11所述的裝置,所述統(tǒng)計單元具體配置為根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。附記13、根據(jù)附記11所述的裝置,所述統(tǒng)計單元具體配置為通過如下公式計算所述關(guān)系強(qiáng)度Relation(x, y) = aN(x, y) / max(^V(x), 7V(_y)) + #(x,z) + z) / L(U)
N(z)其中,x:目標(biāo)人物名稱;y :與X在相關(guān)文檔中共現(xiàn)過的其他人物名稱;z :與X在相關(guān)文檔中共現(xiàn)過、并且與y在其他相關(guān)文檔中共現(xiàn)過的其他人物名稱;U:z 的集合;
L(U):集合U中包含的元素的數(shù)目;N(x, y) :x與y共現(xiàn)的相關(guān)文檔數(shù)目;N(X):包含X的相關(guān)文檔數(shù)目;N(y):包含y的相關(guān)文檔數(shù)目;N(x, z) :x與z共現(xiàn)的相關(guān)文檔數(shù)目;N(y,z) :y與z共現(xiàn)的相關(guān)文檔數(shù)目;N(Z):包含z的相關(guān)文檔數(shù)目;N(x, y) /max (N(x), N(y)) :x 與 y 的直接關(guān)系強(qiáng)度; TN^z) + N{y'z) I L(U)x ^ y 的間接關(guān)系強(qiáng)度;
會 N(z)α、β :權(quán)重因子。附記14、根據(jù)附記11所述的裝置,所述向量建立單元具體配置為將相關(guān)文檔中包含的目標(biāo)人物名稱以外的其他人物名稱作為向量各個維度上的參數(shù),將目標(biāo)人物名稱與各其他人物名稱之間的關(guān)系強(qiáng)度作為各個維度上的數(shù)值,建立所述人物關(guān)系特征向量。附記15、根據(jù)附記11所述的裝置,所述人物關(guān)系聚類單元包括第一相似度計算子單元,配置為根據(jù)各個相關(guān)文檔的人物關(guān)系特征向量,將各個相關(guān)文檔進(jìn)行相似度計算;第一聚類子單元,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)設(shè)的第一閾值,對各個相關(guān)文檔進(jìn)行聚類。附記16、根據(jù)附記11至15任一項所述的裝置,還包括主題聚類單元,配置為根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類,得到主題聚類結(jié)果;和/或,人物屬性聚類單元,配置為根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類,得到人物屬性聚類結(jié)果;融合單元,配置為將所述主題聚類結(jié)果和/或人物屬性聚類結(jié)果與所述人物關(guān)系聚類結(jié)果相融合,得到最終的聚類結(jié)果,以便根據(jù)所述最終的聚類結(jié)果給出搜索結(jié)果。附記17、根據(jù)附記16所述的裝置,所述主題聚類單元包括主題特征提取子單元,配置為提取各相關(guān)文檔中包含的主題特征信息;主題特征向量建立子單元,配置為根據(jù)各個相關(guān)文檔的主題特征信息建立各相關(guān)文檔的主題特征向量;第二相似度計算子單元,配置為根據(jù)所述主題特征向量對各個相關(guān)文檔進(jìn)行相似度計算;第二聚類子單元,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第二閾值,對各個相關(guān)文檔進(jìn)行聚類。附記18、根據(jù)附記17所述的裝置,所述主題特征提取子單元包括分詞子單元,配置為對各個相關(guān)文檔進(jìn)行分詞處理;統(tǒng)計子單元,配置為在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計得到各個詞語的權(quán)重;選取子單元,配置為根據(jù)所述權(quán)重選取用于表述各個相關(guān)文檔主要內(nèi)容的主題詞語。附記19、根據(jù)附記18所述的裝置,所述統(tǒng)計子單元具體配置為針對某相關(guān)文檔D,通過以下方式計算該相關(guān)文檔D中各個詞語\的權(quán)重-21og λ = 2[log L(P1, on, on+o12)+log L(p2, O21, o21+o22)-log L(p, on, on+o12)-log L(p, o21, o21+o22)]其中,λ :詞語\在相關(guān)文檔D中的權(quán)重;O11 :詞語\在相關(guān)文檔D中出現(xiàn)的詞頻;
O12 :詞語\在相關(guān)文檔D以外的其他文檔中出現(xiàn)的詞頻;O21 t,以外的其他詞語在相關(guān)文檔D中出現(xiàn)的詞頻;O22 ti以外的其他詞語在相關(guān)文檔D以外的其他相關(guān)文檔中出現(xiàn)的詞頻;L(p,k,n) =Pk(I-P) (n-k);P1 = O11/ (0n+012);P2 = 021/(021+022);P = (0n+021) / (0n+012+021+022)。附記20、根據(jù)附記16所述的裝置,所述人物屬性信息聚類單元包括人物屬性特征提取子單元,配置為提取各相關(guān)文檔中包含的人物屬性信息;人物屬性向量建立子單元,配置為根據(jù)各個相關(guān)文檔的人物屬性信息建立各相關(guān)文檔的人物屬性向量;第三相似度計算子單元,配置為根據(jù)所述人物屬性向量對各個相關(guān)文檔進(jìn)行相似度計算;第三聚類子單元,配置為根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第三閾值,對各個相關(guān)文檔進(jìn)行聚類。
權(quán)利要求
1.一種同名人物搜索方法,包括 針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔; 分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息; 統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度; 根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量; 根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法,所述計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度,包括 根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。
3.根據(jù)權(quán)利要求2所述的方法,所述根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度,包括通過如下公式計算所述關(guān)系強(qiáng)度Relation(x, y) = aN(x, y) / max(iV(x), N(y)) +z) + ^~(兄 z) / L(U) zet/N(Z) 其中,X :目標(biāo)人物名稱; y :與X在相關(guān)文檔中共現(xiàn)過的其他人物名稱; Z :與X在相關(guān)文檔中共現(xiàn)過、并且與y在其他相關(guān)文檔中共現(xiàn)過的其他人物名稱; U z的集合; L(U):集合U中包含的元素的數(shù)目; N(x,y) :x與y共現(xiàn)的相關(guān)文檔數(shù)目; N(X):包含X的相關(guān)文檔數(shù)目; N(y):包含y的相關(guān)文檔數(shù)目; N(x, z) :x與z共現(xiàn)的相關(guān)文檔數(shù)目; N(y, z) :y與z共現(xiàn)的相關(guān)文檔數(shù)目; N(Z):包含z的相關(guān)文檔數(shù)目; N(X, y) /max (N(x), N(y)) :x 與 y 的直接關(guān)系強(qiáng)度; Σ釋轉(zhuǎn)):X與y的間接關(guān)系強(qiáng)度; N(Z) α、β :權(quán)重因子。
4.根據(jù)權(quán)利要求I至3任一項所述的方法,還包括 根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類,得到主題聚類結(jié)果;和/或,根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類,得到人物屬性聚類結(jié)果;將所述主題聚類結(jié)果和/或人物屬性聚類結(jié)果與所述人物關(guān)系聚類結(jié)果相融合,得到最終的聚類結(jié)果,以便根據(jù)所述最終的聚類結(jié)果給出搜索結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,所述根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類包括 提取各相關(guān)文檔中包含的主題特征信息; 根據(jù)各個相關(guān)文檔的主題特征信息建立各相關(guān)文檔的主題特征向量; 根據(jù)所述主題特征向量對各個相關(guān)文檔進(jìn)行相似度計算; 根據(jù)相關(guān)文檔之間的相似度以及預(yù)置的第二閾值,對各個相關(guān)文檔進(jìn)行聚類。
6.根據(jù)權(quán)利要求5所述的方法,所述獲取各相關(guān)文檔中包含的主題特征信息包括 對各個相關(guān)文檔進(jìn)行分詞處理; 在全部相關(guān)文檔中對分詞得到的詞語進(jìn)行綜合統(tǒng)計得到各個詞語的權(quán)重; 根據(jù)所述權(quán)重選取用于表述各個相關(guān)文檔主要內(nèi)容的主題詞語。
7.一種同名人物搜索裝置,包括 檢索單元,配置為針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔; 人物關(guān)系提取單元,配置為分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,所述人物關(guān)系特征信息為在同一相關(guān)文檔中所述目標(biāo)人物名稱與其他人物名稱的共現(xiàn)信息; 統(tǒng)計單元,配置為統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度; 向量建立單元,配置為根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量; 人物關(guān)系聚類單元,配置為根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,所述統(tǒng)計單元具體配置為 根據(jù)所述目標(biāo)人物名稱與其他人物名稱之間的直接關(guān)系強(qiáng)度及間接關(guān)系強(qiáng)度,計算得到所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度。
9.根據(jù)權(quán)利要求8所述的裝置,所述統(tǒng)計單元通過如下公式計算所述關(guān)系強(qiáng)度Relation(x, y) = ccN(x, y) / max(JV(x), N(y)) + N、X,Z\^《(少,Z) / L(U) N{z) 其中,X :目標(biāo)人物名稱; y :與X在相關(guān)文檔中共現(xiàn)過的其他人物名稱; Z :與X在相關(guān)文檔中共現(xiàn)過、并且與y在其他相關(guān)文檔中共現(xiàn)過的其他人物名稱; U z的集合; L(U):集合U中包含的元素的數(shù)目; N(x,y) :x與y共現(xiàn)的相關(guān)文檔數(shù)目; N(X):包含X的相關(guān)文檔數(shù)目; N(y):包含y的相關(guān)文檔數(shù)目; N(x, z) :x與z共現(xiàn)的相關(guān)文檔數(shù)目; N(y, z) :y與z共現(xiàn)的相關(guān)文檔數(shù)目;N(z):包含z的相關(guān)文檔數(shù)目; N(X, y) /max (N(x), N(y)) :x 與 y 的直接關(guān)系強(qiáng)度; YN{X^N{^Z) IL{U) : X與y的間接關(guān)系強(qiáng)度; ^ N(z) α、β :權(quán)重因子。
10.根據(jù)權(quán)利要求7至9任一項所述的裝置,還包括 主題聚類單元,配置為根據(jù)所述相關(guān)文檔中包含的主題特征信息,對各個相關(guān)文檔進(jìn)行聚類,得到主題聚類結(jié)果;和/或,人物屬性聚類單元,配置為根據(jù)所述相關(guān)文檔中包含的與所述目標(biāo)人物名稱相關(guān)的人物屬性信息,對各個相關(guān)文檔進(jìn)行聚類,得到人物屬性聚類結(jié)果; 融合單元,配置為將所述主題聚類結(jié)果和/或人物屬性聚類結(jié)果與所述人物關(guān)系聚類結(jié)果相融合,得到最終的聚類結(jié)果,以便根據(jù)所述最終的聚類結(jié)果給出搜索結(jié)果。
全文摘要
本發(fā)明實施例公開了一種同名人物搜索方法及裝置,其中,所述方法包括針對輸入的目標(biāo)人物名稱,檢索得到包含所述目標(biāo)人物名稱的相關(guān)文檔;分別提取各個相關(guān)文檔中的人物關(guān)系特征信息,統(tǒng)計各個相關(guān)文檔中的所述人物關(guān)系特征信息,建立人物關(guān)系圖,并計算所述目標(biāo)人物名稱與所述人物關(guān)系圖中其他人物名稱之間的關(guān)系強(qiáng)度;根據(jù)各個相關(guān)文檔各自包含的人物名稱,以及所述關(guān)系強(qiáng)度,為各個相關(guān)文檔建立人物關(guān)系特征向量;根據(jù)所述人物關(guān)系特征向量,對各個相關(guān)文檔進(jìn)行聚類,得到人物關(guān)系聚類結(jié)果,以便至少根據(jù)所述人物關(guān)系聚類結(jié)果給出搜索結(jié)果。通過本發(fā)明,能夠提高同名人物聚類的準(zhǔn)確度,進(jìn)而提高搜索結(jié)果的質(zhì)量,提升搜索引擎的性能。
文檔編號G06F17/30GK102880623SQ20111020956
公開日2013年1月16日 申請日期2011年7月13日 優(yōu)先權(quán)日2011年7月13日
發(fā)明者張姝, 賈文杰, 王新文, 夏迎炬, 孟遙, 于浩 申請人:富士通株式會社