專利名稱:一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人物都采用網(wǎng)絡(luò)進(jìn)行例如通信或者商業(yè)洽談等,因此互聯(lián)網(wǎng)上的人物信息資源極大豐富。但是因?yàn)槿宋锩Q在實(shí)際應(yīng)用中存在重名現(xiàn)象,所以互聯(lián)網(wǎng)上的重名現(xiàn)象也越來越嚴(yán)重。因此,在互聯(lián)網(wǎng)上采用何種數(shù)據(jù)處理方法對(duì)這些同名的人物進(jìn)行區(qū)分就變的非常重要。
目前現(xiàn)有技術(shù)中,人物名稱信息分類的方案都是采用基于詞的網(wǎng)頁聚類的方法,即是將包含相同人物名稱的相似網(wǎng)頁進(jìn)行聚類。然而,因?yàn)橥粋€(gè)人物可能涉及到不同的事件,而且自然語言的表達(dá)方式多樣且同義詞較多,導(dǎo)致現(xiàn)有技術(shù)如果單單從用詞來區(qū)分人物名稱,就很難將不同人物的網(wǎng)頁內(nèi)容區(qū)別開來,所以本來屬于同一個(gè)人物的網(wǎng)頁也很
難聚為一類。進(jìn)一步的,如果對(duì)于人物名稱信息的區(qū)別不夠準(zhǔn)確,就會(huì)使得需要獲取準(zhǔn)確的人物名稱信息的人物不得不重復(fù)提交查詢請(qǐng)求,這將會(huì)導(dǎo)致互聯(lián)網(wǎng)服務(wù)器對(duì)于人物重復(fù)提交的請(qǐng)求需要不斷地響應(yīng),從而也增加了互聯(lián)網(wǎng)服務(wù)器的數(shù)據(jù)處理負(fù)擔(dān),降低了互聯(lián)網(wǎng)服務(wù)器的性能。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法及裝置,能夠比現(xiàn)有技術(shù)更為準(zhǔn)確的區(qū)別同名的人物,進(jìn)一步的,能夠減輕互聯(lián)網(wǎng)服務(wù)器的處理負(fù)擔(dān),提升互聯(lián)網(wǎng)服務(wù)器的性能。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,包括針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的初始聚類結(jié)果;融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,包括檢索模塊,用于針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;抽取模塊,用于分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;泛化模塊,用于利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;關(guān)系挖掘模塊,用于按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果;結(jié)果融合模塊,用于融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。
另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法。此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法。根據(jù)本發(fā)明實(shí)施例的上述一種方法,通過同義詞詞典和上下位詞典的引入,可以比現(xiàn)有技術(shù)更為準(zhǔn)確的區(qū)別互聯(lián)網(wǎng)上同名的不同人物,使得對(duì)于同名人物的區(qū)分效率和精確度大大提升;進(jìn)一步的,還能夠減輕互聯(lián)網(wǎng)服務(wù)器的處理負(fù)擔(dān),提升互聯(lián)網(wǎng)服務(wù)器的性倉泛。在下面的說明書部分中給出本發(fā)明實(shí)施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
下面結(jié)合具體的實(shí)施例,并參照附圖,對(duì)本發(fā)明實(shí)施例的上述和其它目的和優(yōu)點(diǎn)做進(jìn)一步的描述。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖I是示出作為本發(fā)明實(shí)施例提供的第一種方法的流程圖;圖2是示出作為第一種方法的步驟S102中抽取人物屬性特征的流程圖;圖3是示出作為第一種方法的步驟S102中抽取網(wǎng)頁主題特征的流程圖;圖4是示出作為第一種方法的步驟S103中對(duì)人物屬性特征進(jìn)行泛化的流程圖;圖5是示出作為第一種方法的步驟S103中對(duì)網(wǎng)頁主題特征進(jìn)行泛化的流程圖;圖6是示出作為第一種方法的步驟S104中按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的流程圖;圖7是示出作為第一種方法的步驟S105中一種情況的流程圖;圖8是示出作為第一種方法的步驟S105中另一種情況的流程圖;圖9是示出作為本發(fā)明實(shí)施例提供的另一種方法的流程圖;圖10是示出作為另一種方法中獲取到的初始關(guān)系結(jié)果的示意圖;圖11是示出作為另一種方法中利用泛化后的網(wǎng)頁主題特征的且調(diào)整了類別數(shù)量的初始聚類結(jié)果的示意圖;圖12為將圖10所示的初始關(guān)系結(jié)果和圖11所示的調(diào)整了類別數(shù)量的初始聚類結(jié)果進(jìn)行融合之后的最終分類結(jié)果的示意圖;圖13是示出作為本發(fā)明實(shí)施例提供的第一種裝置的示意圖;圖14是示出作為第一種裝置中抽取模塊1302的一種示意圖;圖15是示出作為第一種裝置中抽取模塊1302的另一種示意圖;圖16是示出作為第一種裝置中泛化模塊1303的一種示意圖;圖17是示出作為第一種裝置中泛化模塊1303的另一種示意圖;圖18是示出作為第一種裝置中結(jié)果融合模塊1305的一種示意圖;圖19是示出作為本發(fā)明實(shí)施例提供的另一種裝置的示意圖20是示出作為本發(fā)明的實(shí)施例中所采用的信息處理設(shè)備的個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
具體實(shí)施例方式下面參照附圖來說明本發(fā)明的實(shí)施例。本發(fā)明實(shí)施例針對(duì)現(xiàn)有技術(shù)的問題,提供了第一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,參見圖1,具體可以包括SlOl :針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁。在本實(shí)施例中,在通過瀏覽器輸入人物名稱信息的情況下,需要以所述人物名稱信息作為查詢關(guān)鍵詞通過搜索引擎進(jìn)行檢索,從而得到包含所述人物名稱信息的相關(guān)網(wǎng)頁。其中,搜索引擎的具體實(shí)現(xiàn)不影響本發(fā)明實(shí)施例的實(shí)現(xiàn),例如輸入的人物名稱如果為“李想”,將會(huì)得到大量包含“李想”這個(gè)名字的網(wǎng)頁。
需要說明的是,因?yàn)檫@些網(wǎng)頁中提及的“李想”可能并非實(shí)際中的同一個(gè)人,而是對(duì)應(yīng)著若干個(gè)不同的人,例如泡泡網(wǎng)的首席執(zhí)行官“李想”,天津人民廣播電臺(tái)的主持人“李想”,以及岑溪市計(jì)委系統(tǒng)黨委副書記“李想”,等等;所以在本發(fā)明實(shí)施例中提供了一種人物名稱的分類方法,用于更準(zhǔn)確及精確的對(duì)上述相關(guān)網(wǎng)頁進(jìn)行分類。S102 :分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征。在得到包括人物名稱的相關(guān)網(wǎng)頁之后,需要分別抽取相關(guān)網(wǎng)頁中與人物名稱相關(guān)的人物屬性特征,以及與相關(guān)網(wǎng)頁本身內(nèi)容相關(guān)的網(wǎng)頁主題特征。參考圖2所示,其中所述的抽取所述相關(guān)網(wǎng)頁的人物屬性特征的步驟,具體可以包括S201 :分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別。在抽取所述相關(guān)網(wǎng)頁的人物屬性特征的過程中,首先需要對(duì)獲得的網(wǎng)頁正文進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別等淺層分析。其中,分句、分詞、詞形標(biāo)注和/或命名實(shí)體識(shí)別均可采用現(xiàn)有技術(shù)中的工具實(shí)現(xiàn),而其中的命名實(shí)體識(shí)別,即是識(shí)別出相關(guān)網(wǎng)頁中的例如人物名稱(即是人名)、機(jī)構(gòu)名稱和地名等實(shí)體。為了方便本領(lǐng)域技術(shù)人員更好的理解本步驟,下面舉出一個(gè)人物屬性特征抽取的具體例子。例如,檢索得到的相關(guān)網(wǎng)頁原文包括如下內(nèi)容“李想是80后的典型代表,泡泡網(wǎng)(北京泡泡信息技術(shù)有限公司)首席執(zhí)行官。他的泡泡網(wǎng)是一家從事電腦硬件、個(gè)人和辦公數(shù)碼產(chǎn)品的信息服務(wù)的網(wǎng)站。”那么對(duì)上述相關(guān)網(wǎng)頁原文經(jīng)過分詞和詞性標(biāo)注可以得到如下結(jié)果“李想/nr是/v80后/n的/p典型/a代表/n,/pu泡泡網(wǎng)/n (/pu北京/n泡泡/n信息/n技術(shù)/n有限/n公司/n)/pu首席/a執(zhí)行官/n。他/pr的/p泡泡網(wǎng)/n是/v — /nu家/qu從事/v電腦/n硬件/n、/pu個(gè)人/v和/pr辦公/n數(shù)碼/n產(chǎn)品/n的/p信息/n服務(wù)/n的/p網(wǎng)站/n。/pu,,。再對(duì)上述分詞和詞性標(biāo)注結(jié)果進(jìn)行命名實(shí)體識(shí)別,可以得到如下內(nèi)容李想/nr是/v 80后/n的/p典型/a代表/n,/pu泡泡網(wǎng)/n (/pu北京Zn泡泡Zn信息Zn技術(shù)Zn有限/n公司/n)/pu首席/a執(zhí)行官/n。/pu他/pr的/p泡泡網(wǎng)/n是/v — /nu家/qu從事/v電腦/n硬件/n、/pu個(gè)人/v和/pr辦公/n數(shù)碼/n產(chǎn)品/n的/p信息/n服務(wù)/n的/p 網(wǎng)站 /n。/pu”。其中,“圭想”表示人名,“北直”表示地名,“泡泡網(wǎng)”和“泡泡Zn信息/n技術(shù)/n有限Zn公司/”表示機(jī)構(gòu)名稱,而“首席/a執(zhí)行官”表示職業(yè)或職位。S202 :獲取所述相關(guān)詞語中與人物名稱信息相關(guān)的屬性關(guān)鍵詞,所述屬性關(guān)鍵詞包括下述各項(xiàng)中的一項(xiàng)或多項(xiàng)職稱、單位、住址、特長和專業(yè)。而得到相關(guān)詞語之后,需要從其中獲取到與人物名稱相關(guān)的屬性關(guān)鍵詞,該屬性關(guān)鍵詞反映人物屬性,可以包括人物的職稱、單位、住址、特長和/或?qū)I(yè)等關(guān)鍵詞,例如,可以預(yù)先選定人物的職稱和單位作為人物屬性。S203:在所述屬性關(guān)鍵詞中選取與人物名稱信息的出現(xiàn)位置的距離小于預(yù)設(shè)閾值的屬性關(guān)鍵詞,作為與相關(guān)網(wǎng)頁對(duì)應(yīng)的人物屬性特征集。 根據(jù)預(yù)先選取的人物屬性,可以采用人物名稱就近匹配原則抽取與人物名稱距離最近的職稱名稱和單位名稱。那么基于上述屬性關(guān)鍵詞以及人物名稱“李想”,在上述例子中可以抽取出如下的人物名稱屬性為“職位首席執(zhí)行官;工作單位泡泡網(wǎng)”。與獲取人物屬性特征不同的是,網(wǎng)頁主題特征用來反映對(duì)于一個(gè)相關(guān)網(wǎng)頁的主題,抽取網(wǎng)頁主題特征的目的是計(jì)算網(wǎng)頁中每個(gè)相關(guān)詞語對(duì)于本網(wǎng)頁的表征程度,從而可以抽取出一個(gè)相關(guān)詞語向量來表示此網(wǎng)頁。參考圖3所示,所述抽取所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征的步驟,具體可以包括S301 :分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別。本步驟的具體實(shí)現(xiàn)方式可以與步驟S201相同,在此不再贅述。S302:分別對(duì)各個(gè)相關(guān)網(wǎng)頁的所述相關(guān)詞語進(jìn)行加權(quán)計(jì)算以獲取各個(gè)相關(guān)詞語的
權(quán)重值。在得到了相關(guān)詞語之后,可以再對(duì)各個(gè)相關(guān)網(wǎng)頁中的詞語進(jìn)行加權(quán)計(jì)算,得到權(quán)重值高的詞語作為能夠表征主題的詞語。可以采用TF-IDF(Term Frequency-InverseDocument Frequency,詞頻-倒排網(wǎng)頁頻率)方法來計(jì)算權(quán)重值。下面簡單介紹一下TF-IDF的原理,方便本領(lǐng)域技術(shù)人員在實(shí)際應(yīng)用中的具體實(shí)施。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字或詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字或詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與人物查詢之間相關(guān)程度的度量或評(píng)級(jí)。TF-DF的主要思想是如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF實(shí)際上可以理解為TF * IDF,TF表示詞條在網(wǎng)頁中出現(xiàn)的頻率,而對(duì)于IDF來講,如果包含某個(gè)詞條t的網(wǎng)頁越少,則IDF越大,因?yàn)檎f明該詞條t具有很好的類別區(qū)分能力。TF的計(jì)算方式可以為一個(gè)詞語出現(xiàn)的次數(shù)除以該文件的總詞語數(shù)。例如,一篇文件的總詞語數(shù)是100個(gè),而詞語“網(wǎng)站”出現(xiàn)了 3次,那么“網(wǎng)站”一詞在該文件中的TF就是0.03(計(jì)算方式為3/100)。而計(jì)算文件頻率(DF)的方法可以是測定在網(wǎng)頁集合中總共有多少份文件出現(xiàn)過“網(wǎng)站”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“網(wǎng)站”一詞在10份文件出現(xiàn)過,而網(wǎng)頁集合中的文件總數(shù)是10000份的話,其網(wǎng)頁頻率就是0. 001(計(jì)算方式為10/10000)。最后,TF-IDF的值就可以由計(jì)算得到的詞頻除以網(wǎng)頁頻率而得到。以上面的例子來說,“網(wǎng)站”一詞在該文件集的TF-IDF分?jǐn)?shù)會(huì)是30 (計(jì)算方式為0. 03/0. 001)。S303:針對(duì)各個(gè)相關(guān)網(wǎng)頁,選取權(quán)重值高于預(yù)設(shè)閾值的相關(guān)詞語作為所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。在得到各個(gè)相關(guān)詞語的權(quán)重值之后,就選取高于預(yù)設(shè)閾值的相關(guān)詞語作為能夠表征這個(gè)相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。仍以上述相關(guān)網(wǎng)頁原文的內(nèi)容為例,經(jīng)過主題特征抽取,抽取出來的網(wǎng)頁特征向量就可以為如下內(nèi)容“〈李想/50是/0. 180后/10的/0.01典型/I代表/2泡泡網(wǎng)/40北京/20泡泡/30信息/15技術(shù)/7有限/5公司/4首席/20執(zhí)行官/30他/0. 6 — /I家/2從事/4電腦/8硬件/8個(gè)人/4和/0. 7辦公/7數(shù)碼/8產(chǎn)品/4服務(wù)/12網(wǎng)站/30>”。其中,每個(gè)相關(guān)詞語后面的數(shù)字是它對(duì)應(yīng)的權(quán)重值。例如,李想這個(gè)相關(guān)詞語的權(quán)重值為50。·
S103 :利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化。在本發(fā)明實(shí)施例中,抽取出人物屬性特征和網(wǎng)頁主題特征之后,還需要利用上下位詞典和同義詞詞典,對(duì)于抽取出的人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化擴(kuò)展。例如,將相關(guān)詞語〈任教 > 可以泛化為〈教授,就職,教師 >,而相關(guān)詞語〈北大 > 可以泛化為〈北京大學(xué),PKU〉。其中的同義詞詞典可以例如《同義詞詞林》、((Hownet))等,而從《Hownet》中我們可以發(fā)現(xiàn)例如“首席執(zhí)行官”和“CEO”具有相同的意思,因此,“首席執(zhí)行官”和“CEO”就是同義詞。而上下位詞則可以從現(xiàn)有的較為常見的綜合詞典如《中文概念詞典》(參考文獻(xiàn)于江生,俞士汶,中文概念詞典的結(jié)構(gòu),中文信息學(xué)報(bào).2002,16(4))得到,例如高管-首席執(zhí)行官,以及北京-朝陽區(qū),等等。參考圖4所示,所述利用上下位詞典和/或同義詞詞典對(duì)所述人物屬性特征進(jìn)行泛化的步驟,具體可以包括S401 :從所述上下位詞典和/或同義詞詞典中獲取所述人物屬性特征集中屬性關(guān)鍵詞的上位詞和/或同義詞。在利用上下位詞典和/或同義詞詞典對(duì)所述人物屬性特征進(jìn)行泛化的過程中,需要從下位詞典中獲取人物屬性特征集中屬性關(guān)鍵詞的上位詞。需要說明的是,在利用上下位詞典進(jìn)行泛化時(shí),因?yàn)樯衔辉~的數(shù)量要遠(yuǎn)小于下位詞的數(shù)量,因此只需要考慮相關(guān)的上位詞即可。S402 :依據(jù)所述屬性關(guān)鍵詞的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的人物屬性特征。將從上下位詞典中獲取到的上位詞,以及從同義詞詞典中獲取到的同義詞,全部加入原始的人物屬性特征中,得到泛化后的人物屬性特征。例如,步驟S203抽取得到的人物屬性特征經(jīng)過泛化之后的結(jié)果為“職位首席執(zhí)行官,CE0,高管;工作單位泡泡網(wǎng)”。參考圖5所示,所述利用上下位詞典和/或同義詞詞典對(duì)所述網(wǎng)頁主題特征進(jìn)行泛化的步驟,具體可以包括
S501 :從所述上下位詞典和/或所述同義詞詞典中獲取所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞。S502 :依據(jù)所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征。經(jīng)過同義詞詞典和上下位詞典的泛化,原始的相關(guān)詞語和泛化后的相關(guān)詞條的對(duì)應(yīng)關(guān)系的示例可以如下所示北京-首都,信息-IT,首席執(zhí)行官-CEO、高管,電腦-計(jì)算機(jī),個(gè)人-私人,數(shù)碼-電子。而步驟S303中抽取的網(wǎng)頁主題特征經(jīng)過泛化之后,其結(jié)果可以如下內(nèi)容所示 “〈李想/50是/0. 180后/10的/0. 01典型/I代表/2泡泡網(wǎng)/40北京/20泡泡/30信息/15技術(shù)/7有限/5公司/4首席/20執(zhí)行官/30他/0. 6 — /I家/2從事/4電腦/8硬件/8個(gè)人/4和/0. 7辦公/7數(shù)碼/8產(chǎn)品/4服務(wù)/12網(wǎng)站/30首都/10IT/10CE0/15高管/I. 5計(jì)算機(jī)/4私人/2電子/1>”。S104:按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的初始聚類結(jié)果。當(dāng)對(duì)人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化之后,可以按照泛化后的人物屬性特征確定各個(gè)相關(guān)網(wǎng)頁的直接關(guān)系,以及按照泛化后的網(wǎng)頁主題特征對(duì)所述相關(guān)網(wǎng)頁進(jìn)行聚類。其中,所述按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果的實(shí)現(xiàn)方式,具體可以為依據(jù)擴(kuò)充后的不同的相關(guān)網(wǎng)頁之間人物屬性特征集的關(guān)系,確定不同的相關(guān)網(wǎng)頁之間的初始關(guān)系;所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。在確定初始關(guān)系的過程中可以采用不同的判定規(guī)則,其中一種可能的判定規(guī)則例如如果兩個(gè)相關(guān)網(wǎng)頁的人物屬性特征中具有相同或者有一定上下位關(guān)系的工作單位,則這兩個(gè)相關(guān)網(wǎng)頁表示同一個(gè)人物的概率較高;或者,如果兩個(gè)相關(guān)網(wǎng)頁的人物屬性特征中包括在同一個(gè)單位具有相同或有一定上下位關(guān)系的職業(yè)或特長的屬性關(guān)鍵詞,則這兩個(gè)相關(guān)網(wǎng)頁是同一個(gè)人物的概率較高。類似地,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求對(duì)判定規(guī)則進(jìn)行適應(yīng)性調(diào)整。例如,相關(guān)網(wǎng)頁A泛化后的人物屬性特征為“職位首席執(zhí)行官、CEO、高管;工作單位泡泡網(wǎng)”,而網(wǎng)頁B泛化后的人物屬性特征為“職位高管、創(chuàng)始人,工作單位泡泡網(wǎng)”。在上述兩個(gè)人物屬性特征中,工作單位相同,而且職位有交集,則可以確定網(wǎng)頁A和網(wǎng)頁B中描述的“李想”指的是同一個(gè)人物。在步驟S104中,所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的實(shí)現(xiàn)方式,參考圖6所示,可以包括S601 :依據(jù)擴(kuò)充后的相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量,采用層次凝聚聚類算法對(duì)所述相關(guān)網(wǎng)頁進(jìn)行分類。在對(duì)泛化后的網(wǎng)頁主題特征進(jìn)行聚類時(shí),可以采用傳統(tǒng)的聚類方法對(duì)各個(gè)相關(guān)網(wǎng)頁的相似程度進(jìn)行衡量。例如,采用余弦相似度算法計(jì)算網(wǎng)頁主題特征之間的相似度,并采用層次凝聚聚類算法(HAC)(參考文獻(xiàn)N. Jardine and C. J. van Rijsbergen. Theuse of hierarchic clustering in information retrieval. Information Storage andRetrieval, 7 :217-240,1971)來對(duì)所述相關(guān)網(wǎng)頁進(jìn)行聚類。
S602 :將層次凝聚聚類算法的分類結(jié)果作為初始聚類結(jié)果。將所述層次凝聚聚類算法的分類結(jié)果作為初始的聚類結(jié)果。S105 :融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。需要說明的是,根據(jù)人物屬性特征確定的初始關(guān)系因?yàn)闆]有考慮網(wǎng)頁主題特征所以可能不夠精確,而根據(jù)網(wǎng)頁主題特征進(jìn)行分類的相關(guān)網(wǎng)頁的初始聚類結(jié)果也可能不夠準(zhǔn)確,所以通過將所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果進(jìn)行合理的融合,從而可以得到更為準(zhǔn)確和精確的相關(guān)網(wǎng)頁的最終分類結(jié)果??梢岳斫獾氖?,因?yàn)楦鶕?jù)人物屬性特征確定的初始關(guān)系是基于人物屬性執(zhí)行的結(jié)果,所以初始關(guān)系在某種程度上更為符合實(shí)際情況。因此,在實(shí)際應(yīng)用中,可以參考著初始關(guān)系結(jié)果來調(diào)整所述初始聚類結(jié)果。 在實(shí)際應(yīng)用中,所述融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果的步驟,存在兩種情況,第一種情況參考圖7所示,具體可以包括S701 :在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,判斷所述屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為同一個(gè)類別,如果是,則不作處理,如果不是,則執(zhí)行步驟S702。在兩個(gè)相關(guān)網(wǎng)頁的初始關(guān)系表示這兩個(gè)相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,需要判斷屬于實(shí)際中同一個(gè)人物的這兩個(gè)相關(guān)網(wǎng)頁在初始聚類結(jié)果中有沒有分為同一個(gè)類別。如果已經(jīng)分為一類了,則對(duì)這兩個(gè)相關(guān)網(wǎng)頁不做任何處理。S702 :將屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為一類。而如果這兩個(gè)表示同一個(gè)人物的相關(guān)網(wǎng)頁沒有被分為同一類,則將這兩個(gè)屬于同一個(gè)人物的相關(guān)網(wǎng)頁調(diào)整為一類。按照上述融合方式對(duì)所有的相關(guān)網(wǎng)頁進(jìn)行結(jié)果融合步驟。S703 :將調(diào)整后的初始聚類結(jié)果作為所述相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。最后將所有相關(guān)網(wǎng)頁融合之后的初始聚類結(jié)果,作為相關(guān)網(wǎng)頁的最后聚類結(jié)果。而最后得到的聚類結(jié)果則更加準(zhǔn)確和精確的反映了不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。另一種情況參考圖8所示,所述融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果的步驟,具體可以包括S801 :在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁不屬于實(shí)際中同一個(gè)人物的情況下,判斷所述不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為不同類別,如果是,則不作處理,如果否,則執(zhí)行步驟S802。在兩個(gè)相關(guān)網(wǎng)頁表示不屬于實(shí)際中同一個(gè)人物的情況下,則判斷這兩個(gè)相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否分為不同類別,如果已經(jīng)不在同一個(gè)類別中,則對(duì)該兩個(gè)相關(guān)網(wǎng)頁不做任何處理。S802 :將上述不屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為不同類別。而如果上述兩個(gè)相關(guān)網(wǎng)頁在初始聚類結(jié)果中被分在同一個(gè)類別中,則將上述不屬于實(shí)際中同一個(gè)人物的兩個(gè)相關(guān)網(wǎng)頁調(diào)整為不同類別。
S803 :將調(diào)整后的初始聚類結(jié)果作為所述相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。通過上述第一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,可以利用同義詞詞典和/或上下位詞典對(duì)抽取得到的人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化,而泛化后的人物屬性特征和網(wǎng)頁主題特征因?yàn)楦軠?zhǔn)確地反映不同的相關(guān)網(wǎng)頁是否表示同一個(gè)人物的結(jié)果,所以本實(shí)施例也能夠更為精確和準(zhǔn)確地對(duì)包括同樣的人物名稱的不同的相關(guān)網(wǎng)頁進(jìn)行聚類,從而得到更為準(zhǔn)確的實(shí)際人物的分類結(jié)果。參見圖9,本發(fā)明實(shí)施例還提供了另一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,具體可以包括S901 :針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁。在本實(shí)施例中與第一種實(shí)施例的步驟相同的步驟,因?yàn)榈谝环N實(shí)施例已經(jīng)詳細(xì)介 紹,在此不再贅述。S902 :分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征。S903 :利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化。S904:按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果。在實(shí)際應(yīng)用中,所述獲取到的初始關(guān)系結(jié)果可以如圖10所示。在圖10中,有連線的相關(guān)網(wǎng)頁I和3,以及4和6所表征的是同一人物,因此,應(yīng)該屬于同一個(gè)類別,而沒有連線的相關(guān)網(wǎng)頁I和2,以及5和6等,所表征的是不同人物,因此不應(yīng)屬于同一個(gè)類別。S905 :獲取所述人物名稱信息的知名程度參數(shù)。在本實(shí)施例中,在步驟S906進(jìn)行初始聚類結(jié)果的分類之前,還需要利用網(wǎng)頁檢索結(jié)果或者網(wǎng)絡(luò)百科全書等資源獲取輸入的人物名稱的知名程度參數(shù),例如,擁有此人物名稱的名人及其屬性等,知名程度參數(shù)可以輔助獲得更準(zhǔn)確的初始聚類結(jié)果,使得最終聚類結(jié)果能夠達(dá)到更好的效果。具體的在獲取知名程度參數(shù)的過程中,例如通過搜索引擎獲得包括人物名稱“李想”的相關(guān)網(wǎng)頁數(shù)量為3210000個(gè)。而通過常見人名表,可以得到檢索人名的知名程度參數(shù)。例如,經(jīng)過計(jì)算,人物名稱“李想”的知名程度參數(shù)為0.6 ;其中,假設(shè)知名程度參數(shù)的取值范圍為0-1,I表示最不知名(即是最常見到的)的人物名稱,例如“張偉”,而O表示最知名(即是最不常見的)人名。例如,預(yù)先設(shè)定的單位網(wǎng)頁數(shù)為10000000,那么通過預(yù)先設(shè)定的單位網(wǎng)頁數(shù)與知名程度參數(shù)的乘積則為10000000 * O. 6 = 6000000,通過將這個(gè)結(jié)果與實(shí)際相關(guān)網(wǎng)頁數(shù)量比較可以得知,單位網(wǎng)頁數(shù)與知名程度參數(shù)的乘積大于實(shí)際的相關(guān)網(wǎng)頁數(shù)量3210000,那么就可以判定“李想”為一個(gè)不太知名的人物名稱(即是常見人名)。否則,就認(rèn)為檢索人名是一個(gè)知名的人物名稱(即是非常見人名),確認(rèn)該人物名稱中有名人;這里有名人的含義可以理解為相對(duì)于這個(gè)人物名稱來說,有沒有少數(shù)個(gè)體的相關(guān)網(wǎng)頁占總網(wǎng)頁很大的比重。S906:依據(jù)所述知名程度參數(shù)調(diào)整初始聚類結(jié)果中類別數(shù)量,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的調(diào)整了類別數(shù)量的初始聚類結(jié)果,所述調(diào)整的規(guī)則為所述知名程度參數(shù)越大,所述初始聚類結(jié)果的類別就越少。在得到知名程度之后,可以根據(jù)所述知名程度參數(shù)來調(diào)整初始聚類結(jié)果中類別數(shù)量。例如在聚類過程中,對(duì)于所述人物名稱包括有主要知名人物的相關(guān)網(wǎng)頁(即為非常見人名),其知名程度參數(shù)高,則聚類結(jié)果的類別就少;而所述人物名稱不包括有主要知名人物的相關(guān)網(wǎng)頁(即為常見人名),其知名程度參數(shù)小,則聚類結(jié)果的類別就多。假設(shè)使用的初始聚類方法是層次凝聚聚類算法,因?yàn)橄嗨贫乳撝档脑O(shè)定將會(huì)影響聚類的類別數(shù)量,因此調(diào)整聚類的類別可以通過調(diào)整預(yù)先設(shè)定的相似度閾值來實(shí)現(xiàn)。相似度閾值越高則聚類結(jié)果中類別越少。例如原始的相似度閾值為T,相關(guān)網(wǎng)頁數(shù)/(單位網(wǎng)頁數(shù)*常見程度)=a.那么新的閾值Tl = T/a。因此在本步驟中,對(duì)于常見人名來說,相似度閾值將被調(diào)高,最終聚類結(jié)果中的類別就多;而對(duì)于有名人的非常見人名來說,閾值將被調(diào)低,最終聚類結(jié)果中類別就少。參考圖11所示,為利用泛化后的網(wǎng)頁主題特征的且調(diào)整了類別數(shù)量的初始聚類結(jié)果的示意圖。在圖11中,存在連線關(guān)系的相關(guān)網(wǎng)頁1、2和3屬于實(shí)際中的同一個(gè)人物,而4和5所表征的也是實(shí)際中的同一個(gè)人物。
S907 :融合所述初始關(guān)系結(jié)果和所述調(diào)整了類別數(shù)量的初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。在進(jìn)行結(jié)果融合時(shí),可以采用初始關(guān)系結(jié)果修改所述調(diào)整了類別數(shù)量的初始聚類結(jié)果,也可以直接將初始關(guān)系結(jié)果和所述調(diào)整了類別數(shù)量的初始聚類結(jié)果進(jìn)行合并。參考圖12所示,為將圖10所示的初始關(guān)系結(jié)果和圖11所示的調(diào)整了類別數(shù)量的初始聚類結(jié)果進(jìn)行融合之后的最終分類結(jié)果。其中,1、2和3歸為一類相關(guān)網(wǎng)頁,即是1、2和3表征了實(shí)際中的同一個(gè)人物,而4、5和6歸為一類相關(guān)網(wǎng)頁,即是4、5和6表征了實(shí)際中的同一個(gè)人物。S908 :按照類別將所述最終分類結(jié)果進(jìn)行展示。在本實(shí)施例中,將闡述同一個(gè)人的網(wǎng)頁歸為一類輸出,對(duì)于多個(gè)同名人物生成了多個(gè)類別。例如,根據(jù)上面步驟的融合結(jié)果,可以得出如下的聚類結(jié)果屬于人物A的相關(guān)網(wǎng)頁包括1、2和3 ;而屬于人物B的相關(guān)網(wǎng)頁包括4、5和6??傊ㄟ^另外一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,可以通過引入的知名程度參數(shù),可以根據(jù)人物知名程度來對(duì)包含相同的人物名稱的不同的相關(guān)網(wǎng)頁進(jìn)行分類,這樣分類的最終聚類結(jié)果與具體的人物名稱的知名程度或者常見程度有關(guān),因此更符合實(shí)際中的人物名稱的取名情況,從而也能夠更準(zhǔn)確和有效的對(duì)人物名稱進(jìn)行分類;并且,本實(shí)施例進(jìn)一步還將最終聚類結(jié)果進(jìn)行展示,也能夠方便其他人實(shí)時(shí)通過更為準(zhǔn)確和有效的分類結(jié)果進(jìn)行后續(xù)應(yīng)用。與本發(fā)明實(shí)施例提供的第一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法相對(duì)應(yīng),本發(fā)明實(shí)施例還提供了第一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,參見圖13,該裝置具體可以包括檢索模塊1301,用于針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁。抽取模塊1302,用于分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征。其中,參考圖14所示,所述抽取模塊1302可以包括分析子模塊1401,用于分析所述相關(guān)網(wǎng)頁的正文內(nèi)容以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別。
第一獲取子模塊1402,用于獲取所述相關(guān)詞語中與人物名稱信息相關(guān)的屬性關(guān)鍵詞,所述屬性關(guān)鍵詞包括下述各項(xiàng)中的一項(xiàng)或多項(xiàng)職稱、單位、住址、特長和專業(yè)。第一選取子模塊1403,用于在所述屬性關(guān)鍵詞中選取與人物名稱信息的出現(xiàn)位置的距離小于預(yù)設(shè)閾值的屬性關(guān)鍵詞,作為與相關(guān)網(wǎng)頁對(duì)應(yīng)的人物屬性特征集。參考圖15所示,所述抽取模塊1302具體也可以包括分析子模塊1401,應(yīng)用分析所述相關(guān)網(wǎng)頁的正文內(nèi)容以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別; 計(jì)算子模塊1501,用于分別對(duì)各個(gè)相關(guān)網(wǎng)頁的所述相關(guān)詞語進(jìn)行加權(quán)計(jì)算以獲取各個(gè)詞語的權(quán)重值;第二選取子模塊1502,用于針對(duì)各個(gè)相關(guān)網(wǎng)頁,選取權(quán)重值高于預(yù)設(shè)閾值的相關(guān)詞語作為所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。泛化模塊1303,用于利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化。其中,參考圖16所示,所述泛化模塊1303具體可以包括第二獲取子模塊1601,用于從所述上下位詞典和/或同義詞詞典中獲取所述人物屬性特征集中屬性關(guān)鍵詞的上位詞和/或同義詞。第一擴(kuò)充子模塊1602,用于依據(jù)所述屬性關(guān)鍵詞的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的人物屬性特征。其中,參考圖17所示,所述泛化模塊1303包括第三獲取子模塊1701,用于從所述上下位詞典和/或同義詞詞典中獲取所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞。第二擴(kuò)充子模塊1702,用于依據(jù)所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征。關(guān)系挖掘模塊1304,用于按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果。其中,所述關(guān)系挖掘模塊1304可以包括依據(jù)擴(kuò)充后的不同的相關(guān)網(wǎng)頁之間人物屬性特征集的關(guān)系,確定不同的相關(guān)網(wǎng)頁之間的初始關(guān)系;所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。所述關(guān)系挖掘模塊1304也可以包括依據(jù)擴(kuò)充后的相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量,采用層次凝聚聚類算法對(duì)所述相關(guān)網(wǎng)頁進(jìn)行分類,并將分類結(jié)果作為初始聚類結(jié)果。結(jié)果融合模塊1305,用于融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。其中,參考圖18所示,所述結(jié)果融合模塊1305具體可以包括第一判斷子模塊1801,用于在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,判斷所述屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為同一個(gè)類別,如果不是,則將屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為一類;或,第二判斷子模塊1802,用于在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁不屬于實(shí)際中同一個(gè)人物的情況下,判斷所述不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為不同類別,如果否,則將上述不屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為不同類別;以及確定子模塊1803,用于將所有的相關(guān)網(wǎng)頁的調(diào)整后的類別結(jié)果作為相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。通過本發(fā)明實(shí)施例提供的上述裝置,因?yàn)椴捎昧送x詞詞典和/或上下位詞典引入的方式,可以比現(xiàn)有技術(shù)更為準(zhǔn)確的區(qū)別互聯(lián)網(wǎng)上同名的不同人物,使得對(duì)于同名人物的區(qū)分效率和精確度大大提升;進(jìn)一步的,還能夠減輕互聯(lián)網(wǎng)服務(wù)器的處理負(fù)擔(dān),提升互聯(lián)網(wǎng)服務(wù)器的性能。與本發(fā)明實(shí)施例提供的另一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法相對(duì)應(yīng),本發(fā)明實(shí)施例還提供了另一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,參考圖19所示,具體可以包括檢索模塊1301,用于針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相 關(guān)網(wǎng)頁。抽取模塊1302,用于分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征。泛化模塊1303,用于利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化。知名程度獲取模塊1901,用于獲取所述人物名稱信息的知名程度參數(shù)。關(guān)系挖掘模塊1304,具體配置為依據(jù)所述知名程度參數(shù)調(diào)整所述初始聚類結(jié)果中類別數(shù)量,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的調(diào)整了類別數(shù)量的初始聚類結(jié)果,所述調(diào)整的規(guī)則為所述知名程度參數(shù)越大,所述初始聚類結(jié)果的類別就越少。結(jié)果融合模塊1305,用于融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。展示模塊1902,用于按照類別將所述最終分類結(jié)果進(jìn)行展示。通過上述這種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,可以通過引入的知名程度參數(shù),根據(jù)人物知名程度來對(duì)包含相同的人物名稱的不同的相關(guān)網(wǎng)頁進(jìn)行分類,這樣分類的最終聚類結(jié)果與具體的人物名稱的知名程度或者常見程度有關(guān),因此更符合實(shí)際中的人物名稱的取名情況,從而也能夠更準(zhǔn)確和有效的對(duì)人物名稱進(jìn)行分類;并且,本實(shí)施例進(jìn)一步還將最終聚類結(jié)果進(jìn)行展示,也能夠方便其他人實(shí)時(shí)通過更為準(zhǔn)確和有效的分類結(jié)果進(jìn)行后續(xù)應(yīng)用。另外,還應(yīng)該指出的是,上述系列處理和裝置也可以通過軟件和/或固件實(shí)現(xiàn)。在通過軟件和/或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖20所示的通用個(gè)人計(jì)算機(jī)2000安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等等。在圖20中,中央處理單元(CPU) 2001根據(jù)只讀存儲(chǔ)器(ROM) 2002中存儲(chǔ)的程序或從存儲(chǔ)部分2008加載到隨機(jī)存取存儲(chǔ)器(RAM) 2003的程序執(zhí)行各種處理。在RAM 2003中,也根據(jù)需要存儲(chǔ)當(dāng)CPU2001執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 2001、R0M2002和RAM 2003經(jīng)由總線2004彼此連接。輸入/輸出接口 2005也連接到總線2004。下述部件連接到輸入/輸出接口 2005 :輸入部分2006,包括鍵盤、鼠標(biāo)等等;輸出部分2007,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等等,和揚(yáng)聲器等等;存儲(chǔ)部分2008,包括硬盤等等;和通信部分2009,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分2009經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器2010也連接到輸入/輸出接口 2005??刹鹦督橘|(zhì)2011比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器2010上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分2008中。在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)2011安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人物員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖20所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向人物提供程序的可拆卸介質(zhì)2011??刹鹦督橘|(zhì)2011的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以 是ROM 2002、存儲(chǔ)部分2008中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給人物。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按照時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本發(fā)明實(shí)施例的術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情
況下,由語句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過程、方法、物品
或者設(shè)備中還存在另外的相同要素。關(guān)于包括以上實(shí)施例的實(shí)施方式,還公開下述附記附記I、一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,包括針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的初始聚類結(jié)果;融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)
果O2、根據(jù)附記I所述的方法,其中,所述抽取所述相關(guān)網(wǎng)頁的人物屬性特征的步驟,包括分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;獲取所述相關(guān)詞語中與人物名稱信息相關(guān)的屬性關(guān)鍵詞,所述屬性關(guān)鍵詞包括下述各項(xiàng)中的一項(xiàng)或多項(xiàng)職稱、單位、住址、特長和專業(yè);以及在所述屬性關(guān)鍵詞中選取與人物名稱信息的出現(xiàn)位置的距離小于預(yù)設(shè)閾值的屬性關(guān)鍵詞,作為與相關(guān)網(wǎng)頁對(duì)應(yīng)的人物屬性特征集。3、根據(jù)附記2所述的方法,其中,所述利用上下位詞典和/或同義詞詞典對(duì)所述人物屬性特征進(jìn)行泛化的步驟,包括從所述上下位詞典和/或同義詞詞典中獲取所述人物屬性特征集中屬性關(guān)鍵詞的上位詞和/或同義詞;以及依據(jù)所述屬性關(guān)鍵詞的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的人物屬性特征。4、根據(jù)附記3所述的方法,其中,所述按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果的步驟,包括依據(jù)擴(kuò)充后的不同的相關(guān)網(wǎng)頁之間人物屬性特征集的關(guān)系,確定不同的相關(guān)網(wǎng)頁之間的初始關(guān)系,所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。 5、根據(jù)附記I所述的方法,其中,所述抽取所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征的步驟,包括分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;分別對(duì)各個(gè)相關(guān)網(wǎng)頁的所述相關(guān)詞語進(jìn)行加權(quán)計(jì)算以獲取各個(gè)相關(guān)詞語的權(quán)重值;以及針對(duì)各個(gè)相關(guān)網(wǎng)頁,選取權(quán)重值高于預(yù)設(shè)閾值的相關(guān)詞語作為所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。6、根據(jù)附記5所述的方法,其中,所述利用上下位詞典和/或同義詞詞典對(duì)所述網(wǎng)頁主題特征進(jìn)行泛化的步驟,包括從所述上下位詞典和/或所述同義詞詞典中獲取所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞;以及依據(jù)所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。7、根據(jù)附記6所述的方法,其中,所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的步驟,包括依據(jù)擴(kuò)充后的相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量,采用層次凝聚聚類算法對(duì)所述相關(guān)網(wǎng)頁進(jìn)行分類,并將分類結(jié)果作為初始聚類結(jié)果。8、根據(jù)附記I所述的方法,其中,所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果之前,還包括獲取所述人物名稱信息的知名程度參數(shù);則所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的步驟,包括依據(jù)所述知名程度參數(shù)調(diào)整所述初始聚類結(jié)果中類別數(shù)量,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的調(diào)整了類別數(shù)量的初始聚類結(jié)果;所述調(diào)整的規(guī)則為所述知名程度參數(shù)越大,所述初始聚類結(jié)果的類別就越少。9、根據(jù)附記I所述的方法,其中,所述融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果的步驟,包括在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,判斷所述屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為同一個(gè)類別,如果不是,則將屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為一類;或,在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁不屬于實(shí)際中同一個(gè)人物的情況下,判斷所述不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為不同類別,如果否,則將上述不屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為不同類別;以及將調(diào)整后的初始聚類結(jié)果作為所述相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。10、根據(jù)附記I所述的方法,其中,在所述得到相關(guān)網(wǎng)頁的最終聚類結(jié)果之后,還包括按照類別將所述最終分類結(jié)果進(jìn)行展示。11、一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,包括 檢索模塊,用于針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;抽取模塊,用于分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;泛化模塊,用于利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;關(guān)系挖掘模塊,用于按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果;結(jié)果融合模塊,用于融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。12、根據(jù)附記11所述的裝置,其中,所述抽取模塊包括分析子模塊,用于分析所述相關(guān)網(wǎng)頁的正文內(nèi)容以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;第一獲取子模塊,用于獲取所述相關(guān)詞語中與人物名稱信息相關(guān)的屬性關(guān)鍵詞,所述屬性關(guān)鍵詞包括下述各項(xiàng)中的一項(xiàng)或多項(xiàng)職稱、單位、住址、特長和專業(yè);以及第一選取子模塊,用于在所述屬性關(guān)鍵詞中選取與人物名稱信息的出現(xiàn)位置的距離小于預(yù)設(shè)閾值的屬性關(guān)鍵詞,作為與相關(guān)網(wǎng)頁對(duì)應(yīng)的人物屬性特征集。13、根據(jù)附記12所述的裝置,其中,所述泛化模塊包括第二獲取子模塊,用于從所述上下位詞典和/或同義詞詞典中獲取所述人物屬性特征集中屬性關(guān)鍵詞的上位詞和/或同義詞;以及第一擴(kuò)充子模塊,用于依據(jù)所述屬性關(guān)鍵詞的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的人物屬性特征。14、根據(jù)附記13所述的裝置,其中,所述關(guān)系挖掘模塊包括依據(jù)擴(kuò)充后的不同的相關(guān)網(wǎng)頁之間人物屬性特征集的關(guān)系,確定不同的相關(guān)網(wǎng)頁之間的初始關(guān)系,所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。15、根據(jù)附記11所述的裝置,所述抽取模塊包括分析子模塊,應(yīng)用分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語;其中,所述分析包括進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;計(jì)算子模塊,用于分別對(duì)各個(gè)相關(guān)網(wǎng)頁的所述相關(guān)詞語進(jìn)行加權(quán)計(jì)算以獲取各個(gè)詞語的權(quán)重值;以及
第二選取子模塊,用于針對(duì)各個(gè)相關(guān)網(wǎng)頁,選取權(quán)重值高于預(yù)設(shè)閾值的相關(guān)詞語作為所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。16、根據(jù)附記15所述的裝置,所述泛化模塊包括第三獲取子模塊,用于從所述上下位詞典和/或所述同義詞詞典中獲取所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞;以及第二擴(kuò)充子模塊,用于依據(jù)所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征。17、根據(jù)附記16所述的裝置,所述關(guān)系挖掘模塊包括依據(jù)擴(kuò)充后的相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量,采用層次凝聚聚類算法對(duì)所述相關(guān)網(wǎng)頁進(jìn)行分類,并將分類結(jié)果作為初始聚類結(jié)果。
18、根據(jù)附記11所述的裝置,還包括知名程度獲取模塊,用于獲取所述人物名稱信息的知名程度參數(shù);則所述關(guān)系挖掘模塊,具體配置為依據(jù)所述知名程度參數(shù)調(diào)整所述初始聚類結(jié)果中類別數(shù)量,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的調(diào)整了類別數(shù)量的初始聚類結(jié)果;所述調(diào)整的規(guī)則為所述知名程度參數(shù)越大,所述初始聚類結(jié)果的類別就越少。19、根據(jù)附記11所述的裝置,其中,所述結(jié)果融合模塊包括第一判斷子模塊,用于在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,判斷所述屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為同一個(gè)類別,如果不是,則將屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為一類;或,第二判斷子模塊,用于在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁不屬于實(shí)際中同一個(gè)人物的情況下,判斷所述不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為不同類別,如果否,則將上述不屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為不同類別;以及確定子模塊,用于將所有的相關(guān)網(wǎng)頁的調(diào)整后的類別結(jié)果作為相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。20、根據(jù)附記11所述的裝置,還包括展示模塊,用于按照類別將所述最終分類結(jié)果進(jìn)行展示。
權(quán)利要求
1.一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法,包括針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的初始聚類結(jié)果;融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述抽取所述相關(guān)網(wǎng)頁的人物屬性特征的步驟,包括分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;獲取所述相關(guān)詞語中與人物名稱信息相關(guān)的屬性關(guān)鍵詞,所述屬性關(guān)鍵詞包括下述各項(xiàng)中的ー項(xiàng)或多項(xiàng)職稱、単位、住址、特長和專業(yè);以及在所述屬性關(guān)鍵詞中選取與人物名稱信息的出現(xiàn)位置的距離小于預(yù)設(shè)閾值的屬性關(guān)鍵詞,作為與相關(guān)網(wǎng)頁對(duì)應(yīng)的人物屬性特征集。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述利用上下位詞典和/或同義詞詞典對(duì)所述人物屬性特征進(jìn)行泛化的步驟,包括從所述上下位詞典和/或同義詞詞典中獲取所述人物屬性特征集中屬性關(guān)鍵詞的上位詞和/或同義詞;以及依據(jù)所述屬性關(guān)鍵詞的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的人物屬性特征。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果的步驟,包括依據(jù)擴(kuò)充后的不同的相關(guān)網(wǎng)頁之間人物屬性特征集的關(guān)系,確定不同的相關(guān)網(wǎng)頁之間的初始關(guān)系,所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。
5.根據(jù)權(quán)利要求I所述的方法,其中,所述抽取所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征的步驟,包括分析所述相關(guān)網(wǎng)頁的正文以得到所述相關(guān)網(wǎng)頁中的相關(guān)詞語,其中,所述分析包括進(jìn)行分句、分詞、詞性標(biāo)注和/或命名實(shí)體識(shí)別;分別對(duì)各個(gè)相關(guān)網(wǎng)頁的所述相關(guān)詞語進(jìn)行加權(quán)計(jì)算以獲取各個(gè)相關(guān)詞語的權(quán)重值;以及針對(duì)各個(gè)相關(guān)網(wǎng)頁,選取權(quán)重值高于預(yù)設(shè)閾值的相關(guān)詞語作為所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述利用上下位詞典和/或同義詞詞典對(duì)所述網(wǎng)頁主題特征進(jìn)行泛化的步驟,包括從所述上下位詞典和/或所述同義詞詞典中獲取所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞;以及依據(jù)所述網(wǎng)頁主題特征向量中相關(guān)詞語的上位詞和/或同義詞擴(kuò)充所述相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的步驟,包括依據(jù)擴(kuò)充后的相關(guān)網(wǎng)頁的網(wǎng)頁主題特征向量,采用層次凝聚聚類算法對(duì)所述相關(guān)網(wǎng)頁進(jìn)行分類,并將分類結(jié)果作為初始聚類結(jié)果。
8.根據(jù)權(quán)利要求I所述的方法,其中,所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果之前,還包括獲取所述人物名稱信息的知名程度參數(shù);則所述按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果的步驟,包括依據(jù)所述知名程度參數(shù)調(diào)整所述初始聚類結(jié)果中類別數(shù)量,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的調(diào)整了類別數(shù)量的初始聚類結(jié)果;所述調(diào)整的規(guī)則為所述知名程度參數(shù)越大,所述初始聚類結(jié)果的類別就越少。
9.根據(jù)權(quán)利要求I所述的方法,其中,所述融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果的步驟,包括在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁屬于實(shí)際中同一個(gè)人物的情況下,判斷所述屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為同一個(gè)類別,如果不是,則將屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為ー類;或,在所述初始關(guān)系表示不同的相關(guān)網(wǎng)頁不屬于實(shí)際中同一個(gè)人物的情況下,判斷所述不同的相關(guān)網(wǎng)頁在初始聚類結(jié)果中是否為不同類別,如果否,則將上述不屬于實(shí)際中同一個(gè)人物的不同的相關(guān)網(wǎng)頁調(diào)整為不同類別;以及將調(diào)整后的初始聚類結(jié)果作為所述相關(guān)網(wǎng)頁的最終聚類結(jié)果;所述最終聚類結(jié)果表示不同的相關(guān)網(wǎng)頁是否屬于實(shí)際中同一個(gè)人物。
10.一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的裝置,包括檢索模塊,用于針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;抽取模塊,用于分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;泛化模塊,用于利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;關(guān)系挖掘模塊,用于按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取初始聚類結(jié)果;結(jié)果融合模塊,用于融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。
全文摘要
本發(fā)明實(shí)施例公開了一種對(duì)互聯(lián)網(wǎng)上的同名人物信息進(jìn)行分類的方法及裝置,所述方法包括針對(duì)輸入的人物名稱信息,檢索包括所述人物名稱信息的相關(guān)網(wǎng)頁;分別抽取所述相關(guān)網(wǎng)頁的人物屬性特征和網(wǎng)頁主題特征;利用上下位詞典和/或同義詞詞典分別對(duì)所述人物屬性特征和網(wǎng)頁主題特征進(jìn)行泛化;按照泛化后的人物屬性特征獲取所述相關(guān)網(wǎng)頁的初始關(guān)系結(jié)果,并按照泛化后的網(wǎng)頁主題特征獲取所述相關(guān)網(wǎng)頁的初始聚類結(jié)果;融合所述初始關(guān)系結(jié)果和所述初始聚類結(jié)果,以得到所述相關(guān)網(wǎng)頁的最終分類結(jié)果。通過本發(fā)明實(shí)施例,能夠更為精確和準(zhǔn)確地對(duì)包括同樣的人物名稱的不同的相關(guān)網(wǎng)頁進(jìn)行聚類,從而得到更為準(zhǔn)確的實(shí)際人物的分類結(jié)果。
文檔編號(hào)G06F17/30GK102831128SQ20111017190
公開日2012年12月19日 申請(qǐng)日期2011年6月15日 優(yōu)先權(quán)日2011年6月15日
發(fā)明者賈文杰, 張姝, 王新文, 夏迎炬, 于浩 申請(qǐng)人:富士通株式會(huì)社