欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

確定語(yǔ)料與實(shí)體的相關(guān)性的方法和裝置及分類器訓(xùn)練方法

文檔序號(hào):6486443閱讀:230來(lái)源:國(guó)知局
確定語(yǔ)料與實(shí)體的相關(guān)性的方法和裝置及分類器訓(xùn)練方法
【專利摘要】本發(fā)明公開(kāi)了一種確定語(yǔ)料與實(shí)體的相關(guān)性的方法和裝置及分類器訓(xùn)練方法。所述確定相關(guān)性的方法包括:利用通用分類器基于從作為未標(biāo)注語(yǔ)料的第二組語(yǔ)料提取的通用特征對(duì)第二組語(yǔ)料進(jìn)行分類,以確定第二組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性,從而得到作為對(duì)第二組語(yǔ)料的標(biāo)注結(jié)果的機(jī)器標(biāo)注語(yǔ)料;基于所述通用特征和從機(jī)器標(biāo)注語(yǔ)料中選取的與第一給定實(shí)體相關(guān)的補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練針對(duì)第一給定實(shí)體的自適應(yīng)分類器;以及基于從第一組語(yǔ)料提取的通用特征和所述補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用訓(xùn)練好的自適應(yīng)分類器,確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性。
【專利說(shuō)明】確定語(yǔ)料與實(shí)體的相關(guān)性的方法和裝置及分類器訓(xùn)練方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及信息挖掘領(lǐng)域。具體而言,本發(fā)明涉及一種用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的方法和裝置及相關(guān)的分類器訓(xùn)練方法。
【背景技術(shù)】
[0002]微博(例如,推特、搜狐微博和騰訊微博等)作為一種社交媒體,迅速地贏得了世界范圍的歡迎。如何管理與微博有關(guān)的信息以掌握人們對(duì)政府政策的響應(yīng)、人們對(duì)商品的反饋和評(píng)論等已受到研究團(tuán)體的大量關(guān)注。存在一些研究,諸如觀點(diǎn)挖掘和在線聲譽(yù)管理等,它們聚焦于監(jiān)控用戶生成的媒體。這些研究的關(guān)鍵內(nèi)容之一在于首先要獲得與所研究實(shí)體(諸如公司的機(jī)構(gòu))有關(guān)的信息。
[0003]獲得與所研究實(shí)體有關(guān)的信息將面臨以下兩個(gè)問(wèn)題。首先,微博和實(shí)體都包含很少信息。微博不同于傳統(tǒng)的由用戶所生成的媒體。它允許用戶生成不超過(guò)140個(gè)字符的消息。故只能獲得小的上下文信息。因此,可供比對(duì)的信息量相對(duì)較少。第二,實(shí)體名稱本身可能是模糊的,這也會(huì)增大分析的難度。例如,蘋(píng)果公司的名稱Apple也可以表示作為水果的蘋(píng)果。亞馬遜公司的名稱Amazon也可以表示亞馬遜河和亞馬遜叢林??梢?jiàn),確定微博與實(shí)體之間是否相關(guān)只能依賴于微博本身較少的信息量并面臨實(shí)體名稱具有歧義的問(wèn)題。如果不能準(zhǔn)確有效地判斷微博與實(shí)體之間的相關(guān)性,就難以針對(duì)實(shí)體搜集和分類微博,并進(jìn)而進(jìn)行深入研究,如分析人們談?wù)撎囟▽?shí)體的相關(guān)內(nèi)容。
[0004]此外,通常采用分類器來(lái)針對(duì)實(shí)體對(duì)微博進(jìn)行分類。簡(jiǎn)單地說(shuō),通過(guò)針對(duì)特定實(shí)體(例如,蘋(píng)果公司)搜集大量已標(biāo)記的訓(xùn)練語(yǔ)料(即標(biāo)注了該微博是否是與蘋(píng)果公司相關(guān)的微博),利用所搜集的語(yǔ)料對(duì)分類器進(jìn)行訓(xùn)練,就可以使用訓(xùn)練好的分類器針對(duì)特定實(shí)體(蘋(píng)果公司)分類語(yǔ)料(如未標(biāo)記的大量微博),即判斷語(yǔ)料是否與特定實(shí)體相關(guān)。然而,針對(duì)每一個(gè)特定實(shí)體訓(xùn)練一個(gè)分類器是繁復(fù)的。因此,也希望能夠使得訓(xùn)練數(shù)據(jù)中的實(shí)體和測(cè)試數(shù)據(jù)中的實(shí)體可以不同,避免將分類器訓(xùn)練為針對(duì)特定實(shí)體。

【發(fā)明內(nèi)容】

[0005]在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0006]本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的上述問(wèn)題,提出了一種能夠確定語(yǔ)料與實(shí)體的相關(guān)性的方法和裝置及相關(guān)分類器訓(xùn)練方法。該方案對(duì)于具有較少信息量的微博,能夠不針對(duì)特定實(shí)體訓(xùn)練分類器,訓(xùn)練好的分類器能針對(duì)特定實(shí)體進(jìn)行分類,即確定語(yǔ)料與特定實(shí)體的相關(guān)性,并且能夠有效地處理具有歧義的實(shí)體名稱,避免與該實(shí)體無(wú)關(guān)的、與具有相同實(shí)體名稱的其它實(shí)體相關(guān)的語(yǔ)料被分類為與該實(shí)體相關(guān)。
[0007]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性的方法,包括:利用通用分類器基于從作為未標(biāo)注語(yǔ)料的第二組語(yǔ)料提取的通用特征對(duì)所述第二組語(yǔ)料進(jìn)行分類,以確定所述第二組語(yǔ)料中的每個(gè)語(yǔ)料與所述第一給定實(shí)體的相關(guān)性,從而得到作為對(duì)所述第二組語(yǔ)料的標(biāo)注結(jié)果的機(jī)器標(biāo)注語(yǔ)料;基于所述通用特征和從所述機(jī)器標(biāo)注語(yǔ)料中選取的與所述第一給定實(shí)體相關(guān)的補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練針對(duì)所述第一給定實(shí)體的自適應(yīng)分類器;以及基于從第一組語(yǔ)料提取的通用特征和所述補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用訓(xùn)練好的所述自適應(yīng)分類器,確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性。
[0008]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的分類器的訓(xùn)練方法,包括:獲取與給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)頁(yè)面、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面、搜索引擎返回的鏈接頁(yè)面、搜索引擎返回的相關(guān)頁(yè)面中的至少一種;從所獲取的頁(yè)面中提取一元詞、二元詞、二元字符、三元字符、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的至少一個(gè),作為機(jī)構(gòu)信息;從與給定實(shí)體相關(guān)聯(lián)的已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機(jī)名中的至少一個(gè),作為語(yǔ)料信息;基于所述機(jī)構(gòu)信息和所述語(yǔ)料信息,計(jì)算通用特征,所述通用特征包括:語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的至少一種;以及基于所計(jì)算的通用特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述訓(xùn)練語(yǔ)料的標(biāo)注結(jié)果,訓(xùn)練所述分類器。
[0009]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性的裝置,包括:通用分類器,用于基于從作為未標(biāo)注語(yǔ)料的第二組語(yǔ)料提取的通用特征對(duì)所述第二組語(yǔ)料進(jìn)行分類,以確定所述第二組語(yǔ)料中的每個(gè)語(yǔ)料與所述第一給定實(shí)體的相關(guān)性,從而得到作為對(duì)所述第二組語(yǔ)料的標(biāo)注結(jié)果的機(jī)器標(biāo)注語(yǔ)料;自適應(yīng)分類器訓(xùn)練單元,用于基于所述通用分類器使用的通用特征和從所述機(jī)器標(biāo)注語(yǔ)料中選取的與所述第一給定實(shí)體相關(guān)的補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練針對(duì)所述第一給定實(shí)體的自適應(yīng)分類器;以及所述自適應(yīng)分類器,用于基于從第一組語(yǔ)料提取的通用特征和所述補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性。
[0010]另外,根據(jù)本發(fā)明的另一方面,還提供了 一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0011]此外,根據(jù)本發(fā)明的再一方面,還提供了 一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
【專利附圖】

【附圖說(shuō)明】
[0012]參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來(lái)表示。附圖中:
[0013]圖1示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的方法的第一實(shí)施例的流程圖;[0014]圖2示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的分類器的訓(xùn)練方法的流程圖;
[0015]圖3示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的裝置的第一實(shí)施例的結(jié)構(gòu)方框圖;
[0016]圖4示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的方法的第二實(shí)施例的流程圖;
[0017]圖5示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的裝置的第二實(shí)施例的結(jié)構(gòu)方框圖;
[0018]圖6示出了根據(jù)本發(fā)明的實(shí)施例的通用特征提取單元的結(jié)構(gòu)方框圖;以及
[0019]圖7示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和裝置的計(jì)算機(jī)的示意性框圖。
【具體實(shí)施方式】
[0020]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書(shū)中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi)內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。
[0021]在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[0022]本發(fā)明的基本思想是首先以已經(jīng)針對(duì)一個(gè)或多個(gè)第二給定實(shí)體標(biāo)注的第三組語(yǔ)料(即大量微博,每個(gè)微博均已標(biāo)注了是否與第二給定實(shí)體相關(guān),實(shí)體例如是機(jī)構(gòu)、組織、公司等),基于通用特征,并結(jié)合啟發(fā)式規(guī)則,對(duì)通用分類器進(jìn)行訓(xùn)練,其中通用特征表征微博與實(shí)體的相關(guān)性,但不針對(duì)特定實(shí)體;為了針對(duì)特定的第一給定實(shí)體、對(duì)未標(biāo)注的第一組語(yǔ)料中的每個(gè)語(yǔ)料進(jìn)行分類(即確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性),先利用通用分類器針對(duì)第一給定實(shí)體對(duì)第二組語(yǔ)料(也是未標(biāo)注的)進(jìn)行機(jī)器標(biāo)注,提取通用特征并得到機(jī)器標(biāo)注語(yǔ)料;然后,從機(jī)器標(biāo)注語(yǔ)料中選取對(duì)第一給定實(shí)體指示性強(qiáng)的關(guān)鍵詞作為補(bǔ)充特征,基于通用特征、補(bǔ)充特征并結(jié)合啟發(fā)式規(guī)則,利用機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練針對(duì)第一給定實(shí)體的自適應(yīng)分類器;從而,基于通用特征、補(bǔ)充特征并結(jié)合啟發(fā)式規(guī)則,利用訓(xùn)練好的自適應(yīng)分類器針對(duì)第一給定實(shí)體對(duì)第一組語(yǔ)料進(jìn)行識(shí)別。
[0023]這樣,訓(xùn)練通用分類器時(shí)采用第三組語(yǔ)料,并不針對(duì)特定的給定實(shí)體;而應(yīng)用時(shí),先針對(duì)第一給定實(shí)體,借助于通用分類器和第二組語(yǔ)料對(duì)自適應(yīng)分類器進(jìn)行訓(xùn)練,訓(xùn)練好的自適應(yīng)分類器就可以針對(duì)第一給定實(shí)體對(duì)第一組語(yǔ)料進(jìn)行分類。
[0024]首先,將參照?qǐng)D2描述根據(jù)本發(fā)明的實(shí)施例的用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的通用分類器的訓(xùn)練方法的流程。
[0025]圖2示出了用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的通用分類器的訓(xùn)練方法的流程圖。
[0026]如圖2所示,根據(jù)本發(fā)明的用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的通用分類器的訓(xùn)練方法,包括如下步驟:獲取與給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)頁(yè)面、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面、搜索引擎返回的鏈接頁(yè)面、搜索引擎返回的相關(guān)頁(yè)面中的至少一種(步驟S21);從所獲取的頁(yè)面中提取一元詞、二元詞、二元字符、三元字符、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的至少一個(gè),作為機(jī)構(gòu)信息(步驟S22);從與給定實(shí)體相關(guān)聯(lián)的已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機(jī)名中的至少一個(gè),作為語(yǔ)料信息(步驟S23);基于所述機(jī)構(gòu)信息和所述語(yǔ)料信息,計(jì)算通用特征,所述通用特征包括:語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的至少一種(步驟S24);以及基于所計(jì)算的通用特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述訓(xùn)練語(yǔ)料的標(biāo)注結(jié)果,訓(xùn)練所述分類器(步驟S25 )。
[0027]通過(guò)步驟S21、S22,獲取表征給定實(shí)體的機(jī)構(gòu)信息來(lái)豐富對(duì)與給定實(shí)體的描述,從而與具有相同實(shí)體名稱的其它實(shí)體更加有效地進(jìn)行區(qū)分。顯然,對(duì)于一個(gè)給定實(shí)體的描述信息越豐富,則該給定實(shí)體越明確。
[0028]機(jī)構(gòu)信息的來(lái)源包括,但不限于步驟S21中列出的四個(gè)方面。
[0029]1.與給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)頁(yè)面
[0030]假設(shè)給定實(shí)體均至少具有一個(gè)自己的主頁(yè),并且該主頁(yè)的URL作為指示給定實(shí)體的輸入。顯然,實(shí)體自己的主頁(yè)對(duì)于實(shí)體本身的描述而言,非?;竞椭匾?。實(shí)體主頁(yè)中的詞語(yǔ)通常與該實(shí)體更相關(guān)并且更能表示該實(shí)體??梢詮慕o定實(shí)體的實(shí)體主頁(yè)中提取與給定實(shí)體相關(guān)聯(lián)的詞作為機(jī)構(gòu)信息。
[0031]可以利用實(shí)體的主頁(yè)的URL,抓取該主頁(yè)的一定深度的所有頁(yè)面。優(yōu)選地,深度為
I。即,可抓取自主頁(yè)頁(yè)面起,深度為I的所有頁(yè)面作為給定實(shí)體的實(shí)體主頁(yè)頁(yè)面。
[0032]2.與給定實(shí)體相關(guān)聯(lián)的具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面
[0033]具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面例如是維基百科頁(yè)面和維基百科反例頁(yè)面。
[0034]維基百科(wikipedia)提供有消歧(disambiguation)功能,利用此功能能夠獲得與實(shí)體名稱對(duì)應(yīng)的多個(gè)候選條目,候選條目包括鏈接??梢詫?duì)候選相關(guān)條目進(jìn)行分析以確定鏈接中是否含有給定實(shí)體的實(shí)體主頁(yè)的URL。如果鏈接中含有給定實(shí)體的實(shí)體主頁(yè)的URL,則可以認(rèn)為該候選相關(guān)條目與給定實(shí)體相關(guān)聯(lián),可進(jìn)而提取該條目對(duì)應(yīng)的頁(yè)面中的詞語(yǔ)作為機(jī)構(gòu)信息。該頁(yè)面可以作為機(jī)構(gòu)信息的正例數(shù)據(jù)源,不含有給定實(shí)體的實(shí)體主頁(yè)的URL的鏈接對(duì)應(yīng)的頁(yè)面可以作為反例數(shù)據(jù)源。
[0035]3.與給定實(shí)體相關(guān)聯(lián)的搜索引擎返回的鏈接頁(yè)面
[0036]搜索引擎例如是谷歌(Google)。Google提供了檢索關(guān)鍵字“l(fā)ink”,采用與實(shí)體對(duì)應(yīng)的URL構(gòu)造檢索關(guān)鍵字,例如“l(fā)ink:ht tp://……”,輸入到Google的搜索欄中,可以得到返回的鏈接頁(yè)面。
[0037]優(yōu)選地,選取前100個(gè)鏈接頁(yè)面作為機(jī)構(gòu)信息的數(shù)據(jù)源。
[0038]4.與給定實(shí)體相關(guān)聯(lián)的搜索引擎返回的相關(guān)頁(yè)面
[0039]類似于上述鏈接頁(yè)面,Google提供了檢索關(guān)鍵字“related”,采用與實(shí)體對(duì)應(yīng)的URL構(gòu)造檢索關(guān)鍵字,例如“related:ht tp: //……”,輸入到Google的搜索欄中,可以得到返回的相關(guān)頁(yè)面。
[0040]優(yōu)選地,選取前100個(gè)相關(guān)頁(yè)面作為機(jī)構(gòu)信息的數(shù)據(jù)源。
[0041]在步驟S21中,從上述4種數(shù)據(jù)源中的至少一種獲取與給定實(shí)體相關(guān)聯(lián)的頁(yè)面。[0042]在步驟S22中,從所獲取的頁(yè)面中提取一元詞、二元詞、二元字符、三元字符、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的至少一個(gè),作為機(jī)構(gòu)信息。
[0043]實(shí)體可以被表示為簡(jiǎn)檔(profile)的集合,即機(jī)構(gòu)信息。例如,機(jī)構(gòu)信息可表示為Org = {p1; p2,, pj ο其中,每一個(gè)簡(jiǎn)檔可以是關(guān)鍵詞及對(duì)應(yīng)權(quán)重的集合。
[0044]可以針對(duì)上面步驟S21中獲得的頁(yè)面,建立如下的四種簡(jiǎn)檔。
[0045]1.一兀詞簡(jiǎn)檔(unigram profile)
[0046]可以將一元詞簡(jiǎn)檔表示為Pu = set {uigram:weight}。
[0047]利用現(xiàn)有技術(shù),可以對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行正文提取、分詞、去除停用詞、詞干提取等預(yù)處理,從而得到一元詞unigram。以“西安交通大學(xué)”為例,在一元詞的情況下,“西安交通大
學(xué)”將被表示為西/安/交/通/大/學(xué)。
[0048]權(quán)重weight決定特征對(duì)應(yīng)的取值,為簡(jiǎn)化處理,可將權(quán)重均設(shè)為1,從而使得特征對(duì)應(yīng)的取值為O或I。
[0049]2.二兀詞簡(jiǎn)檔(bigram profile)
[0050]可以將二元詞簡(jiǎn)檔表示為Pb = set {bigram:weight}。
[0051]采用與一元詞類似的預(yù)處理,可以得到二元詞bigram。以“西安交通大學(xué)”為例,在二元詞的情況下,“西安交通大學(xué)”將被表示為西安/安交/交通/通大/大學(xué)。
[0052]權(quán)重weight決定特征對(duì)應(yīng)的取值,為簡(jiǎn)化處理,可將權(quán)重均設(shè)為1,從而使得特征對(duì)應(yīng)的取值為O或I。
[0053]應(yīng)注意,在詞級(jí)上,unigram為一元詞,bigram為二元詞。在字符級(jí)上,bigram包括二元字符。
[0054]類似地,本領(lǐng)域技術(shù)人員還可想到trigram,如包括三元字符等。
[0055]3.兀數(shù)據(jù)簡(jiǎn)檔(metadata profile)
[0056]步驟S21中獲得的頁(yè)面大多為HTML文件,其中提供有元數(shù)據(jù)。元數(shù)據(jù)包括對(duì)頁(yè)面的描述、關(guān)鍵詞、文檔作者、上一次修改時(shí)間等信息。其中,關(guān)鍵詞是具有指示性作用的詞。因此,可將HTML頁(yè)面的元數(shù)據(jù)中的關(guān)鍵詞提取出來(lái),作為元數(shù)據(jù)簡(jiǎn)檔,其可表示為Pm =set {word:weight} ,word為元數(shù)據(jù)的關(guān)鍵詞。權(quán)重weight決定特征對(duì)應(yīng)的取值,為簡(jiǎn)化處理,可將權(quán)重均設(shè)為I,從而使得特征對(duì)應(yīng)的取值為O或I。
[0057]4.URL 簡(jiǎn)檔(URL profile)
[0058]步驟S21中獲得的頁(yè)面都對(duì)應(yīng)一個(gè)URL,URL中包括主機(jī)名??梢詫⒅鳈C(jī)名host_name從URL中獲取出來(lái),作為關(guān)鍵字,構(gòu)成URL簡(jiǎn)檔,表示為Plri = set {host_name:weight}。權(quán)重weight決定特征對(duì)應(yīng)的取值,為簡(jiǎn)化處理,可將權(quán)重均設(shè)為I,從而使得特征對(duì)應(yīng)的取值為O或I。
[0059]至此,通過(guò)步驟S21、S22得到了表征實(shí)體的機(jī)構(gòu)信息,應(yīng)注意,機(jī)構(gòu)信息是針對(duì)某一給定實(shí)體的。
[0060]為了將表征某一給定實(shí)體的機(jī)構(gòu)信息與微博進(jìn)行比較,確定微博與給定實(shí)體的相關(guān)性,需要對(duì)微博進(jìn)行處理,提取相關(guān)信息,以與機(jī)構(gòu)信息類似的方式表征微博。
[0061]由于要訓(xùn)練分類器,因此,訓(xùn)練語(yǔ)料應(yīng)是針對(duì)給定實(shí)體標(biāo)注好的。即已知訓(xùn)練語(yǔ)料中的每一個(gè)語(yǔ)料(微博)是否與給定實(shí)體相關(guān)。該給定實(shí)體應(yīng)與機(jī)構(gòu)信息所對(duì)應(yīng)的實(shí)體是同一實(shí)體。[0062]在步驟S23,從與給定實(shí)體相關(guān)聯(lián)的已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機(jī)名中的至少一個(gè),作為語(yǔ)料信息。
[0063]應(yīng)注意,由于微博并不一定具有元數(shù)據(jù),因此,并未提取元數(shù)據(jù)中的關(guān)鍵詞。
[0064]應(yīng)注意,通過(guò)對(duì)微博進(jìn)行預(yù)處理,如URL提取、縮寫(xiě)還原、分詞、去除停用詞、詞干提取等,可以從微博中提取URL地址中包括的主機(jī)名、unigram、bigram等關(guān)鍵字。這對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)是例行的工作。
[0065]語(yǔ)料信息可以表示為T(mén)i=Set {key:weight}。其中,key可以表示uni gram、bigram和URL地址中包括的主機(jī)名,為簡(jiǎn)化處理,可將權(quán)重weight均設(shè)為I。Ti表示第i個(gè)語(yǔ)料的語(yǔ)料息。
[0066]應(yīng)注意,機(jī)構(gòu)信息和語(yǔ)料信息中的unigram、bigram、元數(shù)據(jù)中的關(guān)鍵詞和URL地址中包括的主機(jī)名等都是采用字符串的形式進(jìn)行表示,以利于比較。由于字符串的比較只有在被比較的字符串完全相同的情況下,才認(rèn)為字符串相同,因此,即使包括unigram和bigram的機(jī)構(gòu)信息與包括unigram和bigram的語(yǔ)料信息直接進(jìn)行比較,也只可能unigram與unigram匹配,bigram與bigram匹配。元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名等會(huì)根據(jù)其實(shí)際的字符串長(zhǎng)度,與uni gram、b i gram、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的適當(dāng)?shù)囊粋€(gè)匹配。
[0067]下面,在步驟S24中,基于所述機(jī)構(gòu)信息和所述語(yǔ)料信息,計(jì)算通用特征。首先,介紹通用特征本身。
[0068]如上所述,機(jī)構(gòu)信息是針對(duì)給定實(shí)體提取出來(lái)的,用于表征給定實(shí)體。而訓(xùn)練語(yǔ)料也針對(duì)給定實(shí)體進(jìn)行了標(biāo)注,并從中提取出了語(yǔ)料信息。如果將特征限定為具體的針對(duì)給定實(shí)體的特征,則仍存在現(xiàn)有技術(shù)中訓(xùn)練針對(duì)的實(shí)體必須與識(shí)別針對(duì)的實(shí)體相同的限制。本發(fā)明的發(fā)明人意識(shí)到可以將特征抽象為與給定實(shí)體無(wú)關(guān),而僅與實(shí)體的某一方面相關(guān)。也就是說(shuō)特征(通用特征)可以表征語(yǔ)料與實(shí)體的某一方面的相關(guān)性,而非語(yǔ)料與某一特定實(shí)體的某一方面的相關(guān)性。
[0069]因此,為了更好地計(jì)算通用特征,訓(xùn)練通用分類器所采用的訓(xùn)練語(yǔ)料優(yōu)選包括針對(duì)多個(gè)給定實(shí)體(多個(gè)第二給定實(shí)體)標(biāo)注好的語(yǔ)料。并且訓(xùn)練通用分類器時(shí),提取多個(gè)第二給定實(shí)體的機(jī)構(gòu)信息。由于通用特征可以不針對(duì)特定實(shí)體,因此所述多個(gè)第二給定實(shí)體可以包括識(shí)別時(shí)所針對(duì)的第一給定實(shí)體,也可以不包括識(shí)別時(shí)所針對(duì)的第一給定實(shí)體。
[0070]當(dāng)進(jìn)行識(shí)別時(shí),可針對(duì)給定實(shí)體,計(jì)算給定實(shí)體的通用特征,從而使通用特征針對(duì)給定實(shí)體,并可僅依賴于通用特征,確定語(yǔ)料與給定實(shí)體的相關(guān)性。后文將看到,在識(shí)別時(shí),為了更好地與給定實(shí)體相適應(yīng),還引入了補(bǔ)充特征來(lái)確定語(yǔ)料與給定實(shí)體的相關(guān)性。
[0071]通用特征包括:語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性。
[0072]所述語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的每一個(gè)均包括一元特征相關(guān)性、多元特征相關(guān)性、元數(shù)據(jù)相關(guān)性、主機(jī)名相關(guān)性。語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性包括一元特征相關(guān)性Fu\多元特征相關(guān)性Fb\元數(shù)據(jù)相關(guān)性Fmh、主機(jī)名相關(guān)性Fmlh。語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面(正例)的相關(guān)性包括一元特征相關(guān)性Fuw、多元特征相關(guān)性Fbw、元數(shù)據(jù)相關(guān)性Fmw、主機(jī)名相關(guān)性Furtw。語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面(負(fù)例)的相關(guān)性包括一元特征相關(guān)性Fu'多元特征相關(guān)性Fb'元數(shù)據(jù)相關(guān)性Fm'主機(jī)名相關(guān)性Furl'語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性包括一元特征相關(guān)性Fu\多元特征相關(guān)性Fb\元數(shù)據(jù)相關(guān)性F/、主機(jī)名相關(guān)性F-1。語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性包括一元特征相關(guān)性Fu'多元特征相關(guān)性Fb'元數(shù)據(jù)相關(guān)性Fm'主機(jī)名相關(guān)性Furl'
[0073]第i個(gè)語(yǔ)料的通用特征F (Ti, Org)可以被表示為:
【權(quán)利要求】
1.一種用于確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性的方法,包括:利用通用分類器基于從作為未標(biāo)注語(yǔ)料的第二組語(yǔ)料提取的通用特征對(duì)所述第二組語(yǔ)料進(jìn)行分類,以確定所述第二組語(yǔ)料中的每個(gè)語(yǔ)料與所述第一給定實(shí)體的相關(guān)性,從而得到作為對(duì)所述第二組語(yǔ)料的標(biāo)注結(jié)果的機(jī)器標(biāo)注語(yǔ)料;基于所述通用特征和從所述機(jī)器標(biāo)注語(yǔ)料中選取的與所述第一給定實(shí)體相關(guān)的補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練針對(duì)所述第一給定實(shí)體的自適應(yīng)分類器;以及基于從第一組語(yǔ)料提取的通用特征和所述補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用訓(xùn)練好的所述自適應(yīng)分類器,確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性。
2.如權(quán)利要求1所述的方法,其中,所述通用特征包括:語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的至少一種。
3.如權(quán)利要求2所述的方法,其中,所述語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的每一個(gè)均包括一元特征相關(guān)性、多元特征相關(guān)性、元數(shù)據(jù)相關(guān)性、主機(jī)名相關(guān)性中的至少一個(gè);所述一元特征相關(guān)性包括頁(yè)面中的一元詞是否出現(xiàn)在語(yǔ)料中,所述多元特征相關(guān)性包括頁(yè)面中的二元詞、二元字符、三元字符中的至少一個(gè)是否出現(xiàn)在語(yǔ)料中,所述元數(shù)據(jù)相關(guān)性包括頁(yè)面的元數(shù)據(jù)中的關(guān)鍵詞是否出現(xiàn)在語(yǔ)料中,所述主機(jī)名相關(guān)性包括頁(yè)面的URL地址中包括的主機(jī)名是否出現(xiàn)在語(yǔ)料中。
4.如權(quán)利要求3所述的方法,其中,通過(guò)如下步驟提取所述通用特征:`獲取與給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)頁(yè)面、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面、搜索引擎返回的鏈接頁(yè)面、搜索引擎返回的相關(guān)頁(yè)面中的至少一種;從所獲取的頁(yè)面中提取一元詞、二元詞、二元字符、三元字符、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的至少一個(gè),作為機(jī)構(gòu)信息;從語(yǔ)料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機(jī)名中的至少一個(gè),作為語(yǔ)料信息;基于所述機(jī)構(gòu)信息和所述語(yǔ)料信息,計(jì)算得到所述通用特征。
5.如權(quán)利要求1所述的方法,其中,實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則包括:實(shí)體名稱本身是否包括不止一個(gè)單詞、和/或語(yǔ)料中是否包含完整實(shí)體名稱。
6.如權(quán)利要求1所述的方法,其中,所述補(bǔ)充特征包括:從所述機(jī)器標(biāo)注語(yǔ)料中選取的與所述第一給定實(shí)體相關(guān)的一元詞、二元詞、二元字符、三元字符中的至少一個(gè)。
7.如權(quán)利要求6所述的方法,其中,所述方法還包括:在所述訓(xùn)練自適應(yīng)分類器的步驟之前的特征選取步驟,用于從所述機(jī)器標(biāo)注語(yǔ)料中選取關(guān)鍵詞,作為所述補(bǔ)充特征;自適應(yīng)訓(xùn)練結(jié)束步驟,用于驗(yàn)證自適應(yīng)訓(xùn)練結(jié)束條件,在滿足自適應(yīng)訓(xùn)練結(jié)束條件的情況下結(jié)束自適應(yīng)訓(xùn)練,在不滿足自適應(yīng)訓(xùn)練結(jié)束條件的情況下重復(fù)所述特征選取步驟和所述訓(xùn)練自適應(yīng)分類器的步驟,直到滿足所述自適應(yīng)訓(xùn)練結(jié)束條件。
8.如權(quán)利要求7所述的方法,其中,所述自適應(yīng)訓(xùn)練結(jié)束條件包括:迭代達(dá)到預(yù)定次數(shù)或自適應(yīng)分類器的分類結(jié)果基本穩(wěn)定。
9.一種用于確定語(yǔ)料與給定實(shí)體的相關(guān)性的分類器的訓(xùn)練方法,包括:獲取與給定實(shí)體相關(guān)聯(lián)的實(shí)體主頁(yè)頁(yè)面、具有網(wǎng)絡(luò)百科全書(shū)屬性的網(wǎng)頁(yè)頁(yè)面、搜索引擎返回的鏈接頁(yè)面、搜索引擎返回的相關(guān)頁(yè)面中的至少一種;從所獲取的頁(yè)面中提取一元詞、二元詞、二元字符、三元字符、元數(shù)據(jù)中的關(guān)鍵詞、URL地址中包括的主機(jī)名中的至少一個(gè),作為機(jī)構(gòu)信息;從與給定實(shí)體相關(guān)聯(lián)的已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料中提取一元詞、二元詞、二元字符、三元字符、URL地址中包括的主機(jī)名中的至少一個(gè),作為語(yǔ)料信息;基于所述機(jī)構(gòu)信息和所述語(yǔ)料信息,計(jì)算通用特征,所述通用特征包括:語(yǔ)料與實(shí)體主頁(yè)頁(yè)面的相關(guān)性、語(yǔ)料與網(wǎng)絡(luò)百科全書(shū)頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎鏈接頁(yè)面的相關(guān)性、語(yǔ)料與搜索引擎相關(guān)頁(yè)面的相關(guān)性中的至少一種;基于所計(jì)算的通用特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述訓(xùn)練語(yǔ)料的標(biāo)注結(jié)果,訓(xùn)練所述分類器。
10.一種用于確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性的裝置,包括:通用分類器,用于基于從作為未標(biāo)注語(yǔ)料的第二組語(yǔ)料提取的通用特征對(duì)所述第二組語(yǔ)料進(jìn)行分類,以確定所述第二組語(yǔ)料中的每個(gè)語(yǔ)料與所述第一給定實(shí)體的相關(guān)性,從而得到作為對(duì)所述第二組語(yǔ)料的標(biāo)注結(jié)果的機(jī)器標(biāo)注語(yǔ)料;自適應(yīng)分類器訓(xùn)練單元,用于基于所述通用分類器使用的通用特征和從所述機(jī)器標(biāo)注語(yǔ)料中選取的與所述第一給定實(shí)體相關(guān)的補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,利用所述機(jī)器標(biāo)注語(yǔ)料,訓(xùn)練`針對(duì)所述第一給定實(shí)體的自適應(yīng)分類器;以及所述自適應(yīng)分類器,用于基于從第一組語(yǔ)料提取的通用特征和所述補(bǔ)充特征,結(jié)合實(shí)體名稱相關(guān)的啟發(fā)式規(guī)則,確定第一組語(yǔ)料中的每個(gè)語(yǔ)料與第一給定實(shí)體的相關(guān)性。
【文檔編號(hào)】G06F17/30GK103514194SQ201210212662
【公開(kāi)日】2014年1月15日 申請(qǐng)日期:2012年6月21日 優(yōu)先權(quán)日:2012年6月21日
【發(fā)明者】張姝, 孟遙, 于浩 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黑山县| 新绛县| 渭源县| 昭苏县| 惠水县| 库车县| 正定县| 陵川县| 淮滨县| 汉寿县| 封丘县| 中方县| 柳州市| 长岭县| 东乌| 东乡县| 陈巴尔虎旗| 汽车| 新乡县| 崇左市| 和田市| 阿荣旗| 永寿县| 海原县| 杂多县| 班玛县| 社旗县| 厦门市| 清水河县| 长白| 新昌县| 瑞昌市| 文安县| 皮山县| 南昌县| 揭西县| 永兴县| 郸城县| 天长市| 准格尔旗| 沐川县|