欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于確定同義文本的方法和裝置的制作方法

文檔序號(hào):6381269閱讀:183來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種用于確定同義文本的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種用于確定同義文本的方法和裝置。
背景技術(shù)
當(dāng)用戶(hù)在互聯(lián)網(wǎng)上進(jìn)行搜索時(shí),很有可能會(huì)采用不同名稱(chēng)來(lái)表達(dá)同一個(gè)搜索對(duì)象;例如,對(duì)于應(yīng)用“where is my water”,用戶(hù)在搜索時(shí)可能采用“鱷魚(yú)愛(ài)洗澡”、“鱷魚(yú)愛(ài)沖涼”、“鱷魚(yú)小頑皮”等名稱(chēng)來(lái)對(duì)其進(jìn)行搜索;又例如,用戶(hù)所搜索的“掌上百度”和“掌百” 可能為同一搜索對(duì)象等。因此,搜索技術(shù)中需要識(shí)別這些名稱(chēng)不同,但表示同一搜索對(duì)象的文本序列。
現(xiàn)有技術(shù)中存在的識(shí)別表示同一搜索對(duì)象的文本序列的方式包括
I)由人工進(jìn)行識(shí)別和標(biāo)記;
2)通過(guò)語(yǔ)義上的同義詞識(shí)別,如識(shí)別出“洗澡”和“沖涼”為語(yǔ)義上的同義詞等,來(lái)識(shí)別表示同一搜索對(duì)象的文本序列。
然而,人工識(shí)別和標(biāo)記的方式滯后性大、且能夠識(shí)別的搜索對(duì)象有限,人工成本也較高;語(yǔ)義識(shí)別的識(shí)別率低,例如,對(duì)于一些語(yǔ)義上差別極大,但仍表示同一搜索對(duì)象的文本序列,則無(wú)法識(shí)別;并且,上述兩種方式均具有覆蓋面低的問(wèn)題。發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定同義文本的方法和裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于建立或更新候選同義序列庫(kù)的方法,其中,該方法包括以下步驟
A將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配;
其中,該方法還包括以下步驟
X當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù);
其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于確定同義文本的方法,其中,該方法包括以下步驟
a對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段;
b根據(jù)所述至少一個(gè)文本片段,在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的歷史搜索結(jié)果與基于所述候選同義序列所得的歷史搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件;
c從所述候選同義文本中選擇所述文本序列的同義文本;6
其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于建立或更新候選同義序列庫(kù)的更新裝置,其中,該更新裝置包括
匹配裝置,用于將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配;
庫(kù)更新裝置,用于當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù);
其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于確定同義文本的同義文本確定裝置,其中,該同義文本確定裝置包括
切詞裝置,用于對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段;
查詢(xún)裝置,用于根據(jù)所述至少一個(gè)文本片段,在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的歷史搜索結(jié)果與基于所述候選同義序列所得的歷史搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件;
第一選擇裝置,用于從所述候選同義文本中選擇所述文本序列的同義文本;
其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)1)能夠獲取在各自的搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)來(lái)建立關(guān)聯(lián)的待處理文本序列及其候選同義序列,并進(jìn)一步通過(guò)多種方式判斷各個(gè)候選同義序列是否的確為待處理的文本序列的同義文本,從而能夠獲得現(xiàn)有技術(shù)中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準(zhǔn)確性;2)能夠?qū)Υ幚淼奈谋拘蛄屑捌渫x文本進(jìn)行整理,確保兩者的統(tǒng)一性;3)通過(guò)基于所請(qǐng)求搜索的文本序列及其同義文本進(jìn)行搜索,能夠獲得單純基于文本序列進(jìn)行搜索難以獲得且實(shí)際可能為用戶(hù)所需的搜索結(jié)果項(xiàng);4)由于若一個(gè)搜索結(jié)果項(xiàng)出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,則可認(rèn)為盡管用戶(hù)輸入了不同的文本序列,但其希望搜索的對(duì)象是相同或相似的,本發(fā)明據(jù)此來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列;5)更進(jìn)一步的,若一個(gè)搜索結(jié)果項(xiàng)不僅出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,還均被用戶(hù)點(diǎn)擊,則可認(rèn)為用戶(hù)可能認(rèn)為該兩個(gè)文本序列是相同或相似的,本發(fā)明據(jù)此進(jìn)一步來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列;6)由于在兩個(gè)搜索結(jié)果中均被用戶(hù)點(diǎn)擊的次數(shù)、頻率等越高,其且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量越多,則用戶(hù)認(rèn)為該兩個(gè)搜索結(jié)果項(xiàng)指向同一搜索對(duì)象的可能性越大,據(jù)此,本優(yōu)選方案還能夠基于均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息,進(jìn)一步篩選候選同義序列。


通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯
圖I為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定同義文本的方法流程圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于建立或更新候選同義序列庫(kù)的方法流程圖3為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定同義文本的確定裝置的結(jié)構(gòu)示意圖4為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于建立或更新候選同義序列庫(kù)的更新裝置的結(jié)構(gòu)示意圖。
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
圖I為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定同義文本的方法流程圖。根據(jù)本實(shí)施例的方法包括步驟SI、步驟S2和步驟S3。其中,本實(shí)施例的方法主要通過(guò)計(jì)算機(jī)設(shè)備來(lái)實(shí)現(xiàn); 所述計(jì)算機(jī)設(shè)備包括但不限于網(wǎng)絡(luò)設(shè)備或用戶(hù)設(shè)備;所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(Cloud Computing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī);所述用戶(hù)設(shè)備包括但不限于PC機(jī)、平板電腦等;所述計(jì)算機(jī)設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)等。
需要說(shuō)明的是,所述計(jì)算機(jī)設(shè)備和網(wǎng)絡(luò)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計(jì)算設(shè)備或網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并以引用方式包含于此。
在步驟SI中,計(jì)算機(jī)設(shè)備對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段。
其中,所述待處理的文本序列包括任何需要確定其同義文本的文本序列;優(yōu)選地, 所述待處理的文本序列包括網(wǎng)絡(luò)資源名稱(chēng),該網(wǎng)絡(luò)資源名稱(chēng)包括網(wǎng)絡(luò)中能夠獲得的任何資源的名稱(chēng),如應(yīng)用名稱(chēng)、音視頻名稱(chēng)等;更優(yōu)選地,所述待處理的文本序列包括應(yīng)用名稱(chēng)。
其中,計(jì)算機(jī)設(shè)備獲得待處理的文本序列的方式包括但不限于
I)計(jì)算機(jī)設(shè)備獲取已預(yù)存儲(chǔ)的待處理的文本序列;如已預(yù)存儲(chǔ)在計(jì)算機(jī)設(shè)備或其他設(shè)備中的文本序列等;
2)計(jì)算機(jī)設(shè)備實(shí)時(shí)獲取來(lái)自用戶(hù)的搜索序列,作為待處理的文本序列等。
其中,計(jì)算機(jī)設(shè)備可采用多種方式來(lái)對(duì)待處理的文本序列進(jìn)行切詞,獲得其至少一個(gè)文本片段。
例如,計(jì)算機(jī)設(shè)備根據(jù)詞典,對(duì)待處理的文本序列“小頑皮愛(ài)沖涼”進(jìn)行切詞,獲得該待處理的文本序列的3個(gè)文本片段“小頑皮”、“愛(ài)”以及“沖涼”。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
接著,在步驟S2中,計(jì)算機(jī)設(shè)備根據(jù)切詞所得的至少一個(gè)文本片段,在待處理的文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為待處理的文本序列的候選同義文本。
其中,基于文本序列所得的第一搜索結(jié)果與基于候選同義序列所得的第二搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件,該第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。優(yōu)選地,該第一預(yù)定條件還可包括其他條件,并將在參照?qǐng)D2所示實(shí)施例中予以詳述,在此不予贅述。
其中,所述搜索結(jié)果項(xiàng)可包含任何搜索結(jié)果信息,例如,搜索結(jié)果鏈接、搜索結(jié)果摘要等。
其中,待處理的文本序列的候選同義序列庫(kù)可在步驟S2執(zhí)行之前預(yù)確定;該預(yù)確定候選同義文本序列庫(kù)的方式將在參照?qǐng)D2所示實(shí)施例中予以詳述,在此不予贅述。
其中,計(jì)算機(jī)設(shè)備可采用多種方式確定一個(gè)文本片段的同義詞;例如,通過(guò)查詢(xún)預(yù)定同義詞詞典來(lái)確定一個(gè)文本片段的一個(gè)或多個(gè)同義詞;又例如,通過(guò)查詢(xún)預(yù)定同義詞詞詞典,并結(jié)合語(yǔ)義分析來(lái)確定一個(gè)文本片段的一個(gè)或多個(gè)同義詞等。
具體地,計(jì)算機(jī)設(shè)備根據(jù)切詞所得的至少一個(gè)文本片段,在待處理的文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為待處理的文本序列的候選同義文本的方式包括但不限于
I)當(dāng)計(jì)算機(jī)設(shè)備查詢(xún)并確定一個(gè)候選同義序列包含切詞所得的至少一個(gè)文本片段或該至少一個(gè)文本片段中一個(gè)或多個(gè)文本片段的同義詞時(shí),確定該候選同義序列為待處理的文本序列的候選同義文本。
例如,待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的文本片段包括“鱷魚(yú)”、“愛(ài)”和“沖涼”, 候選同義序列包括“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”、“小頑皮洗澡”、“洗了么”、“洗得如何”; 則計(jì)算機(jī)設(shè)備在文本序列“鱷魚(yú)愛(ài)洗澡”的候選同義序列庫(kù)中進(jìn)行查詢(xún),并確定“小頑皮愛(ài)洗澡”包括文本片段“愛(ài)”以及“沖涼”的同義詞“洗澡”,候選同義序列“鱷魚(yú)愛(ài)洗澡”包括文本片段“鱷魚(yú)”和“愛(ài)”以及“沖涼”的同義詞“洗澡”,候選同義序列“小頑皮洗澡”包括文本片段“沖涼”的同義詞“洗澡”,則將候選同義序列“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”和“小頑皮洗澡”作為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
2)計(jì)算機(jī)設(shè)備獲取切詞所得的至少一個(gè)文本片段的同義詞;并在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列;并且,當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本;當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí), 將所包含的其他文本信息與待處理的文本序列部分相同的候選同義序列,作為所述候選同義文本。
例如,待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的文本片段包括“鱷魚(yú)”、“愛(ài)”和“沖涼”,候選同義序列庫(kù)包括“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”、“小頑皮洗澡”、“洗了么”、“洗得如何”。
計(jì)算機(jī)設(shè)備在待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義序列庫(kù)中查詢(xún)到候選同義序列“小頑皮愛(ài)洗澡”包含文本片段“沖涼”的同義詞“洗澡”,且計(jì)算機(jī)設(shè)備判斷候選同義序列“小頑皮愛(ài)洗澡”中的其他文本信息“小頑皮愛(ài)”與待處理的文本序列“鱷魚(yú)愛(ài)沖涼”中存在部分相同的文本信息“愛(ài)”,則計(jì)算機(jī)設(shè)備確定候選同義序列“小頑皮愛(ài)洗澡”為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
接著,類(lèi)似地,計(jì)算機(jī)設(shè)備繼續(xù)在候選同義序列中進(jìn)行查詢(xún),確定候選同義序列 “小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”和“小頑皮洗澡”為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取切詞所得的至少一個(gè)文本片段的同義詞,并在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列,并且,當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本,當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí),將所包含的其他文本信息與待處理的文本序列部分相同的候選同義序列,作為所述候選同義文本的實(shí)現(xiàn)方式;例如,當(dāng)查詢(xún)所獲得的候選同義序列包含同義詞以及其他文本信息時(shí),僅當(dāng)所包含的其他文本信息與待處理的文本序列中除該候選同義序列包含的同義詞所對(duì)應(yīng)的文本片段以外的文本片段全部或部分相同時(shí),才將該候選同義序列,作為所述候選同義文本等,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
需要進(jìn)一步說(shuō)明的是,本領(lǐng)域技術(shù)人員應(yīng)能理解,在步驟S2所限定的方式下,計(jì)算機(jī)設(shè)備可采用多種方式從候選同義序列庫(kù)中選出候選同義文本。例如,計(jì)算機(jī)設(shè)備可先查詢(xún)并確定所有包含文本片段的同義詞的候選文本序列,再?gòu)闹羞x擇候選同義文本;或者, 計(jì)算機(jī)設(shè)備也可逐一判斷各個(gè)候選文本序列是否為候選同義文本。
接著,在步驟S3中,計(jì)算機(jī)設(shè)備從候選同義文本中選擇待處理的文本序列的同義文本。
具體地,計(jì)算機(jī)設(shè)備從所述候選同義文本中選擇所述文本序列的同義文本的方式包括但不限于
I)計(jì)算機(jī)設(shè)備根據(jù)候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度,從候選同義文本中選擇同義文本。其中,候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度越高,則候選同義文本被選擇為同義文本的可能性越高。
其中,該關(guān)聯(lián)度可基于多種因素確定,例如,基于在候選同義文本的搜索結(jié)果和待處理的文本序列的第一搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息來(lái)確定,其中, 搜索結(jié)果項(xiàng)的點(diǎn)擊信息包括但不限于搜索結(jié)果項(xiàng)的點(diǎn)擊率、點(diǎn)擊次數(shù)、被點(diǎn)擊時(shí)間、點(diǎn)擊頻率等;優(yōu)選地,點(diǎn)擊率、點(diǎn)擊次數(shù)、點(diǎn)擊頻率等越高,則關(guān)聯(lián)度越高。優(yōu)選地,關(guān)聯(lián)度還可基于候選同義文本包含的文本片段的同義詞與待處理的文本序列之間的預(yù)確定的接近程度,候選同義文本包含的同義詞在該候選同義文本中所占的比例等來(lái)確定。
2)待處理的文本序列包括網(wǎng)絡(luò)資源名稱(chēng),計(jì)算機(jī)設(shè)備通過(guò)對(duì)候選同義文本的全部或部分候選同義文本中的每一個(gè)執(zhí)行以下操作A和B中的至少一項(xiàng),來(lái)從所述候選同義文本中選擇所述文本序列的同義文本;其中,計(jì)算機(jī)設(shè)備可對(duì)候選同義文本中的每一項(xiàng)均執(zhí)行以下操作A和/或B,或者,計(jì)算機(jī)設(shè)備可按照候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度由高至低的順序,或者,按照基于諸如關(guān)聯(lián)度、預(yù)確定的重要度等參數(shù)確定的權(quán)值由高至低的順序,逐一對(duì)各個(gè)候選同義文本執(zhí)行以下操作,直至獲得預(yù)定數(shù)量(如30個(gè))或已對(duì)所有優(yōu)選同義文本執(zhí)行完下述操作A和/或B為止。
以下將對(duì)操作A和B進(jìn)行說(shuō)明
操作A :判斷待處理的文本序列以及當(dāng)前處理的候選同義文本是否具有非同義特征。
其中,所述非同義特征包括任何能夠體現(xiàn)待處理的文本序列以及候選同義文本并非同義詞的特征信息。優(yōu)選地,該非同義特征包括但不限于以下至少一項(xiàng)
I)待處理的文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源屬于不同品牌。
例如,屬于不同品牌的應(yīng)用,如屬于QQ的QQ手機(jī)助理和屬于360的360手機(jī)助手坐寸ο
又例如,屬于不同品牌的影視作品等。
優(yōu)選地,計(jì)算機(jī)設(shè)備可通過(guò)識(shí)別待處理的文本序列與候選同義文本中具有品牌特征的文本信息,如QQ、360等,或者,獲取計(jì)算機(jī)設(shè)備或其他設(shè)備已預(yù)確定的、待處理的文本序列與候選同義文本的品牌信息,來(lái)確定待處理的文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源是否屬于不同品牌。
2)候選同義文本包含預(yù)定資源衍生詞匯;其中,該預(yù)定資源衍生詞匯包括與網(wǎng)絡(luò)資源相關(guān)但并非網(wǎng)絡(luò)資源本身的詞匯。
例如,與應(yīng)用游戲相關(guān)但不屬于應(yīng)用游戲本身的游戲攻略、地圖、修改器;又例如, 與影視作品相關(guān)但不屬于影視作品的影評(píng)等。
3)所述候選同義文本包含預(yù)定資源片段特征;其中,該預(yù)定資源片段特征包括屬于資源的一個(gè)特定部分,而非形容資源整體的特征。
例如,游戲中的特定場(chǎng)景名稱(chēng);又例如,影視作品的剪輯名稱(chēng)等。
4)待處理的文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例。
例如,精確的應(yīng)用名稱(chēng)為泛用應(yīng)用的具體實(shí)例,如“安兔兔跑分軟件”為“跑分軟件”的具體實(shí)例等。
優(yōu)選地,計(jì)算機(jī)設(shè)備可通過(guò)識(shí)別待處理的文本序列與所述候選同義文本中的一者所屬分類(lèi)是否為另一者的子分類(lèi),或者,識(shí)別一者是否為另一者的預(yù)定具體實(shí)例,或者, 獲取計(jì)算機(jī)設(shè)備或其他設(shè)備已預(yù)確定的、待處理的文本序列與候選同義文本的具體實(shí)例信息,來(lái)確定待處理的文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例。
5)待處理的文本序列以及所述候選同義文本中存在至少兩種語(yǔ)言的文本信息,且將其中一種語(yǔ)言翻譯為另一種語(yǔ)言所得的翻譯結(jié)果在該另一種語(yǔ)言的文本信息中不存在同義詞,也即,待處理的文本序列以及候選同義文本中一者的全部或部分文本信息從一種語(yǔ)言翻譯為另一種語(yǔ)言后,在另一者中不存在對(duì)應(yīng)的同義詞。
例如,待處理的文本序列“sd card清理工具”以及候選同義文本“磁盤(pán)清理工具” 中存在英文與中文兩種語(yǔ)言的文本信息,且待處理的文本序列“sd card清理工具”中的文本片段英文“sd card”經(jīng)翻譯后所得的中文“安全數(shù)碼卡”在候選同義文本“磁盤(pán)清理工具”中不存在對(duì)應(yīng)的同義詞等。
需要說(shuō)明的是,上述非同義特征的舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何能夠體現(xiàn)待處理的文本序列以及候選同義文本并非同義詞的特征信息,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
具體地,當(dāng)判斷判斷待處理的文本序列以及當(dāng)前處理的候選同義文本具有非同義特征時(shí),計(jì)算機(jī)設(shè)備不將當(dāng)前處理的候選同義文本作為待處理的文本序列的同義文本。
例如,計(jì)算機(jī)設(shè)備不將與“360手機(jī)助手”屬于不同品牌“QQ手機(jī)助理”作為“QQ手機(jī)助理”的同義文本;又例如,計(jì)算機(jī)設(shè)備不將文本序列“跑分軟件”的具體實(shí)例的候選同義文本“安兔兔跑分軟件”作為其同義文本等。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何當(dāng)判斷判斷待處理的文本序列以及當(dāng)前處理的候選同義文本具有非同義特征時(shí),不將當(dāng)前處理的候選同義文本作為待處理的文本序列的同義文本的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
操作B :判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
其中,當(dāng)判斷存在相應(yīng)的網(wǎng)絡(luò)資源時(shí),第二子選擇裝置將當(dāng)前處理的候選同義文本選擇為待處理的文本序列的同義文本。
具體地,計(jì)算機(jī)設(shè)備判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式包括但不限于
I)計(jì)算機(jī)設(shè)備獲取已預(yù)確定的、候選同義文本的網(wǎng)絡(luò)資源判斷結(jié)果,以判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
例如,計(jì)算機(jī)設(shè)備獲取其或其他設(shè)備在本步驟S3執(zhí)行之前已預(yù)確定的、候選同義文本“鱷魚(yú)愛(ài)洗澡”在網(wǎng)絡(luò)中是否存在網(wǎng)絡(luò)資源的網(wǎng)絡(luò)資源判斷結(jié)果,判斷“鱷魚(yú)愛(ài)洗澡”是否存在相應(yīng)的網(wǎng)絡(luò)資源。
其中,預(yù)確定候選同義文本的網(wǎng)絡(luò)資源判斷結(jié)果的方式,與下述實(shí)現(xiàn)方式2)中計(jì)算機(jī)設(shè)備實(shí)時(shí)判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式相同或相似, 在此不再贅述。
2)計(jì)算機(jī)設(shè)備在步驟S3中實(shí)時(shí)判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
優(yōu)選地,計(jì)算機(jī)設(shè)備實(shí)時(shí)判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式包括但不限于
i)計(jì)算機(jī)設(shè)備基于當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷所述當(dāng)前處理的候選同義文本在所述預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
例如,預(yù)定網(wǎng)絡(luò)資源站點(diǎn)包括安卓(Android)站點(diǎn),當(dāng)前處理的候選同義文本包括“鱷魚(yú)愛(ài)洗 澡”,計(jì)算機(jī)設(shè)備在安卓站點(diǎn)中基于“鱷魚(yú)愛(ài)洗澡”進(jìn)行搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷“鱷魚(yú)愛(ài)洗澡”在安卓站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
ii)計(jì)算機(jī)設(shè)備基于當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,來(lái)判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源,其中,所述預(yù)定文本模板包括所述當(dāng)前處理的候選同義文本以及與其字符間隔小于預(yù)定閾值的預(yù)定詞匯。其中,預(yù)定文本模板可為一個(gè)或多個(gè)。
例如,預(yù)定文本模板包括“XXX下載”、“XXX小游戲”以及“XXX游戲下載”, 其中“XXX”表示當(dāng)前處理的候選同義文本,預(yù)定詞匯“下載”、“小游戲”以及“游戲下載”與當(dāng)前處理的候選同義文本之間的字符間隔小于等于I個(gè)字符;則計(jì)算機(jī)設(shè)備基于當(dāng)前處理的候選同義文本“鱷魚(yú)愛(ài)洗澡”進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板“鱷魚(yú)愛(ài)洗澡下載/小游戲/游戲下載”的文本信息,判斷當(dāng)前處理的候選同義文本“鱷魚(yú)愛(ài)洗澡”是否存在相應(yīng)的網(wǎng)絡(luò)資源。
需要說(shuō)明的是,計(jì)算機(jī)設(shè)備可基于所述當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,以及,基于所述當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果以及是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何從候選同義文本中選擇待處理的文本序列的同義文本的實(shí)現(xiàn)方式,例如,從候選同義文本中隨機(jī)選擇預(yù)定數(shù)量的同義文本等,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
本實(shí)施例中,能夠獲取在各自的搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)來(lái)建立關(guān)聯(lián)的待處理文本序列及其候選同義序列,并進(jìn)一步通過(guò)多種方式判斷各個(gè)候選同義序列是否的確為待處理的文本序列的同義文本,從而能夠獲得現(xiàn)有技術(shù)中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準(zhǔn)確性。
作為本實(shí)施例的優(yōu)選方案之一,待處理的文本序列包括應(yīng)用名稱(chēng),本實(shí)施例的方法還包括以下步驟對(duì)于待處理的文本序列的每個(gè)同義文本,當(dāng)判斷待處理的文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),根據(jù)預(yù)定應(yīng)用附加特征信息,更新待處理的文本序列或該同義文本,以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息。
其中,所述預(yù)定應(yīng)用附加特征信息包括對(duì)應(yīng)用名稱(chēng)進(jìn)行附加限定的特征信息;例如,表示應(yīng)用版本的特征信息1、2等;表示應(yīng)用效果的特征信息3d等;表示應(yīng)用免費(fèi)的特征信息lite、free等;表示應(yīng)用適用的設(shè)備的特征信息HD等。
優(yōu)選地,計(jì)算機(jī)設(shè)備根據(jù)預(yù)定應(yīng)用附加特征信息,更新文本序列或該同義文本,以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息的方式包括但不限于
I)計(jì)算機(jī)設(shè)備在不包含預(yù)定應(yīng)用附加特征信息的一者中添加該應(yīng)用附加特征信
2)計(jì)算機(jī)設(shè)備在包含預(yù)定應(yīng)用附加特征信息的一者中刪除該預(yù)定應(yīng)用附加特征信息。
并且,對(duì)于一個(gè)待處理的文本序列和/或其所有同義文本,計(jì)算機(jī)設(shè)備僅執(zhí)行上述更新方式I)或2)中的一者,以確保待處理的文本序列以及該同義文本均包含或均不包含預(yù)定應(yīng)用附加特征信息。
例如,計(jì)算機(jī)設(shè)備在步驟S3中確定待處理的文本信息“海洋世界動(dòng)態(tài)桌面”的同義文本包括“3d海洋世界動(dòng)態(tài)桌面”,則計(jì)算機(jī)設(shè)備判斷“海洋世界動(dòng)態(tài)桌面”和“3d海洋世界動(dòng)態(tài)桌面”中僅一者包含預(yù)定應(yīng)用附加特征信息,則計(jì)算機(jī)設(shè)備刪除同義文本“3d海洋世界動(dòng)態(tài)桌面”中的預(yù)定應(yīng)用附加特征信息“3d”,將同義文本更新為“海洋世界動(dòng)態(tài)桌面”。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對(duì)于待處理的文本序列的每個(gè)同義文本,當(dāng)判斷待處理的文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),根據(jù)預(yù)定應(yīng)用附加特征13信息,更新待處理的文本序列或該同義文本,以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
本優(yōu)選方案中,能夠?qū)Υ幚淼奈谋拘蛄屑捌渫x文本進(jìn)行整理,確保兩者的統(tǒng)一性。
作為本實(shí)施例的優(yōu)選方案之一,本實(shí)施例的方法還包括以下步驟計(jì)算機(jī)設(shè)備接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列,基于所述文本序列及其同義文本進(jìn)行搜索,并將搜索結(jié)果提供給所述用戶(hù)設(shè)備。
具體地,計(jì)算機(jī)設(shè)備接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列,并基于所述文本序列及其同義文本分別進(jìn)行搜索,并將基于文本序列及其同義詞分別所得的各個(gè)搜索結(jié)果項(xiàng)進(jìn)行融合后,提供給用戶(hù)設(shè)備。
本實(shí)施例中,通過(guò)基于所請(qǐng)求搜索的文本序列及其同義文本進(jìn)行搜索,能夠獲得單純基于文本序列進(jìn)行搜索難以獲得且實(shí)際可能為用戶(hù)所需的搜索結(jié)果項(xiàng)。
圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于建立或更新候選同義序列庫(kù)的方法流程圖。 本實(shí)施例的方法包括步驟S4以及步驟S5。
在步驟S4中,計(jì)算機(jī)設(shè)備將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配。
其中,所述第一搜索結(jié)果和第二搜索結(jié)果可為分別基于待處理的文本序列和待挖掘序列進(jìn)行實(shí)時(shí)搜索所得的搜索結(jié)果,也可分別為待處理的文本序列和待挖掘序列的歷史搜索結(jié)果。
其中,計(jì)算機(jī)設(shè)備可采用多種方式來(lái)將第一搜索結(jié)果與第二搜索結(jié)果進(jìn)行匹配。
例如,計(jì)算機(jī)設(shè)備先獲得第一搜索結(jié)果和第二搜索結(jié)果,再將兩者進(jìn)行比對(duì)。
又例如,當(dāng)?shù)谝凰阉鹘Y(jié)果和第二搜索結(jié)果為歷史搜索結(jié)果時(shí),計(jì)算機(jī)設(shè)備查詢(xún)第一搜索結(jié)果包含的各個(gè)搜索結(jié)果項(xiàng)在其他搜索結(jié)果中出現(xiàn)的歷史記錄,以確定第一搜索結(jié)果中是否存在出現(xiàn)在第二搜索結(jié)果中的搜索結(jié)果項(xiàng),從而確定第一搜索結(jié)果和第二搜索結(jié)果的匹配結(jié)果等。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
在步驟S5中,當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),計(jì)算機(jī)設(shè)備根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù);其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
例如,當(dāng)計(jì)算機(jī)設(shè)備在步驟S4中匹配到第一搜索結(jié)果和第二搜索結(jié)果均包含搜索結(jié)果項(xiàng)C時(shí),計(jì)算機(jī)設(shè)備直接將待挖掘序列作為待處理的文本序列的候選同義序列,加入其候選同義序列庫(kù)中,或?qū)υ摵蜻x同義序列進(jìn)行諸如去除無(wú)意義信息等調(diào)整后,加入候選同義序列庫(kù)中。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù)的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
作為本實(shí)施例的一種優(yōu)選方案,第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含的相同的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值。例如,第一搜索結(jié)果和第二搜索結(jié)果包含相同的30個(gè)以上的搜索結(jié)果項(xiàng)等。
由于若一個(gè)搜索結(jié)果項(xiàng)出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,則可認(rèn)為盡管用戶(hù)輸入了不同的文本序列,但其希望搜索的對(duì)象是相同或相似的,本發(fā)明據(jù)此來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列。
作為本實(shí)施例的另一種優(yōu)選方案,第一搜索結(jié)果與所述第二搜索結(jié)果分別為所述待處理的文本序列以及所述待挖掘序列的歷史搜索結(jié)果,前述步驟S4包括步驟S4’。
在步驟S4’中,計(jì)算機(jī)設(shè)備根據(jù)待處理的文本序列以及待挖掘序列的歷史搜索結(jié)果的用戶(hù)點(diǎn)擊信息,將所述第一搜索結(jié)果與所述第二搜索結(jié)果進(jìn)行匹配;
其中,本實(shí)施例中,所述第一預(yù)定條件包括所述待處理的文本序列和所述待挖掘序列的歷史搜索結(jié)果中包含至少一個(gè)相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)。
例如,基于待處理的文本序列queryl進(jìn)行搜索所得的歷史搜索結(jié)果包括搜索結(jié)果項(xiàng)C1、C2和C3,其中,搜索結(jié)果項(xiàng)Cl和C2在queryl的歷史搜索結(jié)果被呈現(xiàn)時(shí),被用戶(hù)點(diǎn)擊;基于另一文本序列query2的所得的歷史搜索結(jié)果中包括搜索結(jié)果項(xiàng)Cl和C2,且搜索結(jié)果項(xiàng)Cl在query2的搜索結(jié)果被呈現(xiàn)給用戶(hù)時(shí),被用戶(hù)點(diǎn)擊;基于另一文本序列query3 的所得的歷史搜索結(jié)果中包括搜索結(jié)果項(xiàng)Cl和C3,且搜索結(jié)果項(xiàng)C3在query3的搜索結(jié)果被呈現(xiàn)給用戶(hù)時(shí),被用戶(hù)點(diǎn)擊;則基于待處理的文本序列queryl所得的歷史搜索結(jié)果 (即第一搜索結(jié)果)與基于文本序列query2所得的歷史搜索結(jié)果(即第二搜索結(jié)果)中存在相同的、且在第一搜索結(jié)果和第二搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)Cl,文本序列query2為待處理的文本序列queryl的候選同義序列。而文本序列query3不是待處理的文本序列queryl的候選同義序列。
優(yōu)選地,在上述優(yōu)選方案中,第一預(yù)定條件還包括所述均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件。
其中,所述第二預(yù)定條件包括能夠被確定為候選同義序列的待挖掘文本序列的點(diǎn)擊信息所應(yīng)符合的條件,如點(diǎn)擊率超過(guò)一預(yù)定閾值、點(diǎn)擊規(guī)律符合預(yù)定規(guī)律等。
例如,第二預(yù)定條件包括將在第一搜索結(jié)果和第二搜索結(jié)果中均被用戶(hù)點(diǎn)擊的各個(gè)搜索結(jié)果項(xiàng)的點(diǎn)擊次數(shù)相加所得的值超過(guò)預(yù)確定的閾值。
需要說(shuō)明的是,優(yōu)選地,第一預(yù)定條件可包括上述優(yōu)選方案中的所有條件;例如, 第一預(yù)定條件可包括第一搜索結(jié)果與第二搜索結(jié)果包含的相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值;又例如,第一預(yù)定條件可包括第一搜索結(jié)果與第二搜索結(jié)果包含的相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值,并且,該等均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件等。
作為本實(shí)施例的另一種優(yōu)選方案,本實(shí)施例的方法還包括以下步驟
當(dāng)所述匹配結(jié)束后,計(jì)算機(jī)設(shè)備選擇另一個(gè)序列作為待處理的文本序列的待挖掘序列,重復(fù)所述步驟SI和S2,直至滿足預(yù)定停止條件,如被操作人員終止重復(fù)操作,或者, 待處理的文本序列的候選同義文本庫(kù)中包含的候選同義文本數(shù)量已達(dá)到1000等。
優(yōu)選地,當(dāng)通過(guò)上述方式確定的候選同義序列超過(guò)N個(gè)時(shí),計(jì)算機(jī)設(shè)備可根據(jù)第一搜索結(jié)果與第二搜索結(jié)果的匹配程度高低,選擇排序前N位的待挖掘文本序列,作為待處理的文本序列的候選同義序列,其中,N為預(yù)定序列數(shù)量閾值。
由于若一個(gè)搜索結(jié)果項(xiàng)出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,且均被用戶(hù)點(diǎn)擊,則可認(rèn)為盡管用戶(hù)輸入了不同的文本序列,但其希望搜索的對(duì)象是相同或相似的。本優(yōu)選方案據(jù)此來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列;進(jìn)一步地,由于在兩個(gè)搜索結(jié)果中均被用戶(hù)點(diǎn)擊的次數(shù)、頻率等越高,其且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量越多,則用戶(hù)認(rèn)為該兩個(gè)搜索結(jié)果項(xiàng)指向同一搜索對(duì)象的可能性越大,據(jù)此,本優(yōu)選方案還能夠基于均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息,進(jìn)一步篩選候選同義序列。
圖3為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定同義文本的確定裝置的結(jié)構(gòu)示意圖;本實(shí)施例的確定裝置包括切詞裝置I、查詢(xún)裝置2以及第一選擇裝置3,該確定裝置包含于計(jì)算機(jī)設(shè)備中。
切詞裝置I對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段。
其中,所述待處理的文本序列包括任何需要確定其同義文本的文本序列;優(yōu)選地, 所述待處理的文本序列包括網(wǎng)絡(luò)資源名稱(chēng),該網(wǎng)絡(luò)資源名稱(chēng)包括網(wǎng)絡(luò)中能夠獲得的任何資源的名稱(chēng),如應(yīng)用名稱(chēng)、音視頻名稱(chēng)等;更優(yōu)選地,所述待處理的文本序列包括應(yīng)用名稱(chēng)。
其中,切詞裝置I獲得待處理的文本序列的方式包括但不限于
I)切詞裝置I獲取已預(yù)存儲(chǔ)的待處理的文本序列;如已預(yù)存儲(chǔ)在計(jì)算機(jī)設(shè)備或其他設(shè)備中的文本序列等;
2)切詞裝置I實(shí)時(shí)獲取來(lái)自用戶(hù)的搜索序列,作為待處理的文本序列等。
其中,切詞裝置I可采用多種方式來(lái)對(duì)待處理的文本序列進(jìn)行切詞,獲得其至少一個(gè)文本片段。
例如,切詞裝置I根據(jù)詞典,對(duì)待處理的文本序列“小頑皮愛(ài)沖涼”進(jìn)行切詞,獲得該待處理的文本序列的3個(gè)文本片段“小頑皮”、“愛(ài)”以及“沖涼”。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
接著,查詢(xún)裝置2根據(jù)切詞所得的至少一個(gè)文本片段,在待處理的文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為待處理的文本序列的候選同義文本。
其中,基于文本序列所得的第一搜索結(jié)果與基于候選同義序列所得的第二搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件,該第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。優(yōu)選地,該第一預(yù)定條件還可包括其他條件,并將在參照?qǐng)D4所示實(shí)施例中予以詳述,在此不予贅述。。
其中,所述搜索結(jié)果項(xiàng)可包含任何搜索結(jié)果信息,例如,搜索結(jié)果鏈接、搜索結(jié)果摘要等。
其中,待處理的文本序列的候選同義序列庫(kù)可在查詢(xún)裝置2執(zhí)行操作之前預(yù)確定;該預(yù)確定候選同義文本序列庫(kù)的方式將在參照?qǐng)D4所示實(shí)施例中予以詳述,在此不予贅述。
其中,查詢(xún)裝置2可采用多種方式確定一個(gè)文本片段的同義詞;例如,通過(guò)查詢(xún)預(yù)定同義詞詞典來(lái)確定一個(gè)文本片段的一個(gè)或多個(gè)同義詞;又例如,通過(guò)查詢(xún)預(yù)定同義詞詞詞典,并結(jié)合語(yǔ)義分析來(lái)確定一個(gè)文本片段的一個(gè)或多個(gè)同義詞等。
具體地,查詢(xún)裝置2根據(jù)切詞裝置I切詞所得的至少一個(gè)文本片段,在待處理的文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為待處理的文本序列的候選同義文本的方式包括但不限于
I)當(dāng)查詢(xún)裝置2查詢(xún)并確定一個(gè)候選同義序列包含切詞所得的至少一個(gè)文本片段或該至少一個(gè)文本片段中一個(gè)或多個(gè)文本片段的同義詞時(shí),確定該候選同義序列為待處理的文本序列的候選同義文本。
例如,待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的文本片段包括“鱷魚(yú)”、“愛(ài)”和“沖涼”, 候選同義序列包括“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”、“小頑皮洗澡”、“洗了么”、“洗得如何”; 則查詢(xún)裝置2在文本序列“鱷魚(yú)愛(ài)洗澡”的候選同義序列庫(kù)中進(jìn)行查詢(xún),并確定“小頑皮愛(ài)洗澡”包括文本片段“愛(ài)”以及“沖涼”的同義詞“洗澡”,候選同義序列“鱷魚(yú)愛(ài)洗澡”包括文本片段“鱷魚(yú)”和“愛(ài)”以及“沖涼”的同義詞“洗澡”,候選同義序列“小頑皮洗澡”包括文本片段“沖涼”的同義詞“洗澡”,則查詢(xún)裝置2將候選同義序列“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”和“小頑皮洗澡”作為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
2)查詢(xún)裝置2進(jìn)一步包括第一獲取裝置(圖未示)、子查詢(xún)裝置(圖未示)、第一確定裝置(圖未示)以及第二確定裝置(圖未示);第一獲取裝置獲取切詞所得的至少一個(gè)文本片段的同義詞;子查詢(xún)裝置在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列;并且,當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),第一確定裝置直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本;當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí),第二確定裝置將所包含的其他文本信息與待處理的文本序列部分相同的候選同義序列,作為所述候選同義文本。
例如,待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的文本片段包括“鱷魚(yú)”、“愛(ài)”和“沖涼”,候選同義序列庫(kù)包括“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”、“小頑皮洗澡”、“洗了么”、“洗得如何”。
子查詢(xún)裝置在待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義序列庫(kù)中查詢(xún)到候選同義序列“小頑皮愛(ài)洗澡”包含第一獲取裝置獲得的、文本片段“沖涼”的同義詞“洗澡”,且判斷候選同義序列“小頑皮愛(ài)洗澡”中的其他文本信息“小頑皮愛(ài)”與待處理的文本序列“鱷魚(yú)愛(ài)沖涼”中存在部分相同的文本信息“愛(ài)”,則第二確定裝置確定候選同義序列“小頑皮愛(ài)洗澡”為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
接著,類(lèi)似地,查詢(xún)裝置2中的第一獲取裝置、子查詢(xún)裝置、第一確定裝置以及第二確定裝置繼續(xù)執(zhí)行相應(yīng)操作,確定候選同義序列“小頑皮愛(ài)洗澡”、“鱷魚(yú)愛(ài)洗澡”和“小頑皮洗澡”為待處理的文本序列“鱷魚(yú)愛(ài)沖涼”的候選同義文本。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取切詞所得的至少一個(gè)文本片段的同義詞,并在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列,并且,當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本,當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí),將所包含的其他文本信息與待處理的文本序列部分相同的候選同義序列,作為所述候選同義文本的實(shí)現(xiàn)方式;例如,當(dāng)子查詢(xún)裝置查詢(xún)所獲得的候選同義序列包含同義詞以及其他文本信息時(shí),僅當(dāng)所包含的其他文本信息與待處理的文本序列中除該候選同義序列包含的同義詞所對(duì)應(yīng)的文本片段以外的文本片段全部或部分相同時(shí),第二確定裝置才將該候選同義序列,作為所述候選同義文本等,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
需要進(jìn)一步說(shuō)明的是,本領(lǐng)域技術(shù)人員應(yīng)能理解,在對(duì)查詢(xún)裝置2的說(shuō)明所限定的方式下,查詢(xún)裝置2可采用多種方式從候選同義序列庫(kù)中選出候選同義文本。例如,查詢(xún)裝置2可先查詢(xún)并確定所有包含文本片段的同義詞的候選文本序列,再?gòu)闹羞x擇候選同義文本;或者,查詢(xún)裝置2也可逐一判斷各個(gè)候選文本序列是否為候選同義文本。
接著,第一選擇裝置3從候選同義文本中選擇待處理的文本序列的同義文本。
具體地,第一選擇裝置3從所述候選同義文本中選擇所述文本序列的同義文本的方式包括但不限于
I)第一選擇裝置3備根據(jù)候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度,從候選同義文本中選擇同義文本。其中,候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度越高, 則候選同義文本被第一選擇裝置3選擇為同義文本的可能性越高。
其中,該關(guān)聯(lián)度可基于多種因素確定,例如,基于在候選同義文本的搜索結(jié)果和待處理的文本序列的第一搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息來(lái)確定,其中, 搜索結(jié)果項(xiàng)的點(diǎn)擊信息包括但不限于搜索結(jié)果項(xiàng)的點(diǎn)擊率、點(diǎn)擊次數(shù)、被點(diǎn)擊時(shí)間、點(diǎn)擊頻率等;優(yōu)選地,點(diǎn)擊率、點(diǎn)擊次數(shù)、點(diǎn)擊頻率等越高,則關(guān)聯(lián)度越高。優(yōu)選地,關(guān)聯(lián)度還可基于候選同義文本包含的文本片段的同義詞與待處理的文本序列之間的預(yù)確定的接近程度,候選同義文本包含的同義詞在該候選同義文本中所占的比例等來(lái)確定。
2)待處理的文本序列包括網(wǎng)絡(luò)資源名稱(chēng),第一選擇裝置3包括第二子選擇裝置 (圖未示),第二子選擇裝置通過(guò)對(duì)候選同義文本的全部或部分候選同義文本中的每一個(gè)執(zhí)行以下操作A和B中的至少一項(xiàng),來(lái)從所述候選同義文本中選擇所述文本序列的同義文本;其中,第二子選擇裝置可對(duì)候選同義文本中的每一項(xiàng)均執(zhí)行以下操作A和/或B,或者, 第二子選擇裝置可按照候選同義文本與待處理的文本序列之間的關(guān)聯(lián)度由高至低的順序, 或者,按照基于諸如關(guān)聯(lián)度、預(yù)確定的重要度等參數(shù)確定的權(quán)值由高至低的順序,逐一對(duì)各個(gè)候選同義文本執(zhí)行以下操作,直至獲得預(yù)定數(shù)量(如30個(gè))或已對(duì)所有優(yōu)選同義文本執(zhí)行完下述操作A和/或B為止。
以下將對(duì)操作A和B進(jìn)行說(shuō)明
操作A :判斷待處理的文本序列以及當(dāng)前處理的候選同義文本是否具有非同義特征。
其中,所述非同義特征包括任何能夠體現(xiàn)待處理的文本序列以及候選同義文本并非同義詞的特征信息。優(yōu)選地,該非同義特征包括但不限于以下至少一項(xiàng)
I)待處理的文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源屬于不同品牌。
例如,屬于不同品牌的應(yīng)用,如屬于QQ的QQ手機(jī)助理和屬于360的360手機(jī)助手坐寸ο
又例如,屬于不同品牌的影視作品等。
優(yōu)選地,第二子選擇裝置可通過(guò)識(shí)別待處理的文本序列與候選同義文本中具有品牌特征的文本信息,如QQ、360等,或者,獲取計(jì)算機(jī)設(shè)備或其他設(shè)備已預(yù)確定的、待處理的文本序列與候選同義文本的品牌信息,來(lái)確定待處理的文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源是否屬于不同品牌。
2)候選同義文本包含預(yù)定資源衍生詞匯;其中,該預(yù)定資源衍生詞匯包括與網(wǎng)絡(luò)資源相關(guān)但并非網(wǎng)絡(luò)資源本身的詞匯。
例如,與應(yīng)用游戲相關(guān)但不屬于應(yīng)用游戲本身的游戲攻略、地圖、修改器;又例如, 與影視作品相關(guān)但不屬于影視作品的影評(píng)等。
3)所述候選同義文本包含預(yù)定資源片段特征;其中,該預(yù)定資源片段特征包括屬于資源的一個(gè)特定部分,而非形容資源整體的特征。
例如,游戲中的特定場(chǎng)景名稱(chēng);又例如,影視作品的剪輯名稱(chēng)等。
4)待處理的文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例。
例如,精確的應(yīng)用名稱(chēng)為泛用應(yīng)用的具體實(shí)例,如“安兔兔跑分軟件”為“跑分軟件”的具體實(shí)例等。
優(yōu)選地,第二子選擇裝置可通過(guò)識(shí)別待處理的文本序列與所述候選同義文本中的一者所屬分類(lèi)是否為另一者的子分類(lèi),或者,識(shí)別一者是否為另一者的預(yù)定具體實(shí)例,或者,獲取計(jì)算機(jī)設(shè)備或其他設(shè)備已預(yù)確定的、待處理的文本序列與候選同義文本的具體實(shí)例信息,來(lái)確定待處理的文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例。
5)待處理的文本序列以及所述候選同義文本中存在至少兩種語(yǔ)言的文本信息,且將其中一種語(yǔ)言翻譯為另一種語(yǔ)言所得的翻譯結(jié)果在該另一種語(yǔ)言的文本信息中不存在同義詞,也即,待處理的文本序列以及候選同義文本中一者的全部或部分文本信息從一種語(yǔ)言翻譯為另一種語(yǔ)言后,在另一者中不存在對(duì)應(yīng)的同義詞。
例如,待處理的文本序列“sd card清理工具”以及候選同義文本“磁盤(pán)清理工具” 中存在英文與中文兩種語(yǔ)言的文本信息,且待處理的文本序列“sd card清理工具”中的文本片段英文“sd card”經(jīng)翻譯后所得的中文“安全數(shù)碼卡”在候選同義文本“磁盤(pán)清理工具”中不存在對(duì)應(yīng)的同義詞等。
需要說(shuō)明的是,上述非同義特征的舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何能夠體現(xiàn)待處理的文本序列以及候選同義文本并非同義詞的特征信息,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
具體地,當(dāng)判斷判斷待處理的文本序列以及當(dāng)前處理的候選同義文本具有非同義特征時(shí),第二子選擇裝置不將當(dāng)前處理的候選同義文本作為待處理的文本序列的同義文本。
例如,第二子選擇裝置不將與“360手機(jī)助手”屬于不同品牌“QQ手機(jī)助理”作為 “QQ手機(jī)助理”的同義文本;又例如,第二子選擇裝置不將文本序列“跑分軟件”的具體實(shí)例的候選同義文本“安兔兔跑分軟件”作為其同義文本等。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何當(dāng)判斷判斷待處理的文本序列以及當(dāng)前處理的候選同義文本具有非同義特征時(shí),不將當(dāng)前處理的候選同義文本作為待處理的文本序列的同義文本的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
操作B :判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
其中,當(dāng)判斷存在相應(yīng)的網(wǎng)絡(luò)資源時(shí),第二子選擇裝置將當(dāng)前處理的候選同義文本選擇為待處理的文本序列的同義文本。
具體地,第二子選擇裝置判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式包括但不限于
I)第二子選擇裝置獲取已預(yù)確定的、候選同義文本的網(wǎng)絡(luò)資源判斷結(jié)果,以判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
例如,第二子選擇裝置獲取其或其他設(shè)備在第一選擇裝置3執(zhí)行操作之前已預(yù)確定的、候選同義文本“鱷魚(yú)愛(ài)洗澡”在網(wǎng)絡(luò)中是否存在網(wǎng)絡(luò)資源的網(wǎng)絡(luò)資源判斷結(jié)果,判斷 “鱷魚(yú)愛(ài)洗澡”是否存在相應(yīng)的網(wǎng)絡(luò)資源。
其中,預(yù)確定候選同義文本的網(wǎng)絡(luò)資源判斷結(jié)果的方式,與下述實(shí)現(xiàn)方式2)中第二子選擇裝置實(shí)時(shí)判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式相同或相似,在此不再贅述。
2)第二子選擇裝置實(shí)時(shí)判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
優(yōu)選地,第二子選擇裝置實(shí)時(shí)判斷當(dāng)前處理的候選同義文本 是否存在相應(yīng)的網(wǎng)絡(luò)資源的方式包括但不限于
i)第二子選擇裝置基于當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷所述當(dāng)前處理的候選同義文本在所述預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
例如,預(yù)定網(wǎng)絡(luò)資源站點(diǎn)包括安卓(Android)站點(diǎn),當(dāng)前處理的候選同義文本包括“鱷魚(yú)愛(ài)洗澡”,第二子選擇裝置在安卓站點(diǎn)中基于“鱷魚(yú)愛(ài)洗澡”進(jìn)行搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷“鱷魚(yú)愛(ài)洗澡”在安卓站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
ii)第二子選擇裝置基于當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,來(lái)判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源,其中,所述預(yù)定文本模板包括所述當(dāng)前處理的候選同義文本以及與其字符間隔小于預(yù)定閾值的預(yù)定詞匯。其中,預(yù)定文本模板可為一個(gè)或多個(gè)。
例如,預(yù)定文本模板包括“XXX下載”、“XXX小游戲”以及“XXX游戲下載”, 其中“XXX”表示當(dāng)前處理的候選同義文本,預(yù)定詞匯“下載”、“小游戲”以及“游戲下載”與當(dāng)前處理的候選同義文本之間的字符間隔小于等于I個(gè)字符;則第二子選擇裝置基于當(dāng)前處理的候選同義文本“鱷魚(yú)愛(ài)洗澡”進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板“鱷魚(yú)愛(ài)洗澡下載/小游戲/游戲下載”的文本信息,判斷當(dāng)前處理的候選同義文本“鱷魚(yú)愛(ài)洗澡”是否存在相應(yīng)的網(wǎng)絡(luò)資源。
需要說(shuō)明的是,第二子選擇裝置可基于所述當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,以及,基于所述當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果以及是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何從候選同義文本中選擇待處理的文本序列的同義文本的實(shí)現(xiàn)方式,例如,從候選同義文本中隨機(jī)選擇預(yù)定數(shù)量的同義文本等,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
本實(shí)施例中,能夠獲取在各自的搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)來(lái)建立關(guān)聯(lián)的待處理文本序列及其候選同義序列,并進(jìn)一步通過(guò)多種方式判斷各個(gè)候選同義序列是否的確為待處理的文本序列的同義文本,從而能夠獲得現(xiàn)有技術(shù)中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準(zhǔn)確性。
作為本實(shí)施例的優(yōu)選方案之一,待處理的文本序列包括應(yīng)用名稱(chēng),本實(shí)施例的確定裝置還包括文本更新裝置(圖未示),對(duì)于待處理的文本序列的每個(gè)同義文本,當(dāng)判斷待處理的文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),該文本更新裝置根據(jù)預(yù)定應(yīng)用附加特征信息,更新待處理的文本序列或該同義文本,以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息。
其中,所述預(yù)定應(yīng)用附加特征信息包括對(duì)應(yīng)用名稱(chēng)進(jìn)行附加限定的特征信息;例如,表示應(yīng)用版本的特征信息1、2等;表示應(yīng)用效果的特征信息3d等;表示應(yīng)用免費(fèi)的特征信息lite、free等;表示應(yīng)用適用的設(shè)備的特征信息HD等。
優(yōu)選地,文本更新裝置根據(jù)預(yù)定應(yīng)用附加特征信息,更新文本序列或該同義文本, 以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息的方式包括但不限于
I)文本更新裝置在不包含預(yù)定應(yīng)用附加特征信息的一者中添加該應(yīng)用附加特征信息;
2)文本更新裝置在包含預(yù)定應(yīng)用附加特征信息的一者中刪除該預(yù)定應(yīng)用附加特征信息。
并且,對(duì)于一個(gè)待處理的文本序列和/或其所有同義文本,文本更新裝置僅執(zhí)行上述更新方式I)或2)中的一者,以確保待處理的文本序列以及該同義文本均包含或均不包含預(yù)定應(yīng)用附加特征信息。
例如,第一選擇裝置3確定待處理的文本信息“海洋世界動(dòng)態(tài)桌面”的同義文本包括“3d海洋世界動(dòng)態(tài)桌面”,則文本更新裝置判斷“海洋世界動(dòng)態(tài)桌面”和“3d海洋世界動(dòng)態(tài)桌面”中僅一者包含預(yù)定應(yīng)用附加特征信息,則文本更新裝置刪除同義文本“3d海洋世界動(dòng)態(tài)桌面”中的預(yù)定應(yīng)用附加特征信息“3d”,將同義文本更新為“海洋世界動(dòng)態(tài)桌面”。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何對(duì)于待處理的文本序列的每個(gè)同義文本,當(dāng)判斷待處理的文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),根據(jù)預(yù)定應(yīng)用附加特征信息,更新待處理的文本序列或該同義文本,以使待處理的文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
本優(yōu)選方案中,能夠?qū)Υ幚淼奈谋拘蛄屑捌渫x文本進(jìn)行整理,確保兩者的統(tǒng)一性。
作為本實(shí)施例的優(yōu)選方案之一,本實(shí)施例的確定裝置還包括接收裝置(圖未示) 以及提供裝置(圖未示),接收裝置接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列,提供裝置基于所述文本序列及其同義文本進(jìn)行搜索,并將搜索結(jié)果提供給所述用戶(hù)設(shè)備。
具體地,接收裝置接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列,提供裝置基于所述文本序列及其同義文本分別進(jìn)行搜索,并將基于文本序列及其同義詞分別所得的各個(gè)搜索結(jié)果項(xiàng)進(jìn)行融合后,提供給用戶(hù)設(shè)備。
本實(shí)施例中,通過(guò)基于所請(qǐng)求搜索的文本序列及其同義文本進(jìn)行搜索,能夠獲得單純基于文本序列進(jìn)行搜索難以獲得且實(shí)際可能為用戶(hù)所需的搜索結(jié)果項(xiàng)。
圖4為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于建立或更新候選同義序列庫(kù)的更新裝置的結(jié)構(gòu)示意圖;本實(shí)施例的確定裝置包括匹配裝置4以及庫(kù)更新裝置5。
匹配裝置4將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配。
其中,所述第一搜索結(jié)果和第二搜索結(jié)果可為分別基于待處理的文本序列和待挖掘序列進(jìn)行實(shí)時(shí)搜索所得的搜索結(jié)果,也可分別為待處理的文本序列和待挖掘序列的歷史搜索結(jié)果。
其中,匹配裝置4可采用多種方式來(lái)將第一搜索結(jié)果與第二搜索結(jié)果進(jìn)行匹配。
例如,匹配裝置4先獲得第一搜索結(jié)果和第二搜索結(jié)果,再將兩者進(jìn)行比對(duì)。
又例如,當(dāng)?shù)谝凰阉鹘Y(jié)果和第二搜索結(jié)果為歷史搜索結(jié)果時(shí),匹配裝置4查詢(xún)第一搜索結(jié)果包含的各個(gè)搜索結(jié)果項(xiàng)在其他搜索結(jié)果中出現(xiàn)的歷史記錄,以確定第一搜索結(jié)果中是否存在出現(xiàn)在第二搜索結(jié)果中的搜索結(jié)果項(xiàng),從而確定第一搜索結(jié)果和第二搜索結(jié)果的匹配結(jié)果等。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),庫(kù)更新裝置5根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù);其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
例如,當(dāng)匹配裝置4匹配到第一搜索結(jié)果和第二搜索結(jié)果均包含搜索結(jié)果項(xiàng)C時(shí), 庫(kù)更新裝置5直接將待挖掘序列作為待處理的文本序列的候選同義序列,加入其候選同義序列庫(kù)中,或?qū)υ摵蜻x同義序列進(jìn)行諸如去除無(wú)意義信息等調(diào)整后,加入候選同義序列庫(kù)中。
需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù)的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
作為本實(shí)施例的一種優(yōu)選方案,第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含的相同的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值。例如,第一搜索結(jié)果和第二搜索結(jié)果包含相同的30個(gè)以上的搜索結(jié)果項(xiàng)等。
由于若一個(gè)搜索結(jié)果項(xiàng)出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,則可認(rèn)為盡管用戶(hù)輸入了不同的文本序列,但其希望搜索的對(duì)象是相同或相似的,本發(fā)明據(jù)此來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列。
作為本實(shí)施例的另一種優(yōu)選方案,第一搜索結(jié)果與所述第二搜索結(jié)果分別為所述待處理的文本序列以及所述待挖掘序列的歷史搜索結(jié)果,前述匹配裝置4包括子匹配裝置(圖未示)。
子匹配裝置根據(jù)待處理的文本序列以及待挖掘序列的歷史搜索結(jié)果的用戶(hù)點(diǎn)擊信息,將所述第一搜索結(jié)果與所述第二搜索結(jié)果進(jìn)行匹配;
其中,本實(shí)施例中,所述第一預(yù)定條件包括所述待處理的文本序列和所述待挖掘序列的歷史搜索結(jié)果中包含至少一個(gè)相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)。
例如,基于待處理的文本序列queryl進(jìn)行搜索所得的歷史搜索結(jié)果包括搜索結(jié)果項(xiàng)C1、C2和C3,其中,搜索結(jié)果項(xiàng)Cl和C2在queryl的歷史搜索結(jié)果被呈現(xiàn)時(shí),被用戶(hù)點(diǎn)擊;基于另一文本序列query2的所得的歷史搜索結(jié)果中包括搜索結(jié)果項(xiàng)Cl和C2,且搜索結(jié)果項(xiàng)Cl在query2的搜索結(jié)果被呈現(xiàn)給用戶(hù)時(shí),被用戶(hù)點(diǎn)擊;基于另一文本序列query3 的所得的歷史搜索結(jié)果中包括搜索結(jié)果項(xiàng)Cl和C3,且搜索結(jié)果項(xiàng)C3在query3的搜索結(jié)果被呈現(xiàn)給用戶(hù)時(shí),被用戶(hù)點(diǎn)擊;則基于待處理的文本序列queryl所得的歷史搜索結(jié)果 (即第一搜索結(jié)果)與基于文本序列query2所得的歷史搜索結(jié)果(即第二搜索結(jié)果)中存在相同的、且在第一搜索結(jié)果和第二搜索結(jié)果中均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)Cl,文本序列query2為待處理的文本序列queryl的候選同義序列。而文本序列query3不是待處理的文本序列queryl的候選同義序列。
優(yōu)選地,在上述優(yōu)選方案中,第一預(yù)定條件還包括所述均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件。
其中,所述第二預(yù)定條件包括能夠被確定為候選同義序列的待挖掘文本序列的點(diǎn)擊信息所應(yīng)符合的條件,如點(diǎn)擊率超過(guò)一預(yù)定閾值、點(diǎn)擊規(guī)律符合預(yù)定規(guī)律等。
例如,第二預(yù)定條件包括將在第一搜索結(jié)果和第二搜索結(jié)果中均被用戶(hù)點(diǎn)擊的各個(gè)搜索結(jié)果項(xiàng)的點(diǎn)擊次數(shù)相加所得的值超過(guò)預(yù)確定的閾值。
需要說(shuō)明的是,優(yōu)選地,第一預(yù)定條件可包括上述優(yōu)選方案中的所有條件;例如, 第一預(yù)定條件可包括第一搜索結(jié)果與第二搜索結(jié)果包含的相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值;又例如,第一預(yù)定條件可包括第一搜索結(jié)果與第二搜索結(jié)果包含的相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值,并且,該等均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件等。
作為本實(shí)施例的另一種優(yōu)選方案,本實(shí)施例的更新裝置還包括迭代裝置(圖未示)O
當(dāng)所述匹配結(jié)束后,迭代裝置選擇另一個(gè)序列作為待處理的文本序列的待挖掘序列,以觸發(fā)匹配裝置和庫(kù)更新裝置執(zhí)行操作,直至滿足預(yù)定停止條件,如被操作人員終止重復(fù)操作,或者,待處理的文本序列的候選同義文本庫(kù)中包含的候選同義文本數(shù)量已達(dá)到 1000 等。
優(yōu)選地,當(dāng)通過(guò)上述方式確定的候選同義序列超過(guò)N個(gè)時(shí),更新裝置可根據(jù)第一搜索結(jié)果與第二搜索結(jié)果的匹配程度高低,選擇排序前N位的待挖掘文本序列,作為待處理的文本序列的候選同義序列,其中,N為預(yù)定序列數(shù)量閾值。
由于若一個(gè)搜索結(jié)果項(xiàng)出現(xiàn)在兩個(gè)文本序列的搜索結(jié)果中,且均被用戶(hù)點(diǎn)擊,則可認(rèn)為盡管用戶(hù)輸入了不同的文本序列,但其希望搜索的對(duì)象是相同或相似的。本優(yōu)選方案據(jù)此來(lái)挖掘一個(gè)文本序列的候選同義序列,能夠獲得基于現(xiàn)有技術(shù)的方案難以召回的候選同義序列;進(jìn)一步地,由于在兩個(gè)搜索結(jié)果中均被用戶(hù)點(diǎn)擊的次數(shù)、頻率等越高,其且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的數(shù)量越多,則用戶(hù)認(rèn)為該兩個(gè)搜索結(jié)果項(xiàng)指向同一搜索對(duì)象的可能性越大,據(jù)此,本優(yōu)選方案還能夠基于均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息,進(jìn)一步篩選候選同義序列。
需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,本發(fā)明的各個(gè)裝置可采用專(zhuān)用集成電路(ASIC)或任何其他類(lèi)似硬件設(shè)備來(lái)實(shí)現(xiàn)。在一個(gè)實(shí)施例中,本發(fā)明的軟件程序可以通過(guò)處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲(chǔ)到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲(chǔ)器,磁或光驅(qū)動(dòng)器或軟磁盤(pán)及類(lèi)似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來(lái)實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個(gè)步驟或功能的電路。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過(guò)軟件或者硬件來(lái)實(shí)現(xiàn)。第一,第二等詞語(yǔ)用來(lái)表示名稱(chēng),而并不表示任何特定的順序。2權(quán)利要求
1.一種用于建立或更新候選同義序列庫(kù)的方法,其中,該方法包括以下步驟 A將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配; 其中,該方法還包括以下步驟 X當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù); 其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含的所述相同的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值。
3.根據(jù)權(quán)利要求I所述的方法,其中,所述第一搜索結(jié)果與所述第二搜索結(jié)果分別為所述待處理的文本序列以及所述待挖掘序列的歷史搜索結(jié)果,其中,所述步驟A包括以下步驟 -根據(jù)所述待處理的文本序列以及所述待挖掘序列的所述歷史搜索結(jié)果的用戶(hù)點(diǎn)擊信息,將所述第一搜索結(jié)果與所述第二搜索結(jié)果進(jìn)行匹配; 其中,所述第一預(yù)定條件包括所述待處理的文本序列和所述待挖掘序列的歷史搜索結(jié)果中包含至少一個(gè)相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述第一預(yù)定條件還包括所述均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件。
5.根據(jù)權(quán)利要求I至4中任一項(xiàng)所述的方法,其中,該方法還包括以下步驟 -當(dāng)所述匹配結(jié)束后,選擇另一個(gè)序列作為所述待處理的文本序列的待挖掘序列,重復(fù)所述步驟A和X。
6.一種用于確定同義文本的方法,其中,該方法包括以下步驟 a對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段; b根據(jù)所述至少一個(gè)文本片段,在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的第一搜索結(jié)果與基于所述候選同義序列所得的第二搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件; c從所述候選同義文本中選擇所述文本序列的同義文本; 其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟b包括以下步驟 -獲取所述至少一個(gè)文本片段的同義詞; -在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列; -當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本; -當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí),將所包含的其他文本信息與所述文本序列部分相同的候選同義序列,作為所述候選同義文本。
8.根據(jù)權(quán)利要求6或7所述的方法,其中,所述文本序列包括網(wǎng)絡(luò)資源名稱(chēng),所述步驟C包括以下步驟 -通過(guò)對(duì)所述候選同義文本的全部或部分候選同義文本中的每一個(gè)執(zhí)行以下至少一項(xiàng)操作,來(lái)從所述候選同義文本中選擇所述文本序列的同義文本 操作A :判斷所述文本序列以及當(dāng)前處理的候選同義文本是否具有非同義特征; 操作B :判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述非同義特征包括以下至少一項(xiàng) -所述文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與所述候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源屬于不同品牌; -所述候選同義文本包含預(yù)定資源衍生詞匯; -所述候選同義文本包含預(yù)定資源片段特征; -所述文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例; -所述文本序列以及所述候選同義文本中存在至少兩種語(yǔ)言的文本信息,且將其中一種語(yǔ)言翻譯為另一種語(yǔ)言所得的翻譯結(jié)果在該另一種語(yǔ)言的文本信息中不存在同義詞。
10.根據(jù)權(quán)利要求8或9所述的方法,其中,所述操作B包括 -基于所述當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷所述當(dāng)前處理的候選同義文本在所述預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
11.根據(jù)權(quán)利要求8至10中任一項(xiàng)所述的方法,其中,所述操作B包括 -基于所述當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,來(lái)判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源,其中,所述預(yù)定文本模板包括所述當(dāng)前處理的候選同義文本以及與其字符間隔小于預(yù)定閾值的預(yù)定詞匯。
12.根據(jù)權(quán)利要求6至11中任一項(xiàng)所述的方法,其中,所述文本序列包括應(yīng)用名稱(chēng),該方法還包括以下步驟 -對(duì)于所述文本序列的每個(gè)同義文本,當(dāng)判斷所述文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),根據(jù)所述預(yù)定應(yīng)用附加特征信息,更新所述文本序列或該同義文本,以使所述文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息。
13.根據(jù)權(quán)利要求6至12中任一項(xiàng)所述的方法,其中,該方法還包括以下步驟 -接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列; -基于所述文本序列及其同義文本進(jìn)行搜索,并將搜索結(jié)果提供給所述用戶(hù)設(shè)備。
14.一種用于建立或更新候選同義序列庫(kù)的更新裝置,其中,該更新裝置包括 匹配裝置,用于將待處理的文本序列的第一搜索結(jié)果與其待挖掘序列的第二搜索結(jié)果進(jìn)行匹配; 庫(kù)更新裝置,用于當(dāng)所述匹配的結(jié)果符合第一預(yù)定條件時(shí),根據(jù)所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫(kù); 其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
15.根據(jù)權(quán)利要求14所述的更新裝置,其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含的所述相同的搜索結(jié)果項(xiàng)的數(shù)量超過(guò)第一預(yù)定閾值。
16.根據(jù)權(quán)利要求14所述的更新裝置,其中,所述第一搜索結(jié)果與所述第二搜索結(jié)果分別為所述待處理的文本序列以及所述待挖掘序列的歷史搜索結(jié)果,其中,所述匹配裝置包括 子匹配裝置,用于根據(jù)所述待處理的文本序列以及所述待挖掘序列的所述歷史搜索結(jié)果的用戶(hù)點(diǎn)擊信息,將所述第一搜索結(jié)果與所述第二搜索結(jié)果進(jìn)行匹配; 其中,所述第一預(yù)定條件包括所述待處理的文本序列和所述待挖掘序列的歷史搜索結(jié)果中包含至少一個(gè)相同的、且均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)。
17.根據(jù)權(quán)利要求16所述的更新裝置,其中,所述第一預(yù)定條件還包括所述均被用戶(hù)點(diǎn)擊的搜索結(jié)果項(xiàng)的點(diǎn)擊信息符合第二預(yù)定條件。
18.根據(jù)權(quán)利要求14至17中任一項(xiàng)所述的更新裝置,其中,該更新裝置還包括 迭代裝置,用于當(dāng)所述匹配結(jié)束后,選擇另一個(gè)序列作為所述待處理的文本序列的待挖掘序列,以觸發(fā)所述匹配裝置和所述庫(kù)更新裝置執(zhí)行操作。
19.一種用于確定同義文本的同義文本確定裝置,其中,該同義文本確定裝置包括 切詞裝置,用于對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段; 查詢(xún)裝置,用于根據(jù)所述至少一個(gè)文本片段,在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的第一搜索結(jié)果與基于所述候選同義序列所得的第二搜索結(jié)果的匹配結(jié)果符合第一預(yù)定條件; 第一選擇裝置,用于從所述候選同義文本中選擇所述文本序列的同義文本; 其中,所述第一預(yù)定條件包括所述第一搜索結(jié)果與所述第二搜索結(jié)果包含至少一個(gè)相同的搜索結(jié)果項(xiàng)。
20.根據(jù)權(quán)利要求19所述的同義文本確定裝置,其中,所述查詢(xún)裝置包括 第一獲取裝置,用于獲取所述至少一個(gè)文本片段的同義詞; 子查詢(xún)裝置,用于在所述文本序列的候選同義序列庫(kù)中進(jìn)行查詢(xún),以獲得包含所述同義詞的候選同義序列; 第一確定裝置,用于當(dāng)所述查詢(xún)所獲得的候選同義序列僅包含所述同義詞時(shí),直接將所述查詢(xún)到的候選同義序列作為所述候選同義文本; 第二確定裝置,用于當(dāng)所述查詢(xún)所獲得的候選同義序列包含所述同義詞以及其他文本信息時(shí),將所包含的其他文本信息與所述文本序列部分相同的候選同義序列,作為所述候選同義文本。
21.根據(jù)權(quán)利要求19或20所述的同義文本確定裝置,其中,所述文本序列包括網(wǎng)絡(luò)資源名稱(chēng),所述第一選擇裝置包括 第二子選擇裝置,用于通過(guò)對(duì)所述候選同義文本的全部或部分候選同義文本中的每一個(gè)執(zhí)行以下至少一項(xiàng)操作,來(lái)從所述候選同義文本中選擇所述文本序列的同義文本 操作A :判斷所述文本序列以及當(dāng)前處理的候選同義文本是否具有非同義特征; 操作B :判斷當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源。
22.根據(jù)權(quán)利要求21所述的同義文本確定裝置,其中,所述非同義特征包括以下至少一項(xiàng) -所述文本序列所對(duì)應(yīng)的網(wǎng)絡(luò)資源與所述候選同義文本所對(duì)應(yīng)的網(wǎng)絡(luò)資源屬于不同品牌; -所述候選同義文本包含預(yù)定資源衍生詞匯; -所述候選同義文本包含預(yù)定資源片段特征; -所述文本序列與所述候選同義文本中的一者為另一者的具體實(shí)例; -所述文本序列以及所述候選同義文本中存在至少兩種語(yǔ)言的文本信息,且將其中一種語(yǔ)言翻譯為另一種語(yǔ)言所得的翻譯結(jié)果在該另一種語(yǔ)言的文本信息中不存在同義詞。
23.根據(jù)權(quán)利要求21或22所述的同義文本確定裝置,其中,所述操作B包括 -基于所述當(dāng)前處理的候選同義文本,在預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中進(jìn)行資源搜索,并根據(jù)是否能夠獲得資源搜索結(jié)果,來(lái)判斷所述當(dāng)前處理的候選同義文本在所述預(yù)定網(wǎng)絡(luò)資源站點(diǎn)中是否存在相應(yīng)的網(wǎng)絡(luò)資源。
24.根據(jù)權(quán)利要求21至23中任一項(xiàng)所述的同義文本確定裝置,其中,所述操作B包括 -基于所述當(dāng)前處理的候選同義文本,進(jìn)行網(wǎng)頁(yè)搜索,并根據(jù)是否能夠在搜索所得的網(wǎng)頁(yè)中提取出符合預(yù)定文本模板的文本信息,來(lái)判斷所述當(dāng)前處理的候選同義文本是否存在相應(yīng)的網(wǎng)絡(luò)資源,其中,所述預(yù)定文本模板包括所述當(dāng)前處理的候選同義文本以及與其字符間隔小于預(yù)定閾值的預(yù)定詞匯。
25.根據(jù)權(quán)利要求19至24中任一項(xiàng)所述的同義文本確定裝置,其中,所述文本序列包括應(yīng)用名稱(chēng),該同義文本確定裝置還包括 文本更新裝置,用于對(duì)于所述文本序列的每個(gè)同義文本,當(dāng)判斷所述文本序列及該同義文本中僅一者包含預(yù)定應(yīng)用附加特征信息時(shí),根據(jù)所述預(yù)定應(yīng)用附加特征信息,更新所述文本序列或該同義文本,以使所述文本序列以及該同義文本均包含或均不包含所述應(yīng)用附加特征信息。
26.根據(jù)權(quán)利要求19至25中任一項(xiàng)所述的同義文本確定裝置,其中,該同義文本確定裝置還包括 接收裝置,用于接收用戶(hù)設(shè)備所請(qǐng)求搜索的文本序列; 提供裝置,用于基于所述文本序列及其同義文本進(jìn)行搜索,并將搜索結(jié)果提供給所述用戶(hù)設(shè)備。
全文摘要
本發(fā)明提供一種用于確定同義文本的方法和裝置。本發(fā)明對(duì)待處理的文本序列進(jìn)行切詞,獲得至少一個(gè)文本片段;并根據(jù)所述至少一個(gè)文本片段,在所述文本序列的候選同義序列中進(jìn)行查詢(xún),獲得包含所述至少一個(gè)文本片段或其同義詞中的一個(gè)或多個(gè)的候選同義序列;并從所述候選同義文本中選擇所述文本序列的同義文本。與現(xiàn)有技術(shù)相比,本發(fā)明能夠獲得現(xiàn)有技術(shù)中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102982125SQ20121045708
公開(kāi)日2013年3月20日 申請(qǐng)日期2012年11月14日 優(yōu)先權(quán)日2012年11月14日
發(fā)明者劉欽 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
莱州市| 五大连池市| 尚志市| 隆安县| 靖远县| 宁晋县| 当阳市| 阿鲁科尔沁旗| 平遥县| 太白县| 肥东县| 朝阳区| 巨野县| 吴堡县| 仙居县| 滨州市| 深圳市| 墨玉县| 出国| 河东区| 稻城县| 营山县| 永春县| 丰顺县| 阿鲁科尔沁旗| 衡南县| 泾阳县| 天台县| 肥城市| 微博| 元江| 黎川县| 嘉祥县| 咸宁市| 盐池县| 屏边| 简阳市| 五台县| 安国市| 都昌县| 太谷县|