欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種抽取核心詞的方法及裝置制造方法

文檔序號(hào):6508941閱讀:217來(lái)源:國(guó)知局
一種抽取核心詞的方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種抽取核心詞的方法及裝置,能夠?qū)崿F(xiàn)從用戶輸入的查詢?cè)~中抽取出較為準(zhǔn)確的核心詞,從而達(dá)到提高查詢準(zhǔn)確率的目的,包括:采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;將所述查詢?cè)~的分詞分別與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,獲取滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
【專利說(shuō)明】—種抽取核心詞的方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及詞語(yǔ)處理領(lǐng)域,特別涉及一種抽取核心詞的方法及裝置。

【背景技術(shù)】
[0002]在電子地圖查詢應(yīng)用中,根據(jù)用戶輸入的查詢?cè)~進(jìn)行Ρ0Ι查詢時(shí),通常的做法是,首先對(duì)用戶輸入的查詢?cè)~進(jìn)行分詞,再將各分詞分別與Ρ0Ι數(shù)據(jù)庫(kù)進(jìn)行匹配,得到多個(gè)查詢結(jié)果,將查詢結(jié)果中出現(xiàn)頻次最高的查詢結(jié)果作為本次查詢的查詢結(jié)果。但是,該種查詢方式會(huì)存在以下技術(shù)缺陷:由于對(duì)查詢?cè)~進(jìn)行切分會(huì)得到多個(gè)分詞,但是有些分詞并不是該查詢?cè)~的核心詞(核心詞即為指能準(zhǔn)確表達(dá)查詢?cè)~含義的最小完整詞語(yǔ)單位),如果根據(jù)這些非核心詞查詢得到的查詢結(jié)果出現(xiàn)的頻次最高,則將頻次最高的查詢結(jié)果作為查詢結(jié)果可能并不是用戶實(shí)際需要的結(jié)果,從而導(dǎo)致查詢結(jié)果不準(zhǔn)確或者錯(cuò)誤。例如,用戶輸入的查詢?cè)~“北京同仁堂中醫(yī)醫(yī)院”,切分得到的分詞為“北京”、“同仁堂”、“中醫(yī)醫(yī)院”,根據(jù)這三個(gè)分詞進(jìn)行查詢之后,發(fā)現(xiàn)“北京同仁堂藥店”出現(xiàn)的頻次最高,此時(shí)將“北京同仁堂藥店”作為查詢結(jié)果輸出,但是用戶實(shí)際要查的是一家中醫(yī)醫(yī)院而并不是藥店。


【發(fā)明內(nèi)容】

[0003]有鑒于此,本發(fā)明實(shí)施例的主要目的在于提供一種用于抽取核心詞的方法及裝置,能夠?qū)崿F(xiàn)從用戶輸入的查詢?cè)~中抽取出較為準(zhǔn)確的核心詞,從而達(dá)到提高查詢準(zhǔn)確率的目的。
[0004]在本發(fā)明實(shí)施例的第一方面中,提供了一種抽取核心詞的方法,該方法可以包括:
[0005]采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;
[0006]將所述查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;
[0007]若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:
[0008]將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,
[0009]將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
[0010]在本發(fā)明實(shí)施例的第二方面中,提供了一種抽取核心詞的裝置,該裝置可以包括:
[0011]分詞單元,用于采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;
[0012]分詞匹配單元,用于將所述查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;
[0013]第一核心詞抽取單元,用于若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
[0014]可見(jiàn)本發(fā)明具有如下有益效果:
[0015]現(xiàn)有技術(shù)根據(jù)查詢?cè)~的分詞進(jìn)行查詢,并將頻次最高的查詢結(jié)果作為最終的查詢結(jié)果,與現(xiàn)有技術(shù)相比,本發(fā)明提出了抽取查詢?cè)~的核心詞的方法,并以該抽取到的核心詞進(jìn)行查詢,由于核心詞是能夠準(zhǔn)確表達(dá)查詢?cè)~含義的最小完整詞語(yǔ)單位,即能夠準(zhǔn)確的表達(dá)用戶的查詢意圖,因此根據(jù)查詢?cè)~對(duì)應(yīng)的核心詞進(jìn)行查詢所得到的查詢結(jié)果較為準(zhǔn)確,從而達(dá)到提高查詢準(zhǔn)確率的目的。在抽取核心詞時(shí),首先采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行分詞得到組成查詢?cè)~的分詞,又將查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配,由于核心詞詞庫(kù)中存儲(chǔ)的是已知準(zhǔn)確的核心詞,因此,若查詢?cè)~的分詞中存在與核心詞詞庫(kù)匹配的分詞,則可以將與核心詞詞庫(kù)匹配的分詞作為查詢?cè)~的核心詞,由于非核心詞詞庫(kù)中存儲(chǔ)的是已經(jīng)經(jīng)過(guò)驗(yàn)證為不是核心詞的詞語(yǔ),因此,與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的未知分詞則是與核心詞詞庫(kù)匹配的詞語(yǔ)外,最有可能為核心詞的詞語(yǔ),因此,再將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,可以提高抽取到準(zhǔn)確核心詞的概率,從而以該抽取到的準(zhǔn)確的核心詞進(jìn)行查詢,得到的查詢結(jié)果更準(zhǔn)確,從而提高查詢的準(zhǔn)確率。

【專利附圖】

【附圖說(shuō)明】
[0016]圖1是本發(fā)明實(shí)施例提供的抽取核心詞的方法的流程圖之一;
[0017]圖2是本發(fā)明實(shí)施例提供的抽取核心詞的方法的流程圖之二 ;
[0018]圖3是本發(fā)明實(shí)施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之一。
[0019]圖4是本發(fā)明實(shí)施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之二 ;
[0020]圖5是本發(fā)明實(shí)施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之三;
[0021]圖6是本發(fā)明實(shí)施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之四;
[0022]圖7是本發(fā)明實(shí)施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之五。

【具體實(shí)施方式】
[0023]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)的說(shuō)明。
[0024]參見(jiàn)圖1,為本發(fā)明實(shí)施例提供的一種抽取核心詞的方法的流程圖,該方法可以應(yīng)用于地圖搜索、周邊搜索等任意需要輸入查詢?cè)~進(jìn)行查詢的應(yīng)用場(chǎng)景,該方法可以預(yù)先配置用于保存已知核心詞的核心詞詞庫(kù)、及用于保存已知非核心詞的非核心詞詞庫(kù),包括:
[0025]S110、采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;
[0026]其中,預(yù)置的分詞方式可以包括基本分詞、混合分詞方式等分詞方式。在本發(fā)明中并不進(jìn)行限制。為了使本發(fā)明實(shí)施例更加易于理解,下面對(duì)混合分詞方式及基本分詞進(jìn)行簡(jiǎn)單介紹:
[0027]基本分詞方式是將查詢?cè)~與包含基本漢語(yǔ)單位的基本詞庫(kù)進(jìn)行匹配,按照匹配的詞語(yǔ)進(jìn)行切分得到各個(gè)分詞,其中,基本詞庫(kù)可以包含能夠成詞的基本漢語(yǔ)單位,也有可能是單字。例如,“中國(guó)移動(dòng)網(wǎng)上營(yíng)業(yè)廳”按照基本分詞方式切分獲得的分詞是:“中國(guó)”、“移動(dòng)”、“網(wǎng)上”、“營(yíng)業(yè)廳”。
[0028]混合分詞方式是將查詢?cè)~與包含基本漢語(yǔ)單位的基本詞庫(kù)進(jìn)行匹配,按照匹配的詞語(yǔ)進(jìn)行切分得到各個(gè)基本分詞,再將各個(gè)基本分詞的各種組合與包含聯(lián)合詞語(yǔ)的擴(kuò)展詞庫(kù)進(jìn)行匹配,按照匹配的詞語(yǔ)進(jìn)行切分得到最終的各個(gè)分詞,其中擴(kuò)展詞庫(kù)可以包含基本詞庫(kù)中能夠聯(lián)合成詞的詞語(yǔ)組合。例如,“中國(guó)移動(dòng)網(wǎng)上營(yíng)業(yè)廳”按照混合分詞方式切分獲得的分詞是:“中國(guó)移動(dòng)”、“網(wǎng)上”、“營(yíng)業(yè)廳”。與基本分詞方式比較,混合分詞方式進(jìn)行分詞可以獲得個(gè)數(shù)較少的分詞,且每個(gè)分詞包含的信息較為詳細(xì)??紤]這一因素,本發(fā)明實(shí)施例中將混合分詞方式作為首選預(yù)置的分詞方式可以為優(yōu)選方式。
[0029]S120、將所述查詢?cè)~的分詞分別與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;
[0030]S130、若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:
[0031]將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
[0032]需要說(shuō)明的是,一個(gè)查詢?cè)~可以只有一個(gè)核心詞,也可以有多個(gè)核心詞。
[0033]具體地,例如,將預(yù)置的滿足核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,可以通過(guò)以下方式實(shí)現(xiàn):
[0034]若存在連續(xù)的未知分詞,則可以將連續(xù)的未知分詞拼接成一個(gè)分詞,將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍(第二長(zhǎng)度范圍可以是4?12個(gè)字節(jié),即2?6個(gè)漢字)內(nèi)的拼接得到的分詞確定為所述查詢?cè)~的核心詞;
[0035]若存在非連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢?cè)~的核心詞。
[0036]需要說(shuō)明的是,連續(xù)的未知分詞指的是至少有兩個(gè)在查詢?cè)~所處位置相鄰的分詞均為未知分詞,非連續(xù)的未知分詞指的是在查詢?cè)~中與該未知分詞相鄰的前一分詞和后一分詞均不是未知分詞。
[0037]如:查詢?cè)~為“中國(guó)民生銀行望京自助ATM機(jī)”,對(duì)該查詢?cè)~進(jìn)行切分得到分詞分別為:“中國(guó)”、“民生”、“銀行”、“自助”、“ATM機(jī)”,其中“中國(guó)”、“銀行”為與非核心詞詞庫(kù)匹配的分詞,“民生”、“自助”、“ATM機(jī)”為未知分詞,則按照前述方式判斷可知,與“民生”相鄰的前一分詞“中國(guó)”和后一分詞“銀行”均為非未知詞,因此確定“民生”為一個(gè)非連續(xù)未知分詞,且其長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi),確認(rèn)該“民生”為前述查詢?cè)~的核心詞;而自助”、“ATM機(jī)”為相鄰的且連續(xù)的兩個(gè)未知分詞,因此將該自助”、“ATM機(jī)”拼接成一個(gè)分詞“自助ATM機(jī)”,判斷該拼接得到的分詞的長(zhǎng)度在第二長(zhǎng)度范圍內(nèi),因此將“自助ATM機(jī)”確定為前述查詢?cè)~的核心詞。
[0038]應(yīng)用本發(fā)明實(shí)施例提供的抽取核心詞的方法,由于設(shè)置的核心詞詞庫(kù)中存儲(chǔ)的是已知準(zhǔn)確的核心詞,非核心詞詞庫(kù)中存儲(chǔ)的是已知的非核心詞,因此,本發(fā)明實(shí)施例中,將與核心詞詞庫(kù)匹配的分詞作為查詢?cè)~的核心詞的準(zhǔn)確率較高,而未知分詞由于并不是非核心詞詞庫(kù)中的詞語(yǔ),因此其在很大的概率上可能為核心詞。因此前述圖1所示的方法流程的步驟130中,對(duì)未知分詞是否為核心詞作進(jìn)一步的判斷。圖1所示方法至少可以在以下三種情況下抽取到準(zhǔn)確的核心詞:
[0039]情況1、組成查詢?cè)~的分詞中僅存在與核心詞詞庫(kù)匹配的分詞和未知分詞,這種情況,本發(fā)明實(shí)施例提供的解決方案是:將與核心詞詞庫(kù)匹配的分詞確定為核心詞,并提取出滿足核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞;
[0040]情況2、組成查詢?cè)~的分詞中僅存在與非核心詞詞庫(kù)匹配的分詞和未知分詞,這種情況,本發(fā)明實(shí)施例提供的解決方案是:提取出滿足核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞;
[0041]情況3、組成查詢?cè)~的分詞中存在與核心詞詞庫(kù)匹配的分詞、且存在與非核心詞詞庫(kù)匹配的分詞、且存在未知分詞,這種情況,本發(fā)明實(shí)施例提供的解決方案是:將與核心詞詞庫(kù)匹配的分詞確定為核心詞、以及提取出滿足核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞。
[0042]可見(jiàn),應(yīng)用本發(fā)明實(shí)施例可以抽取到準(zhǔn)確的核心詞,進(jìn)而相應(yīng)提高查詢的準(zhǔn)確率。
[0043]例如,可以在地圖搜索、周邊查詢等任意需要輸入查詢?cè)~進(jìn)行查詢的應(yīng)用場(chǎng)景中應(yīng)用本發(fā)明實(shí)施例,如果所述查詢?cè)~存在核心詞,則還可以以所述查詢?cè)~的核心詞為關(guān)鍵詞,查詢與所述查詢?cè)~對(duì)應(yīng)的興趣點(diǎn)(如目的地地址等),從而提高查詢的準(zhǔn)確率。
[0044]另外,除上述三種情況外,在實(shí)際應(yīng)用中還存在其他的一些情況,包括:
[0045]情況4、組成查詢?cè)~的分詞均與非核心詞詞庫(kù)匹配,對(duì)于這種情況,本發(fā)明實(shí)施例提供的解決方案是:查詢所述查詢?cè)~的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個(gè)分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞;將所述查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,重新執(zhí)行前述S120。
[0046]情況5、組成查詢?cè)~的分詞均為未知分詞,對(duì)于這種情況,本發(fā)明實(shí)施例提供的解決方案是:判斷所述查詢?cè)~的長(zhǎng)度是否在預(yù)置的第一長(zhǎng)度范圍(第二長(zhǎng)度范圍可以是4?12個(gè)字節(jié),即2?6個(gè)漢字)內(nèi),若是,則將所述查詢?cè)~確定為所述查詢?cè)~的核心詞。
[0047]情況6、組成查詢?cè)~的分詞均與核心詞詞庫(kù)匹配,對(duì)于這種情況,本發(fā)明實(shí)施例提供的解決方案是:將與核心詞詞庫(kù)的分詞作為查詢?cè)~的核心詞。
[0048]情況7、組成查詢?cè)~的分詞一部分與核心詞詞庫(kù)匹配而另一部分分詞與非核心詞詞庫(kù)匹配,對(duì)于這種情況,本發(fā)明實(shí)施例提供的解決方案與前述對(duì)情況6的解決方案一致,在此不再贅述。
[0049]為進(jìn)一步的使本領(lǐng)域技術(shù)人員能夠清楚的理解本發(fā)明技術(shù)方案,下面以一詳細(xì)的流程圖對(duì)本發(fā)明技術(shù)方案進(jìn)行詳細(xì)的描述,請(qǐng)參見(jiàn)圖2,該方法包括:
[0050]S210、采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;
[0051]S220、將所述查詢?cè)~的分詞分別與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;
[0052]其中,核心詞詞庫(kù)及非核心詞詞庫(kù)可以預(yù)先通過(guò)軟件或人工整理海量詞語(yǔ)獲得。本發(fā)明實(shí)施例中的核心詞詞庫(kù)中存儲(chǔ)的核心詞滿足以下特征:核心詞由省市區(qū)名稱和非省市區(qū)名稱拼接而成構(gòu)成一個(gè)實(shí)體名,如“中國(guó)銀行”、“??陔娖鳌?、“北京大學(xué)”、“中國(guó)移動(dòng)”等。在整理核心詞詞庫(kù)時(shí),可以將省市區(qū)名稱作為核心詞的一部分,先利用軟件自動(dòng)將省市區(qū)名稱后拼接上其他名詞,再通過(guò)人工篩選得到準(zhǔn)確的已知核心詞。該實(shí)施例中的非核心詞詞庫(kù)可以包括高頻詞庫(kù)、地點(diǎn)類型詞庫(kù)、或行政區(qū)域名稱詞庫(kù)。其中:
[0053]高頻詞庫(kù)可以預(yù)先通過(guò)如下實(shí)現(xiàn)方式獲得:針對(duì)每個(gè)城市,對(duì)該城市對(duì)應(yīng)的Ρ0Ι數(shù)據(jù)庫(kù)中的所有Ρ0Ι的名稱進(jìn)行分詞,統(tǒng)計(jì)出所有分詞的頻率,將頻率大于預(yù)設(shè)頻率閥值的分詞作為高頻詞,并將高頻詞添加到預(yù)置的高頻詞庫(kù)中,將高頻詞以格式(keyword,adcode, citycode,頻率)存儲(chǔ)至高頻詞庫(kù)中,其中,keyword即為高頻詞、adcode為行政區(qū)域代碼、citycode為行政區(qū)域?qū)?yīng)的電話號(hào)碼區(qū)號(hào)。如對(duì)北京市對(duì)應(yīng)的Ρ0Ι數(shù)據(jù)庫(kù)進(jìn)行分析,得到“辦事處”為高頻詞,則將該高頻詞存儲(chǔ)至高頻詞庫(kù)中的格式為:辦事處+北京市+010+頻率。對(duì)上海市對(duì)應(yīng)的Ρ0Ι數(shù)據(jù)庫(kù)進(jìn)行分析,得到“辦事處”為高頻詞,則將該高頻詞存儲(chǔ)至高頻詞庫(kù)中的格式為:辦事處+上海+021+頻率。
[0054]地點(diǎn)類型詞庫(kù)可以預(yù)先通過(guò)人工整理獲得,地點(diǎn)類型詞庫(kù)包括的詞語(yǔ)可以為“餐飲”、“酒店”、“旅館”、“銀行”、“停車場(chǎng)”、“商場(chǎng)”、“超市”等;
[0055]行政區(qū)域名稱詞庫(kù)可以預(yù)先通過(guò)人工整理獲得,行政區(qū)域名稱詞庫(kù)包括的行政區(qū)域名稱可以為省、市、區(qū)、鄉(xiāng)鎮(zhèn)、村、道路等名稱。
[0056]優(yōu)選地,為便于快速、直觀的獲知分詞與核心詞詞庫(kù)、非核心詞詞庫(kù)的匹配情況,在將分詞與核心詞庫(kù)和非核心詞庫(kù)進(jìn)行匹配的過(guò)程中,如果某分詞與核心詞詞庫(kù)或者非核心詞詞庫(kù)中的詞語(yǔ)匹配,則可以將該分詞標(biāo)記為與其匹配的核心詞詞庫(kù)或非核心詞詞庫(kù)對(duì)應(yīng)的標(biāo)識(shí),如果某分詞與核心詞詞庫(kù)及非核心詞詞庫(kù)中的詞語(yǔ)均不匹配,則可以將該分詞標(biāo)記為未知,從而在匹配后可以根據(jù)該標(biāo)記快速的查詢到匹配結(jié)果。如:將與核心詞詞庫(kù)匹配的分詞標(biāo)記為4,與行政區(qū)域名稱詞庫(kù)匹配的分詞標(biāo)記為3,與地點(diǎn)類型詞庫(kù)匹配的分詞標(biāo)記為2,以及與高頻詞庫(kù)匹配的分詞標(biāo)記為1,其他情況標(biāo)記為0。將Ρ0Ι “海口電器有限公司”進(jìn)行切分后得到分詞為“??凇薄ⅰ半娖鳌?、“有限公司”,將分詞與前述核心詞詞庫(kù)、高頻詞庫(kù)、地點(diǎn)類型詞庫(kù)、行政區(qū)域名稱詞庫(kù)進(jìn)行匹配后,根據(jù)匹配情況進(jìn)行標(biāo)記,結(jié)果為???br> (3)、電器(2)、有限公司(2)。
[0057]優(yōu)選地,在建立前述核心詞詞庫(kù)和非核心詞詞庫(kù)時(shí),為避免同一個(gè)分詞可能同時(shí)可以劃定到多個(gè)詞庫(kù)中的情況,本發(fā)明實(shí)施例預(yù)先設(shè)置四個(gè)詞庫(kù)的優(yōu)先級(jí),如:核心詞詞庫(kù)>行政區(qū)域名稱詞庫(kù) > 地點(diǎn)類型詞庫(kù) > 高頻詞庫(kù)。當(dāng)判斷某一分詞可以劃定到多個(gè)詞庫(kù)中時(shí),則將該分詞存儲(chǔ)至優(yōu)先級(jí)較高的詞庫(kù)中,如“商場(chǎng)”既是類型詞也是高頻詞,則將“商場(chǎng)”添加到優(yōu)先級(jí)較高的地點(diǎn)類型詞庫(kù)中。
[0058]S230、若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:
[0059]S230.1、若存在連續(xù)的未知分詞,則將連續(xù)的未知分詞拼接成一個(gè)分詞,并判斷該拼接得到的分詞的長(zhǎng)度是否在預(yù)置的第二長(zhǎng)度范圍內(nèi);
[0060]S230.2、若是,則將拼接得到的分詞確定為所述查詢?cè)~的核心詞,若否則確定該拼接得到的分詞不是查詢?cè)~的核心詞;
[0061]S230.3、若存在非連續(xù)的未知分詞,則判斷所述非連續(xù)的未知分詞的長(zhǎng)度是否在預(yù)置的第二長(zhǎng)度范圍內(nèi);
[0062]S230.4、若是,則將所述非連續(xù)的未知分詞確定為所述查詢?cè)~的核心詞,若否則確定所述非連續(xù)未知分詞不是所述查詢?cè)~的核心詞;
[0063]S230.5、將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;
[0064]S240、若所述查詢?cè)~的分詞均為未知分詞,則:
[0065]S240.1、判斷所述查詢?cè)~的長(zhǎng)度是否在預(yù)置的第一長(zhǎng)度范圍內(nèi);
[0066]S240.2、若是,則將所述查詢?cè)~確定為所述查詢?cè)~的核心詞。若否則確定所述查詢?cè)~不存在核心詞;或者,以預(yù)置的其他分詞方式對(duì)查詢?cè)~進(jìn)行重新分詞,重復(fù)執(zhí)行前述S220 ;
[0067]例如,查詢?cè)~“天安門”均不與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)匹配,其長(zhǎng)度在預(yù)置的第一長(zhǎng)度范圍(如,2?6個(gè)漢字)以內(nèi),則可以將該查詢?cè)~“天安門”本身確定為核心詞。
[0068]S250、若所述查詢?cè)~的分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配,則:
[0069]S250.1、查詢所述查詢?cè)~的分詞中為行政區(qū)域名稱的分詞;
[0070]例如,可以查詢與行政區(qū)域名稱詞庫(kù)中的詞語(yǔ)匹配的分詞。
[0071]S250.2、判斷是行政區(qū)域名稱的分詞相鄰的后一個(gè)分詞是否為行政區(qū)域名稱;
[0072]S250.3、若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞,若是則不作處理;
[0073]例如,查詢?cè)~“海口電器有限公司”經(jīng)過(guò)切分后獲得的分詞為:???、電器、有限公司,若分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配,則可以查詢到分詞中為行政區(qū)域名稱的分詞“??凇保捎凇昂?凇毕噜彽暮笠粋€(gè)分詞是“電器”不屬于行政區(qū)域名稱,因此,可以將“???”與“電器”拼接成一個(gè)分詞“海口電器”,
[0074]S250.4、將所述查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,重新執(zhí)行前述S220。
[0075]需要說(shuō)明的是,上述S250.4中所述的查詢?cè)~的其他分詞指的是在切分獲得分詞中除了該行政區(qū)域名稱的分詞及其相鄰的后一個(gè)分詞之外的其他分詞。
[0076]S260、若所述查詢?cè)~的分詞均與核心詞詞庫(kù)中詞語(yǔ)匹配,或者查詢?cè)~的分詞一部分與核心詞詞庫(kù)匹配而另一部分分詞與非核心詞詞庫(kù)匹配,則:
[0077]S260.1、將與核心詞詞庫(kù)中詞語(yǔ)匹配的分詞作為所述查詢?cè)~的核心詞。
[0078]本發(fā)明人發(fā)現(xiàn),實(shí)際應(yīng)用中如果查詢?cè)~的分詞均不與所述核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)匹配,則當(dāng)該查詢?cè)~在一定長(zhǎng)度范圍內(nèi)時(shí),可以確定該查詢?cè)~本身就是核心詞;當(dāng)查詢?cè)~的分詞均與核心詞詞庫(kù)中詞語(yǔ)匹配,或者,查詢?cè)~的一部分分詞與核心詞詞庫(kù)中詞語(yǔ)匹配而另一部分分詞與非核心詞詞庫(kù)中詞語(yǔ)匹配時(shí),則與核心詞詞庫(kù)中詞語(yǔ)匹配的分詞就是查詢?cè)~的核心詞;本發(fā)明人還發(fā)現(xiàn)行政區(qū)域名稱與其相鄰的后一個(gè)非行政區(qū)域名稱的分詞的拼接為核心詞的概率較高,因此,該實(shí)施例在查詢?cè)~的分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配的情況下,將為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞,將查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,重新執(zhí)行所述將所述查詢?cè)~的分詞分別與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配的步驟,從而提高了提取出準(zhǔn)確的核心詞的概率。
[0079]另外,在應(yīng)用本發(fā)明上述實(shí)施例未抽取到核心詞的情況下,還可以切換至下一預(yù)置的分詞方式,重新應(yīng)用本發(fā)明實(shí)施例進(jìn)行核心詞的抽取,從而增加抽取到核心詞的概率。如預(yù)置的分詞方式包括基本分詞方式和混合分詞方式,優(yōu)選地,先采取混合分詞方式對(duì)查詢?cè)~進(jìn)行切分,并對(duì)切分得到的分詞進(jìn)行核心詞抽取。在抽取不到核心詞時(shí),在采取預(yù)置的基本分詞方式重新對(duì)查詢?cè)~進(jìn)行分詞,并進(jìn)行后續(xù)的核心詞抽取流程。
[0080]參見(jiàn)圖3,為本發(fā)明實(shí)施例提供的一種抽取核心詞的裝置的結(jié)構(gòu)示意圖,該裝置可以配置于地圖搜索、提示輸入信息等任意需要按核心詞查詢的相關(guān)設(shè)備。如圖所示,該裝置可以包括:
[0081]分詞單元310,用于采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞;
[0082]分詞匹配單元320,用于將所述查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;
[0083]第一核心詞抽取單元330,用于若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
[0084]第一核心詞抽取單元330,將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,具體用于:若存在連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的拼接得到的分詞確定為所述查詢?cè)~的核心詞;若存在非連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢?cè)~的核心
ο
[0085]應(yīng)用本發(fā)明實(shí)施例提供的抽取核心詞的裝置,由于設(shè)置的核心詞詞庫(kù)中存儲(chǔ)的是已知準(zhǔn)確的核心詞,非核心詞詞庫(kù)中存儲(chǔ)的是已知的非核心詞,因此,本發(fā)明實(shí)施例中,將與核心詞詞庫(kù)匹配的分詞作為查詢?cè)~的核心詞的準(zhǔn)確率較高,而未知分詞由于并不是非核心詞詞庫(kù)中的詞語(yǔ),因此其在很大的概率上可能為核心詞。因此,圖3所示裝置中的第一核心詞抽取單元330對(duì)未知分詞是否為核心詞作進(jìn)一步的判斷。因此,應(yīng)用本發(fā)明實(shí)施例提供的裝置,可以抽取到準(zhǔn)確的核心詞,進(jìn)而相應(yīng)提高查詢的準(zhǔn)確率。
[0086]優(yōu)選地,針對(duì)查詢?cè)~的分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配的情況,本發(fā)明實(shí)施例所述的裝置,還可以包括第一分詞重組單元340,如圖4所示。
[0087]第一分詞重組單元340,用于若所述查詢?cè)~的分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配,則:查詢所述查詢?cè)~的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個(gè)分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞;將所述查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,觸發(fā)分詞匹配單元 320。
[0088]優(yōu)選地,針對(duì)查詢?cè)~的分詞均為未知分詞,本發(fā)明實(shí)施例前述圖3或圖4的裝置還可以包括第二核心詞抽取單元350,如圖5所示為圖3所示的裝置中還包括第二核心詞抽取單元350:
[0089]第二核心詞抽取單元350,用于若所述查詢?cè)~的分詞均為未知分詞,則:判斷所述查詢?cè)~的長(zhǎng)度是否在預(yù)置的第一長(zhǎng)度范圍內(nèi),若是則將所述查詢?cè)~確定為所述查詢?cè)~的核心詞。
[0090]優(yōu)選地,本發(fā)明實(shí)施例前述圖3、圖4或圖5所示的裝置,還可以包括第三核心詞抽取單元360,如圖6所示為圖3所示的裝置中還包括第三核心詞抽取單元360:
[0091]第三核心詞抽取單元360,用于若所述查詢?cè)~的分詞均與核心詞詞庫(kù)中詞語(yǔ)匹配,或者查詢?cè)~的一部分分詞與核心詞詞庫(kù)中詞語(yǔ)匹配而另一部分分詞與非核心詞詞庫(kù)中詞語(yǔ)匹配,則:將與核心詞詞庫(kù)中詞語(yǔ)匹配的分詞作為所述查詢?cè)~的核心詞。
[0092]在地圖搜索、周邊查詢等任意需要輸入查詢?cè)~進(jìn)行查詢的應(yīng)用場(chǎng)景中均可應(yīng)用本發(fā)明技術(shù)方案。本發(fā)明實(shí)施例中的前述裝置還可以包括查詢單元370,如圖7為所述圖4所示的裝置中還包括第二核心詞抽取單元350和查詢單元370:
[0093]查詢單元370,用于若所述查詢?cè)~存在核心詞,以所述查詢?cè)~的核心詞為關(guān)鍵詞,查詢與所述查詢?cè)~對(duì)應(yīng)的興趣點(diǎn)。
[0094]需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0095]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種抽取核心詞的方法,其特征在于,包括: 采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞; 將所述查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配;若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則: 將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及, 將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述查詢?cè)~的分詞均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配,則所述方法還包括: 查詢所述查詢?cè)~的分詞中為行政區(qū)域名稱的分詞; 判斷是行政區(qū)域名稱的分詞相鄰的后一個(gè)分詞是否為行政區(qū)域名稱; 若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞; 將所述查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,重新執(zhí)行所述將所述查詢?cè)~的分詞分別與核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配的步驟。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述查詢?cè)~的分詞均為未知分詞,則所述方法還包括: 判斷所述查詢?cè)~的長(zhǎng)度是否在預(yù)置的第一長(zhǎng)度范圍內(nèi),若是,則將所述查詢?cè)~確定為所述查詢?cè)~的核心詞。
4.根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,所述將預(yù)置的滿足核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,具體包括: 若存在連續(xù)的未知分詞,則將連續(xù)的未知分詞拼接成一個(gè)分詞,將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的拼接得到的分詞確定為所述查詢?cè)~的核心詞; 若存在非連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢?cè)~的核心詞。
5.根據(jù)權(quán)利要求1?3任一項(xiàng)所述的方法,其特征在于,若所述查詢?cè)~存在核心詞,所述方法還包括: 以所述查詢?cè)~的核心詞為關(guān)鍵詞,查詢與所述查詢?cè)~對(duì)應(yīng)的興趣點(diǎn)。
6.一種抽取核心詞的裝置,其特征在于,包括: 分詞單元,用于采用預(yù)置的分詞方式對(duì)查詢?cè)~進(jìn)行切分,得到組成所述查詢?cè)~的分詞; 分詞匹配單元,用于將所述查詢?cè)~的分詞分別與預(yù)置的核心詞詞庫(kù)和非核心詞詞庫(kù)中的詞語(yǔ)進(jìn)行匹配; 第一核心詞抽取單元,用于若所述查詢?cè)~的分詞中存在與所述核心詞詞庫(kù)匹配的分詞和/或與所述非核心詞詞庫(kù)匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫(kù)匹配的分詞確定為所述查詢?cè)~的核心詞;以及,將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,所述未知分詞是指與所述核心詞詞庫(kù)和所述非核心詞詞庫(kù)中的詞語(yǔ)均不匹配的分詞。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第一分詞重組單元,用于若所述查詢?cè)~的分詞均不與所述核心詞詞庫(kù)中詞語(yǔ)匹配,但均與所述非核心詞詞庫(kù)中的詞語(yǔ)匹配,則:查詢所述查詢?cè)~的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個(gè)分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個(gè)分詞拼接成一個(gè)分詞;將所述查詢?cè)~的其他分詞和拼接得到的分詞作為所述查詢?cè)~的新分詞,針對(duì)查詢?cè)~的新分詞,觸發(fā)分詞匹配單元。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第二核心詞抽取單元,用于若所述查詢?cè)~的分詞均為未知分詞,則:判斷所述查詢?cè)~的長(zhǎng)度是否在預(yù)置的第一長(zhǎng)度范圍內(nèi),若是則將所述查詢?cè)~確定為所述查詢?cè)~的核心詞。
9.根據(jù)權(quán)利要求6?8任一項(xiàng)所述的裝置,其特征在于,所述第一核心詞抽取單元將滿足預(yù)置的核心詞長(zhǎng)度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢?cè)~的核心詞,具體用于:若存在連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的拼接得到的分詞確定為所述查詢?cè)~的核心詞;若存在非連續(xù)的未知分詞,則將長(zhǎng)度在預(yù)置的第二長(zhǎng)度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢?cè)~的核心詞。
10.根據(jù)權(quán)利要求6?8任一項(xiàng)所述的裝置,其特征在于,還包括: 查詢單元,用于若所述查詢?cè)~存在核心詞,以所述查詢?cè)~的核心詞為關(guān)鍵詞,查詢與所述查詢?cè)~對(duì)應(yīng)的興趣點(diǎn)。
【文檔編號(hào)】G06F17/30GK104424177SQ201310376577
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月26日 優(yōu)先權(quán)日:2013年8月26日
【發(fā)明者】彭松 申請(qǐng)人:高德軟件有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
金阳县| 宝应县| 阿合奇县| 奈曼旗| 历史| 鄂托克前旗| 诸暨市| 望奎县| 玛纳斯县| 平乡县| 凤翔县| 嘉祥县| 土默特左旗| 吐鲁番市| 奉化市| 沧州市| 乌苏市| 景宁| 梁平县| 福清市| 中西区| 鹿邑县| 麦盖提县| 富锦市| 连江县| 虎林市| 高碑店市| 措勤县| 长宁区| 军事| 阜平县| 沙田区| 廉江市| 禄劝| 安阳市| 白山市| 桐城市| 昌都县| 吴忠市| 白玉县| 阿拉善右旗|