欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

計算查詢詞模式中分詞權(quán)重的方法和裝置與流程

文檔序號:12802367閱讀:425來源:國知局
計算查詢詞模式中分詞權(quán)重的方法和裝置與流程

本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體而言,涉及一種計算查詢詞模式中分詞權(quán)重的方法和裝置。



背景技術(shù):

查詢詞是用戶通過瀏覽器提交給搜索引擎的請求,通常是一串表達(dá)用戶需求的字符串。搜索引擎在根據(jù)查詢詞進行搜索時,需要對查詢詞進行分詞操作,并分析分詞結(jié)果的權(quán)重,以按照得到分詞的權(quán)重提供搜索結(jié)果;分詞權(quán)重是查詢詞分析中非常重要的目標(biāo),對搜索引擎的能否滿足用戶的搜索需求起著決定性的作用。

目前,對于查詢詞的分詞權(quán)重的計算存在很多的方法,例如下面的一些技術(shù):1、基于共同點擊的分詞權(quán)重計算方法;2、基于分詞詞性的分詞權(quán)重計算方法;3、基于命名實體的分詞權(quán)重計算方法。但是以上的這些技術(shù),所計算得到的分詞權(quán)重的方案都存在相應(yīng)缺陷,因此需要提出一種新的用于計算分詞權(quán)重的方案。



技術(shù)實現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的計算查詢詞模式中分詞權(quán)重的方法和裝置。

依據(jù)本發(fā)明的一種計算查詢詞模式中分詞權(quán)重的方法,包括:獲取用戶輸入的查詢詞,以及所述查詢詞對應(yīng)的搜索結(jié)果中所述用戶點擊的網(wǎng)址標(biāo)題;對所述查詢詞進行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢詞的模式;判斷所述查詢詞的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn);根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重。

可選地,前述的方法,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重,具體包括:根據(jù)所述模式中可替換分詞的位置和個數(shù),將所述模式中包含的分詞組合劃分為多組,分別計算多組分組組合中分詞的權(quán)重。

可選地,前述的方法,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重,還包括:對所述多個分組組合中分詞的權(quán)重進行合并,得到所述模式中分詞的權(quán)重。

可選地,前述的方法,還包括:獲取多個模式中查找相同的模式,對所述相同模式的權(quán)重進行合并。

可選地,前述的方法,還包括:檢測所述模式在已知多個查詢詞中是否出現(xiàn),根據(jù)檢測結(jié)果判斷是否保留所述模式。

依據(jù)本發(fā)明的一種計算查詢詞模式中分詞權(quán)重的裝置,包括:獲取模塊,用于獲取用戶輸入的查詢詞,以及所述查詢詞對應(yīng)的搜索結(jié)果中所述用戶點擊的網(wǎng)址標(biāo)題;模式生成模塊,用于對所述查詢詞進行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢詞的模式;分詞判斷模塊,用于判斷所述查詢詞的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn);權(quán)重計算模塊,用于根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重。

可選地,前述的裝置,所述權(quán)重計算模塊根據(jù)所述模式中可替換分詞的位置和個數(shù),將所述模式中包含的分詞組合劃分為多組,分別計算多組分組組合中分詞的權(quán)重。

可選地,前述的裝置,還包括:所述權(quán)重計算模塊對所述多個分組組合中分詞的權(quán)重進行合并,得到所述模式中分詞的權(quán)重。

可選地,前述的裝置,所述權(quán)重計算模塊獲取多個模式中查找相同的模式,對所述相同模式的權(quán)重進行合并。

可選地,前述的裝置,還包括:過濾模塊,用于檢測所述模式在已知多個查詢詞中是否出現(xiàn),根據(jù)檢測結(jié)果判斷是否保留所述模式。

根據(jù)以上技術(shù)方案,本發(fā)明的計算查詢詞模式中分詞權(quán)重的方法和裝置至少具有以下優(yōu)點:

在本發(fā)明的技術(shù)方案中,用戶輸入查詢詞后,在搜索結(jié)果中點擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢詞的需求,因此基于用戶所點擊的網(wǎng)址標(biāo)題,對查詢詞拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對于用戶的重要程度;基于本發(fā)明計算得到的查詢詞模式的分詞權(quán)重,能夠為用戶推送符合用戶需求的搜索結(jié)果。

上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。

附圖說明

通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1示出了根據(jù)本發(fā)明的一個實施例的一種計算查詢詞模式中分詞權(quán)重的方法的流程圖;

圖2示出了根據(jù)本發(fā)明的一個實施例的一種計算查詢詞模式中分詞權(quán)重的裝置的框圖;

圖3示出了根據(jù)本發(fā)明的一個實施例的一種計算查詢詞模式中分詞權(quán)重的裝置的框圖。

具體實施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

在描述本發(fā)明的實施例前,需要對以下概念進行說明:

查詢詞(query)是指,用戶通過瀏覽器提交給搜索引擎的請求,通常是 一串表達(dá)用戶需求的字符串。

查詢詞的模式(pattern)是指:模式是指不同的查詢詞都能按某種方式來表示,例如用正則表達(dá)式;例如下面的這幾個查詢詞:

查詢詞1:但字怎么造句

查詢詞2:即字怎么造句

這兩個查詢詞表達(dá)了不同的事情(但和即的造句),但是有相同的說法,根據(jù)這兩個查詢詞可以得到如下的模式:*字怎么造句,這里的“*”為通配符,表示無或任意的漢字。又比如,對于查詢詞:混合性皮膚適合用的化妝品,可以得到如下的模式:混合*皮膚*化妝*品*。

分詞(term)權(quán)重:分詞是指對查詢詞進行分詞操作后的基本單位,分詞權(quán)重就是指計算查詢詞分詞后得到的每個分詞在這個查詢詞里的相對權(quán)重,分詞權(quán)重是查詢詞分析中非常重要的目標(biāo),對搜索引擎的能否滿足用戶的搜索需求起著決定性的作用。

如圖1所示,本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的方法,包括:

步驟110,獲取用戶輸入的查詢詞,以及所述查詢詞對應(yīng)的搜索結(jié)果中所述用戶點擊的網(wǎng)址標(biāo)題。在本實施例中,將將用戶提交給搜索引擎的查詢詞以及查詢詞點擊的網(wǎng)址(url)標(biāo)題作為輸入。用戶輸入查詢詞后,在搜索結(jié)果中點擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢詞的需求。

步驟120,對所述查詢詞進行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢詞的模式。在本實施例中,對每一個<查詢詞,標(biāo)題>的組合,首先對查詢詞進行分詞操作,在查詢詞的分詞結(jié)果中任意選取一個詞、兩個詞、三個詞、四個詞的所有組合,按照在查詢詞中的順序組裝為模式。例如:某個查詢詞為abcde,假設(shè)每個字母表示分詞后的分詞,則可以得到如下的模式:

1、一個詞,a*,*b*,*c*,*d*,*e,這里用“*”表示通配符;

2、兩個詞,a*b*,a*c*,a*d*,a*e……

3、三個詞,a*b*c*,a*b*d*,a*b*e……

4、四個詞,a*b*c*d*,a*b*c*e,*b*c*d*e……

步驟130,判斷所述查詢詞的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn)。在本實施例中,需要計算查詢詞中的分詞是否在標(biāo)題中出現(xiàn),出現(xiàn)記錄為1,否則為0:假設(shè)abcde這5個詞在標(biāo)題中的出現(xiàn)情況為1、0、1、1、0,即a、c、d在標(biāo)題里出現(xiàn),b、e在標(biāo)題中沒有出現(xiàn)。

步驟140,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重。根據(jù)本實施例,可以將分詞在標(biāo)題中的出現(xiàn)情況作為模式的權(quán)重值輸出。由于在搜索結(jié)果中點擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢詞的需求,因此基于用戶所點擊的網(wǎng)址標(biāo)題,對查詢詞拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對于用戶的重要程度;基于本發(fā)明計算得到的查詢詞模式的分詞權(quán)重,能夠為用戶推送符合用戶需求的搜索結(jié)果。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的方法,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的方法,步驟140,具體包括:

根據(jù)所述模式中可替換分詞的位置和個數(shù),將所述模式中包含的分詞組合劃分為多組,分別計算多組分組組合中分詞的權(quán)重。在本實施例中,計算權(quán)重值時按照可替換的分詞的位置和個數(shù)進行分組,例如:對于模式:*b*c*d*e,*通配符代表了可替換分詞,則在計算流程里會如下計算權(quán)重值:

1、計算所有滿足這個模式的查詢詞中,b、c、d、e這四個分詞在標(biāo)題中的出現(xiàn)概率;

2、對于出現(xiàn)在b之前的可替換分詞的情況,按照個數(shù)進行分組,例如,針對在b之前只有一個分詞的、有2個分詞的、有3個分詞的、有4個分詞的分詞情況,分別統(tǒng)計這4種情況下形成的分詞組合中每個分詞在標(biāo)題中出現(xiàn)的概率;

3、同樣地,對于出現(xiàn)在b和c之間的可替換分詞的情況、c和d之間 的分詞情況、d和e之間的分詞情況、e后面的分詞情況,也按照分詞的個數(shù)進行分組得到多個分詞組合,為每個分詞組合計算得到在標(biāo)題中的出現(xiàn)概率。

在上面的例子上,假定a、c、d在標(biāo)題中出現(xiàn),那么對于*b*e*這個模式的,其中一個分詞組合的分詞權(quán)重值如下:

*b*e*:1,0,11,0

第一個1表示b前面有一個分詞,并且出現(xiàn)在標(biāo)題;

第二個0表示b沒有出現(xiàn)在標(biāo)題;

第三個11表示b和e中間有兩個分詞,并且都在標(biāo)題出現(xiàn);

第四個0表示e沒有出現(xiàn)在標(biāo)題。

在本實施例中,基于可替換分詞的個數(shù)和位置,對模式進行了細(xì)分,以利于更準(zhǔn)確地計算每個分詞的權(quán)重。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的方法,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的方法,步驟140,還包括:

對所述多個分組組合中分詞的權(quán)重進行合并,得到所述模式中分詞的權(quán)重。在本實施例中,多個分詞組合合并后輸出權(quán)重值的格式舉例:

*b*e*:x|xx|xxx|xxxx,x,|x|xx|xxx|xxx|xxxx,x,x|xx|xxx|xxxx

上面這個例子中每一個x表示一個實際的數(shù),可能是0或者1,表示當(dāng)前<查詢詞,標(biāo)題>對中某個分詞是否出現(xiàn)在標(biāo)題中的統(tǒng)計。

用“|”分隔的表示某個區(qū)間里1個、2個、3個、4個分詞在標(biāo)題出現(xiàn)的情況,例如一開始的3個“|”分別記錄b前面只有一個分詞時這個分詞是否在標(biāo)題中出現(xiàn)、有2個分詞時這2個分詞的出現(xiàn)情況等等,用逗號隔開了表示在模式b、e之間可替換的分詞在標(biāo)題里的出現(xiàn)情況,以及b和e在標(biāo)題中的出現(xiàn)情況;在本實施例中,綜合了多個分詞組合的分詞權(quán)重得到模式中分詞的權(quán)重,數(shù)據(jù)量減少更加適于存儲和使用。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的方法,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的方法,還包括:

獲取多個模式中查找相同的模式,對所述相同模式的權(quán)重進行合并。

在本實施例中,在每個<查詢詞,標(biāo)題>中,能夠得到模式的一個值;最后把相同模式的不同值進行合并,主要是處理不同分詞的情況,例如:

*b*e*:1,0,11,0

*b*e*:11,1,1,0,1

合并后為

*b*e:1|11,0.5,1|11,0,1

第一個1|11,表示b前面存在一個分詞和2個分詞這兩種情況,且他們都在標(biāo)題里出現(xiàn);

第二個0.5,表示b在標(biāo)題中出現(xiàn)的概率是0.5;

第三個1|11表示b和e之間存在一個分詞和2個分詞這兩種情況,且他們都在標(biāo)題出現(xiàn);

第四個0表示e沒有在標(biāo)題出現(xiàn);

第五個1表示e后面有一個分詞,并且在標(biāo)題出現(xiàn)。

在本實施例中,用戶可能多次輸入同一個查詢詞而點擊了不同的搜索結(jié)果,則根據(jù)查詢詞和單次點擊的搜索結(jié)果的網(wǎng)址標(biāo)題計算模式的分詞權(quán)重可能存在不準(zhǔn)確的情況;而本實施例中對相同模式的分詞權(quán)重組合,相當(dāng)于綜合了用戶點擊同一查詢詞以及用多次點擊的搜索結(jié)果的網(wǎng)址標(biāo)題來計算查詢詞模式的分詞權(quán)重,所以計算結(jié)果更加準(zhǔn)確。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的方法,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的方法,還包括:

檢測所述模式在已知多個查詢詞中是否出現(xiàn),根據(jù)檢測結(jié)果判斷是否保留所述模式。

在本實施例中,通過模式在所有<查詢詞,標(biāo)題>的出現(xiàn)次數(shù)進行過濾,最后得到大概1億個模式,清除了重復(fù)的數(shù)據(jù)。

綜合以上實施例,可以大規(guī)模地挖掘查詢詞的模式,并且同時包含模式的分詞在網(wǎng)址標(biāo)題里的出現(xiàn)概率,這個概率可以作為分詞權(quán)重的重要特征,例如:

查詢詞:但怎么造句,可以匹配如下模式:

*怎么*造句*:0.79|0.720.73|0.640.650.65|0.670.610.620.63,0.29…

通過這個模式,我們能夠發(fā)現(xiàn)“但”這個單字,并且是停用詞的單字,在這個查詢詞里有重要的作用,因為當(dāng)“怎么”前面只有一個分詞時,這個分詞在標(biāo)題中的出現(xiàn)概率是0.79;利用這個信息來改進分詞的權(quán)重值,有利于節(jié)省對查詢詞的分析,搜索結(jié)果的質(zhì)量能夠取得明顯改進。

如圖2所示,本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的裝置,包括:

獲取模塊210,獲取用戶輸入的查詢詞,以及所述查詢詞對應(yīng)的搜索結(jié)果中所述用戶點擊的網(wǎng)址標(biāo)題。在本實施例中,將將用戶提交給搜索引擎的查詢詞以及查詢詞點擊的網(wǎng)址(url)標(biāo)題作為輸入。用戶輸入查詢詞后,在搜索結(jié)果中點擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢詞的需求。

模式生成模塊220,對所述查詢詞進行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢詞的模式。在本實施例中,對每一個<查詢詞,標(biāo)題>的組合,首先對查詢詞進行分詞操作,在查詢詞的分詞結(jié)果中任意選取一個詞、兩個詞、三個詞、四個詞的所有組合,按照在查詢詞中的順序組裝為模式。例如:某個查詢詞為abcde,假設(shè)每個字母表示分詞后的分詞,則可以得到如下的模式:

1、一個詞,a*,*b*,*c*,*d*,*e,這里用“*”表示通配符;

2、兩個詞,a*b*,a*c*,a*d*,a*e……

3、三個詞,a*b*c*,a*b*d*,a*b*e……

4、四個詞,a*b*c*d*,a*b*c*e,*b*c*d*e……

分詞判斷模塊230,判斷所述查詢詞的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn)。在本實施例中,需要計算查詢詞中的分詞是否在標(biāo)題中出現(xiàn),出現(xiàn)記錄為1,否則為0:假設(shè)abcde這5個詞在標(biāo)題中的出現(xiàn)情況為1、0、1、1、0,即a、c、d在標(biāo)題里出現(xiàn),b、e在標(biāo)題中沒有出現(xiàn)。

權(quán)重計算模塊240,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計算所述模式中的分詞的權(quán)重。根據(jù)本實施例,可以將分詞在標(biāo)題中的出現(xiàn)情況作為模式的權(quán)重值輸出。由于在搜索結(jié)果中點擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢詞的需求,因此基于用戶所點擊的網(wǎng)址標(biāo)題,對查詢詞拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對于用戶的重要程度;基于本發(fā)明計算得到的查詢詞模式的分詞權(quán)重,能夠為用戶推送符合用戶需求的搜索結(jié)果。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的裝置,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的裝置,

權(quán)重計算模塊240根據(jù)所述模式中可替換分詞的位置和個數(shù),將所述模式中包含的分詞組合劃分為多組,分別計算多組分組組合中分詞的權(quán)重。在本實施例中,計算權(quán)重值時按照可替換的分詞的位置和個數(shù)進行分組,例如:對于模式:*b*c*d*e,*通配符代表了可替換分詞,則在計算流程里會如下計算權(quán)重值:

1、計算所有滿足這個模式的查詢詞中,b、c、d、e這四個分詞在標(biāo)題中的出現(xiàn)概率;

2、對于出現(xiàn)在b之前的可替換分詞的情況,按照個數(shù)進行分組,例如,針對在b之前只有一個分詞的、有2個分詞的、有3個分詞的、有4個分詞的分詞情況,分別統(tǒng)計這4種情況下形成的分詞組合中每個分詞在標(biāo)題中出現(xiàn)的概率;

3、同樣地,對于出現(xiàn)在b和c之間的可替換分詞的情況、c和d之間的分詞情況、d和e之間的分詞情況、e后面的分詞情況,也按照分詞的個 數(shù)進行分組得到多個分詞組合,為每個分詞組合計算得到在標(biāo)題中的出現(xiàn)概率。

在上面的例子上,假定a、c、d在標(biāo)題中出現(xiàn),那么對于*b*e*這個模式的,其中一個分詞組合的分詞權(quán)重值如下:

*b*e*:1,0,11,0

第一個1表示b前面有一個分詞,并且出現(xiàn)在標(biāo)題;

第二個0表示b沒有出現(xiàn)在標(biāo)題;

第三個11表示b和e中間有兩個分詞,并且都在標(biāo)題出現(xiàn);

第四個0表示e沒有出現(xiàn)在標(biāo)題。

在本實施例中,基于可替換分詞的個數(shù)和位置,對模式進行了細(xì)分,以利于更準(zhǔn)確地計算每個分詞的權(quán)重。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的裝置,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的裝置,

權(quán)重計算模塊240對所述多個分組組合中分詞的權(quán)重進行合并,得到所述模式中分詞的權(quán)重。在本實施例中,多個分詞組合合并后輸出權(quán)重值的格式舉例:

*b*e*:x|xx|xxx|xxxx,x,|x|xx|xxx|xxx|xxxx,x,x|xx|xxx|xxxx

上面這個例子中每一個x表示一個實際的數(shù),可能是0或者1,表示當(dāng)前<查詢詞,標(biāo)題>對中某個分詞是否出現(xiàn)在標(biāo)題中的統(tǒng)計。

用“|”分隔的表示某個區(qū)間里1個、2個、3個、4個分詞在標(biāo)題出現(xiàn)的情況,例如一開始的3個“|”分別記錄b前面只有一個分詞時這個分詞是否在標(biāo)題中出現(xiàn)、有2個分詞時這2個分詞的出現(xiàn)情況等等,用逗號隔開了表示在模式b、e之間可替換的分詞在標(biāo)題里的出現(xiàn)情況,以及b和e在標(biāo)題中的出現(xiàn)情況;在本實施例中,綜合了多個分詞組合的分詞權(quán)重得到模式中分詞的權(quán)重,數(shù)據(jù)量減少更加適于存儲和使用。

本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的裝置,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的裝置,

權(quán)重計算模塊240獲取多個模式中查找相同的模式,對所述相同模式的權(quán)重進行合并。

在本實施例中,在每個<查詢詞,標(biāo)題>中,能夠得到模式的一個值;最后把相同模式的不同值進行合并,主要是處理不同分詞的情況,例如:

*b*e*:1,0,11,0

*b*e*:11,1,1,0,1

合并后為

*b*e:1|11,0.5,1|11,0,1

第一個1|11,表示b前面存在一個分詞和2個分詞這兩種情況,且他們都在標(biāo)題里出現(xiàn);

第二個0.5,表示b在標(biāo)題中出現(xiàn)的概率是0.5;

第三個1|11表示b和e之間存在一個分詞和2個分詞這兩種情況,且他們都在標(biāo)題出現(xiàn);

第四個0表示e沒有在標(biāo)題出現(xiàn);

第五個1表示e后面有一個分詞,并且在標(biāo)題出現(xiàn)。

在本實施例中,用戶可能多次輸入同一個查詢詞而點擊了不同的搜索結(jié)果,則根據(jù)查詢詞和單次點擊的搜索結(jié)果的網(wǎng)址標(biāo)題計算模式的分詞權(quán)重可能存在不準(zhǔn)確的情況;而本實施例中對相同模式的分詞權(quán)重組合,相當(dāng)于綜合了用戶點擊同一查詢詞以及用多次點擊的搜索結(jié)果的網(wǎng)址標(biāo)題來計算查詢詞模式的分詞權(quán)重,所以計算結(jié)果更加準(zhǔn)確。

如圖3所示,本發(fā)明的一個實施例中提供一種計算查詢詞模式中分詞權(quán)重的裝置,相比于前述的實施例,本實施例的計算查詢詞模式中分詞權(quán)重的裝置,還包括:

過濾模塊310,檢測所述模式在已知多個查詢詞中是否出現(xiàn),根據(jù)檢測結(jié) 果判斷是否保留所述模式。

在本實施例中,通過模式在所有<查詢詞,標(biāo)題>的出現(xiàn)次數(shù)進行過濾,最后得到大概1億個模式,清除了重復(fù)的數(shù)據(jù)。綜合以上實施例,可以大規(guī)模地挖掘查詢詞的模式,并且同時包含模式的分詞在網(wǎng)址標(biāo)題里的出現(xiàn)概率,這個概率可以作為分詞權(quán)重的重要特征,例如:

查詢詞:但怎么造句,可以匹配如下模式:

*怎么*造句*:0.79|0.720.73|0.640.650.65|0.670.610.620.63,0.29…

通過這個模式,我們能夠發(fā)現(xiàn)“但”這個單字,并且是停用詞的單字,在這個查詢詞里有重要的作用,因為當(dāng)“怎么”前面只有一個分詞時,這個分詞在標(biāo)題中的出現(xiàn)概率是0.79;利用這個信息來改進分詞的權(quán)重值,有利于節(jié)省對查詢詞的分析,搜索結(jié)果的質(zhì)量能夠取得明顯改進。

在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。

在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自 適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(dsp)來實現(xiàn)根據(jù)本發(fā)明實施例的計算查詢詞模式中分詞權(quán)重的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嘉鱼县| 子洲县| 招远市| 郑州市| 乡城县| 曲靖市| 哈密市| 西乡县| 龙南县| 宝丰县| 丰镇市| 平塘县| 栾川县| 鄄城县| 峨眉山市| 云龙县| 玛曲县| 五常市| 元阳县| 兴仁县| 盐山县| 双城市| 杭锦旗| 沂南县| 洛浦县| 密云县| 丁青县| 藁城市| 徐汇区| 雷山县| 仁寿县| 西城区| 陆良县| 鲁甸县| 黄陵县| 嘉祥县| 正定县| 杭锦旗| 图们市| 乐都县| 大理市|