一種針對工業(yè)產(chǎn)品搜索的篩選式搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于搜索領(lǐng)域,尤其是工業(yè)產(chǎn)品的搜索,具體涉及一種針對工業(yè)產(chǎn)品搜索的篩選式搜索方法。
【背景技術(shù)】
[0002]B2B是指企業(yè)對企業(yè)之間的營銷關(guān)系,將企業(yè)內(nèi)部網(wǎng)通過B2B網(wǎng)站與客戶緊密結(jié)合起來,通過網(wǎng)絡(luò)的快速反應(yīng),為客戶提供更好的服務(wù),從而促進企業(yè)的業(yè)務(wù)發(fā)展。
[0003]在B2B領(lǐng)域中,一項核心技術(shù)為“基于互聯(lián)網(wǎng)的工業(yè)產(chǎn)品搜索功能”,該功能為企業(yè)之間的產(chǎn)品貿(mào)易提供樞紐和入口。產(chǎn)品需求方為購買所需的工業(yè)產(chǎn)品,首先該企業(yè)需要在B2B互聯(lián)網(wǎng)平臺上,通過工業(yè)產(chǎn)品的搜索功能在互聯(lián)網(wǎng)上搜索到其所需的工業(yè)產(chǎn)品,以獲得其所需要的產(chǎn)品信息(供給方、價格、物流等等)。然后,在線下單訂購,并開展后期的線下貿(mào)易行為。
[0004]然而,工業(yè)產(chǎn)品的搜索技術(shù)現(xiàn)在面臨一個問題,即:有時搜索引擎的搜索結(jié)果無法搜索到準(zhǔn)確的結(jié)果,也稱搜索準(zhǔn)確性問題。具體的說,在現(xiàn)有技術(shù)中,搜索結(jié)果一般大致反映了搜索者的搜索意圖,但往往出現(xiàn)“相關(guān)但不夠準(zhǔn)”的現(xiàn)象,搜索結(jié)果無法真正反映用戶搜索意圖。
[0005]例如,若用戶希望購買“SKF”品牌的汽車軸承,其在搜索引擎內(nèi)搜索“SKF汽車軸承”,搜索引擎可能返回的結(jié)果有“SKF汽車軸承”、“SKF軸承”、“SKF汽車”、“哈爾濱牌汽車軸承”等。而在這些返回結(jié)果中,“SKF汽車”與用戶的搜索意圖完全不相關(guān),“哈爾濱牌汽車軸承”與用戶的搜索意圖也無法完全吻合,因為工業(yè)產(chǎn)品貿(mào)易中,在指定了搜索SKF品牌的前提下,返回其他品牌的汽車軸承對用戶并沒有直接意義。工業(yè)產(chǎn)品搜索引擎的準(zhǔn)確性問題,降低了工業(yè)產(chǎn)品搜索技術(shù)的實用性,為B2B業(yè)務(wù)的開展帶來了不便。
[0006]現(xiàn)有的相關(guān)搜索技術(shù)一般為基于文本匹配的搜索技術(shù),比如基于SQL數(shù)據(jù)查找的搜索技術(shù)、基于倒排表查找的搜索技術(shù)等。業(yè)務(wù)流程一般為:1.用戶輸入其所搜索的詞條;2.工業(yè)產(chǎn)品搜索引擎將詞條進行分詞,將其切分為多個獨立的詞語;3.通過倒排表分別查找包含各個獨立詞語的工業(yè)產(chǎn)品;4.將所有結(jié)果進行整合、排序,并返回給用戶。其中,第4步往往通過機器學(xué)習(xí)技術(shù)對搜索結(jié)果進行相關(guān)度分析,并根據(jù)搜索結(jié)果與搜索詞條的相關(guān)程度對搜索結(jié)果進行排序,進而將相關(guān)結(jié)果在排序靠前的位置返回給用戶。
[0007]例如,對于用戶搜索“SKF汽車軸承”的例子,搜索引擎將進行如下操作:分詞:將“SKF汽車軸承”進行分詞,得到3個獨立的詞語,即SKF、汽車、軸承;查找:搜索引擎在數(shù)據(jù)庫中,分別查找包含SKF、汽車、軸承三個詞語的結(jié)果(至少包含三個詞語之一的結(jié)果);呈現(xiàn):搜索引擎對所有查找得到的結(jié)果進行排序,并將排序結(jié)果呈現(xiàn)給用戶。
[0008]現(xiàn)有方法的不足在于:搜索結(jié)果中包含用戶意圖不相關(guān)的結(jié)果,增加了用戶查找目標(biāo)結(jié)果的工作量。其原因在于,簡單的文本匹配和搜索無法將搜索到文本相關(guān)度高的搜索結(jié)果,即包含了搜索詞條或包含了搜索詞條某部分的搜索結(jié)果。而在工業(yè)產(chǎn)品搜索領(lǐng)域,包含了搜索詞條文本的搜索結(jié)果未必是相關(guān)結(jié)果。
[0009]雖然,傳統(tǒng)技術(shù)通過機器學(xué)習(xí)方法對搜索結(jié)果進行了基于相關(guān)度的排序,然而機器學(xué)習(xí)方法基于統(tǒng)計方法,存在一定的不穩(wěn)定性,排序結(jié)果不可控,往往造成相關(guān)結(jié)果和不相關(guān)結(jié)果混合在一起的情況。
【發(fā)明內(nèi)容】
[0010]為解決上述技術(shù)問題,本發(fā)明提供了一種穩(wěn)定的、排序結(jié)果可控的、先慣性高的針對工業(yè)產(chǎn)品搜索的篩選式搜索方法。
[0011]為達到上述目的,本發(fā)明的技術(shù)方案如下:
[0012]一種針對工業(yè)產(chǎn)品搜索的篩選式搜索方法,其特征在于,包括以下幾步:
[0013]第一步:在線下構(gòu)建品牌名稱列表和產(chǎn)品名稱列表;
[0014]第二步:在線上利用品牌名稱列表和產(chǎn)品名稱列表進行篩選式搜索,包括第一層的產(chǎn)品名稱篩選和第二層的品牌名稱篩選,
[0015]其中,第一層篩選通過產(chǎn)品名稱列表對搜索詞條進行最長匹配,獲取搜索詞條中所包含的產(chǎn)品名稱列表中的最長詞語;
[0016]第二層篩選通過品牌名稱篩選對搜索詞條進行最長匹配,獲取搜索詞條中所包含的品牌名稱篩選的最長詞語;
[0017]第三步:對于搜索結(jié)果按照匹配率進行降序排序,然后呈現(xiàn)給搜索用戶。
[0018]在本發(fā)明的一個較佳實施例中,進一步包括,所述品牌名稱列表包含商品的商標(biāo)名稱和商品的供應(yīng)廠家名稱,所述產(chǎn)品名稱列表包含工業(yè)產(chǎn)品的產(chǎn)品名詞。
[0019]在本發(fā)明的一個較佳實施例中,進一步包括,構(gòu)建所述品牌名稱列表的方法包括以下幾種:
[0020]在工業(yè)產(chǎn)品搜索平臺中,數(shù)據(jù)庫中保存了搜索工業(yè)產(chǎn)品供應(yīng)商的信息,通過數(shù)據(jù)庫中的企業(yè)名稱字段和品牌名稱字段,獲得大量供應(yīng)廠家名稱和品牌名稱;
[0021]對現(xiàn)有的互聯(lián)網(wǎng)平臺頁面進行爬取,爬取的HTML內(nèi)容中包含了品牌名稱和供應(yīng)廠家名稱,通過解析HTML獲得品牌名稱和供應(yīng)廠家名稱;
[0022]通過業(yè)務(wù)人員的工作經(jīng)驗來總結(jié)品牌名稱和供應(yīng)廠家名稱;
[0023]對獲得的品牌名稱和供應(yīng)廠家名稱總結(jié)列表,為品牌名稱列表。
[0024]在本發(fā)明的一個較佳實施例中,進一步包括,構(gòu)建產(chǎn)品名稱列表的方法包括以下:
[0025]在工業(yè)產(chǎn)品搜索平臺的數(shù)據(jù)庫中設(shè)置產(chǎn)品名稱字段,工業(yè)產(chǎn)品信息的發(fā)布者填寫所述字段,通過數(shù)據(jù)庫中的產(chǎn)品名稱字段獲得產(chǎn)品名稱;
[0026]人工錄入廣品名稱進入廣品名稱列表。
[0027]在本發(fā)明的一個較佳實施例中,進一步包括,第二步中在第一次篩選時,獲取搜索詞條中包含的產(chǎn)品名稱列表中的最長詞語,對數(shù)據(jù)庫中待搜索內(nèi)容中,將不包含詞語的項目過濾掉,不予以搜索。
[0028]在本發(fā)明的一個較佳實施例中,進一步包括,第二步中在第二次篩選時,獲取搜索詞條中所包含的品牌名稱列表中最長詞語,對數(shù)據(jù)庫中待搜索內(nèi)容中,將不包含詞語的項目過濾掉,不予以搜索。
[0029]本發(fā)明的有益效果是:
[0030]本發(fā)明涉及的搜索方法,首先通過線下挖掘數(shù)據(jù),鎖定了搜索詞中的關(guān)鍵詞,并且通過線上兩層過濾的方法,過濾掉與用戶工業(yè)產(chǎn)品搜索意圖不相符的內(nèi)容,篩選出相關(guān)的內(nèi)容,提高了工業(yè)產(chǎn)品搜索的相關(guān)性,得到相關(guān)度高的搜索結(jié)果。
【具體實施方式】
[0031]下面對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0032]本實施例中公開了一種針對工業(yè)產(chǎn)品搜索的篩選式搜索方法,其采用線下挖掘數(shù)據(jù),線上搜索過濾的方式進行搜索,包括以下幾步:
[0033]第一步:在線下構(gòu)建品牌名稱列表和產(chǎn)品名稱列表,所述品牌名稱列表包含商品的商標(biāo)名稱和商品的供應(yīng)廠家名稱。
[0034]第二步:在線上利用品牌名稱列表和產(chǎn)品名稱列表進行篩選式搜索,包括第一層的產(chǎn)品名稱篩選和第二層的品牌名稱篩選,所述產(chǎn)品名稱列表包含工業(yè)產(chǎn)品的產(chǎn)品名詞。
[0035]其中,第一層篩選通過產(chǎn)品名稱列表對搜索詞條進行最長匹配,獲取搜索詞條中所包含的產(chǎn)品名稱列表中的最長詞語;獲取搜索詞條中包含的產(chǎn)品名稱列表中的最長詞語,對數(shù)據(jù)庫中待搜索內(nèi)容中,將不包含詞語的項目過濾掉,不予以搜索。
[0036]第二層篩選通過品牌名稱篩選對搜索詞條進行最長匹配,獲取搜索詞條中所包含的品牌名稱篩選的最長詞語;獲取搜索詞條中所包含的品牌名稱列表中最長詞語,