專利名稱:文件索引的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種形成供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法。
背景技術(shù):
隨著中國(guó)市場(chǎng)經(jīng)濟(jì)的日趨成熟和計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們對(duì)信息的獲知程度和廣度都提出了更高的要求。尤其是近年來,商品的種類變得五花八門,人們?cè)诓少?gòu)貨物的時(shí)候?qū)ι唐奉悇e、型號(hào)、用途的要求也各不相同,如果采用傳統(tǒng)的將各種類別不同型號(hào)的商品都配送至每個(gè)可能需要該商品的地區(qū),就會(huì)增加很多配送方面的成本;同時(shí),買家必須到商店里面去親自選購(gòu)所需的商品也是傳統(tǒng)購(gòu)物方式的弊端。但由于虛擬網(wǎng)絡(luò)交易無法看到實(shí)物,與一般購(gòu)物方式有較大區(qū)別,因此,就必須有一種高效、便于客戶購(gòu)物和支付的購(gòu)物形式方便人們實(shí)現(xiàn)網(wǎng)絡(luò)購(gòu)物。中國(guó)電子商務(wù)的發(fā)展始于90年代初,相對(duì)于歐美地區(qū)來說,中國(guó)在該領(lǐng)域的起步較晚,但是發(fā)展勢(shì)頭很好、發(fā)展迅速。中國(guó)有占世界上很大比例的網(wǎng)民數(shù)量,這些為電子商務(wù)在中國(guó)的發(fā)展奠定了基礎(chǔ)。同時(shí)中國(guó)政府在電子商務(wù)方面做了大量工作,進(jìn)行了積極有益的探索,大大促進(jìn)了國(guó)內(nèi)電子商務(wù)的發(fā)展。但是到目前為止,誠(chéng)信評(píng)價(jià)機(jī)制不健全,東西部差異明顯,普及程度不足,是制約中國(guó)電子商務(wù)發(fā)展的三大瓶頸。在現(xiàn)今這樣的一個(gè)處處都信息化,電子化的時(shí)代中,電子商務(wù)已經(jīng)逐漸成為一股不可小覷的力量,基于B/S的電子商務(wù)網(wǎng)站層出不窮,如現(xiàn)今知名的淘寶,京東3300,又如電視購(gòu)物所觸及的網(wǎng)上訂購(gòu)系統(tǒng),皆由B/S出發(fā),據(jù)不完全統(tǒng)計(jì),截止至2008年,我國(guó)網(wǎng)民數(shù)已接近3億,網(wǎng)絡(luò)購(gòu)物用戶數(shù)已達(dá)71000萬人,年增長(zhǎng)率300%,網(wǎng)絡(luò)賣家人數(shù)也打1100 萬人,利用互聯(lián)網(wǎng)來完成交易已被越來越多的人所熟悉及使用,怎樣在這塊由電子商務(wù)平臺(tái),而催生出的巨大商業(yè)利益下,如何推動(dòng)更多更先進(jìn)的技術(shù)革新和進(jìn)步,也成為越來越值得人們所注意的問題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種形成供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法,包括指定多個(gè)區(qū)段,包括可以結(jié)合每一文件使用的至少一個(gè)回饋區(qū)段;訪問多個(gè)文件,且對(duì)于那些文件的每一個(gè),使用來自所訪問的文件的信息填充所述多個(gè)區(qū)段中的一些;接收包括多個(gè)搜索條目、所述文件中特定一個(gè)文件的標(biāo)識(shí)符、和關(guān)于回饋的類型的信息的回饋數(shù)據(jù),其中對(duì)于所述文件中所述特定一個(gè)文件,在關(guān)于所述回饋類型的信息的基礎(chǔ)上用所述多個(gè)搜索條目來填充回饋區(qū)段;根據(jù)所填充的區(qū)段形成所述文件的索引。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,根據(jù)所填充的區(qū)段形成所述文件的索引之后,該方法進(jìn)一步包括接收多個(gè)搜索條目;在所述多個(gè)搜索條目的基礎(chǔ)上從所述索引中獲得文件統(tǒng)計(jì)數(shù)據(jù),并使用搜索算法來生成經(jīng)排序的文件列表,所述搜索算法適于與多個(gè)搜索條目和多個(gè)文件區(qū)段一起使用并被安排成提供對(duì)所述區(qū)段的差異加權(quán)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述關(guān)于回饋類型的信息包括關(guān)于所述回饋是顯式還是隱式的信息。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述關(guān)于回饋類型的信息包括關(guān)于所述回饋是肯定還是否定的信息。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述指定區(qū)段的步驟包括指定多個(gè)回饋區(qū)段,每一回饋區(qū)段都對(duì)應(yīng)不同類型的回饋。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述形成索引的步驟包括在所述區(qū)段和至少某些回饋區(qū)段的基礎(chǔ)上生成文件統(tǒng)計(jì)數(shù)據(jù)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述索弓I被重復(fù)地更新。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在上述方法中,所述索引被充分頻繁地更新,使得在搜索期間,回饋數(shù)據(jù)被動(dòng)態(tài)地裝入所述文件中并被用來影響正在進(jìn)行的搜索應(yīng)當(dāng)理解,本發(fā)明以上的一般性描述和以下的詳細(xì)描述都是示例性和說明性的, 并且旨在為如權(quán)利要求所述的本發(fā)明提供進(jìn)一步的解釋。
附圖主要是用于提供對(duì)本發(fā)明進(jìn)一步的理解。附圖示出了本發(fā)明的實(shí)施例,并與本說明書一起起到解釋本發(fā)明原理的作用。附圖中圖1示意性地示出了本發(fā)明的生成或更新供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法的流程圖。圖2是捕捉回饋數(shù)據(jù)并將其裝入文件中的方法的流程圖;圖3是生成經(jīng)排序的文件列表的方法的流程圖。
具體實(shí)施例方式以下結(jié)合附圖詳細(xì)描述本發(fā)明的技術(shù)方案。圖1示意性地示出了本發(fā)明的生成或更新供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法的流程圖。如圖1所示,指定了各個(gè)區(qū)段,包括一個(gè)或多個(gè)回饋區(qū)段(參見步驟100)。從文件中訪問信息(參見步驟101)并訪問回饋數(shù)據(jù)(參見步驟 102)。對(duì)于每一文件,隨后在可能時(shí)填充包括回饋區(qū)段在內(nèi)的各個(gè)區(qū)段(步驟10 并計(jì)算統(tǒng)計(jì)數(shù)據(jù)(步驟104)以生成或更新索引(步驟105)。特別是,顯式和/或隱式回饋數(shù)據(jù)經(jīng)由用戶接口來接收,并被用來填充文件本身中或與這些文件相關(guān)聯(lián)的回饋區(qū)段。對(duì)于一給定搜索,回饋數(shù)據(jù)包括所使用的搜索條目, 使用回饋數(shù)據(jù)對(duì)于其可用的那些搜索條目所發(fā)現(xiàn)的特定文件的身份,以及關(guān)于回饋的特性的信息(例如,其是否是顯式、隱式、否定或肯定)。假定用戶使用搜索條目啟動(dòng)搜索并在所得文件上提供回饋(參見圖2的步驟 200)。在用戶接口處捕捉該回饋(參見步驟201)。如圖2所示,回饋數(shù)據(jù)被用來訪問所標(biāo)識(shí)的文件(步驟20 ,(在關(guān)于回饋的特性的信息的基礎(chǔ)上)選擇該文件中的適當(dāng)?shù)幕仞亝^(qū)段(步驟20 和用搜索條目填充所選擇的回饋區(qū)段(或諸區(qū)段)(步驟204)。這在圖2 的流程圖中示出。
在某些實(shí)施例中,給定文件的回饋區(qū)段在指定的時(shí)間間隔后被清空。另選地,隨時(shí)間調(diào)整與回饋區(qū)段相關(guān)聯(lián)的權(quán)重。以此方式,可以安排回饋數(shù)據(jù)的影響隨時(shí)間而降低。然而,以此方式隨時(shí)間修改回饋區(qū)段不是必須的。回饋區(qū)段可以簡(jiǎn)單地在獲得關(guān)于給定文件的新回饋數(shù)據(jù)時(shí)被重寫。填充文件中的回饋區(qū)段的過程是漸進(jìn)的過程,其隨者越來越多的搜索被完成且回饋?zhàn)兊每捎枚粩噙M(jìn)行。因此,可用于搜索的、具有填充的回饋區(qū)段的文件的比例將隨時(shí)間增加。如果諸如網(wǎng)頁(yè)等文件被更新,則可以進(jìn)行供應(yīng)以保持與該頁(yè)面相關(guān)聯(lián)的任何填充的回饋區(qū)段。另選地,可以將其刪除。這是取決于被搜索的文件類型和對(duì)那些文件的更新是否趨向于顯著地改變文件的內(nèi)容的設(shè)計(jì)選擇。另一選項(xiàng)是對(duì)更新中的改變的范圍做出自動(dòng)評(píng)估并在適當(dāng)時(shí)刪除或保留回饋區(qū)段。一旦形成了索引,則搜索引擎可響應(yīng)于用戶搜索條目訪問或搜索索引以生成經(jīng)排序的文件列表。因?yàn)橐呀?jīng)向文件添加了回饋區(qū)段,所以對(duì)于文件的至少一部分有多個(gè)文件區(qū)段可用。另外,用戶可以輸入多個(gè)搜索條目以發(fā)起文件搜索。因此,搜索引擎被專門安排為處理多個(gè)文件區(qū)段和多個(gè)搜索條目?jī)烧?。任何合適的搜索算法都可由搜索引擎來實(shí)現(xiàn), 只要其能夠處理多搜索條目和多文件區(qū)段。因?yàn)樾枰_發(fā)合適的組合信息的方法,所以多搜索條目和多文件區(qū)段呈現(xiàn)出特定問題。例如,一個(gè)簡(jiǎn)單的(但不合適的)方法是為每一文件區(qū)段計(jì)算單獨(dú)的得分并隨后使用權(quán)重來線性地組合這些得分。該方法沒有考慮來自搜索的項(xiàng)可以匹配超過一個(gè)區(qū)段的事實(shí);文件可以因在若干區(qū)段中匹配一個(gè)搜索條目卻根本不匹配第二搜索條目而獲得高得分。在以上引用的早期專利申請(qǐng)中,描述了用于跨區(qū)段地、逐個(gè)搜索條目地組合證據(jù)的方法,該方法處理該問題而同時(shí)允許對(duì)各區(qū)段進(jìn)行差異加權(quán)。這在多個(gè)搜索條目可能匹配多個(gè)區(qū)段時(shí)尤其重要。因此,在優(yōu)選實(shí)施例中,搜索引擎實(shí)現(xiàn)如在以上引用的早期專利申請(qǐng)中所描述的算法。然而,這不是必須的??梢允褂每缥募^(qū)段地、 逐搜索條目地組合證據(jù)并允許對(duì)文件區(qū)段進(jìn)行差異加權(quán)的任何合適的搜索算法。用來在搜索算法期間對(duì)文件區(qū)段加權(quán)的權(quán)重可用任何合適的方式來獲得。例如, 使用本領(lǐng)域公知的涉及使用所評(píng)估的數(shù)據(jù)的訓(xùn)練或調(diào)整過程。圖3是生成經(jīng)排序的文件列表的方法的流程圖。接收多個(gè)搜索條目(參見步驟 300)并提供給搜索引擎。搜索引擎從索引中獲得相關(guān)文件統(tǒng)計(jì)數(shù)據(jù)(參見步驟301),包括在回饋區(qū)段的基礎(chǔ)上形成的統(tǒng)計(jì)數(shù)據(jù)。隨后使用如上所述的搜索算法以對(duì)文件統(tǒng)計(jì)數(shù)據(jù)進(jìn)行差異加權(quán)和組合以便在搜索條目的基礎(chǔ)上生成得分(參見步驟30 。這是為可能與搜索條目或其子集相關(guān)的每一文件完成的。隨后使用這些得分來生成經(jīng)排序的文件列表(參見步驟303)。在優(yōu)選實(shí)施例中,信息檢索系統(tǒng)是web圖像搜索系統(tǒng),而文件是從因特網(wǎng)或其它文件檢索到的圖像。在圖像搜索的情況下,諸如點(diǎn)進(jìn)回饋等隱式回饋可能是相關(guān)的。另外, 與從web檢索到的圖像相關(guān)聯(lián)的文本的量和該文本的相關(guān)性通常相對(duì)很差。這使得使用基于文本的搜索條目搜索這種文件很困難。在這種情況下,使用回饋數(shù)據(jù)尤其可以增加搜索結(jié)果的相關(guān)性。因此,在將本發(fā)明應(yīng)用到圖像搜索時(shí),有特別的優(yōu)點(diǎn)。如上所述,本發(fā)明決不限于圖像搜索。在一示例實(shí)現(xiàn)中,搜索引擎和索引生成器使用任何合適的計(jì)算機(jī)處理硬件上所支持的計(jì)算機(jī)軟件來實(shí)現(xiàn)。例如,搜索引擎在服務(wù)器上提供,而處理器上的索引生成器或獨(dú)立
5于該搜索引擎服務(wù)器或與其整合在一起。索引生成器所形成的索引使用諸如硬盤、磁盤、光盤、磁帶盒、閃存卡、數(shù)字視頻盤等任何合適的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)被存儲(chǔ)為數(shù)據(jù)庫(kù)、文件、 或其它合適的數(shù)據(jù)結(jié)構(gòu)。用戶接口使用任何合適的硬件來提供,如連接到計(jì)算機(jī)終端的顯示器屏幕和鍵盤、移動(dòng)計(jì)算設(shè)備、個(gè)人數(shù)字助理、智能電話、或任何其它合適的用戶接口裝置。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到用于存儲(chǔ)程序指令的存儲(chǔ)設(shè)備可分布在網(wǎng)絡(luò)上。例如,遠(yuǎn)程計(jì)算機(jī)可存儲(chǔ)描述為軟件的該過程的示例。本地或終端計(jì)算機(jī)可訪問遠(yuǎn)程計(jì)算機(jī)并下載該軟件的一部分或全部以運(yùn)行該程序。或者,本地計(jì)算機(jī)可按需下載軟件的片斷,或可以在本地終端處執(zhí)行一些軟件指令而在遠(yuǎn)程計(jì)算機(jī)(或計(jì)算機(jī)網(wǎng)絡(luò))處執(zhí)行一些軟件指令。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,通過使用本領(lǐng)域技術(shù)人員已知的常規(guī)技術(shù),軟件指令的全部或部分可由專用電路,如DSP、可編程邏輯陣列等來執(zhí)行。本文中描述的各方法步驟可以在適當(dāng)時(shí)按任何合適的次序或同時(shí)執(zhí)行??梢岳斫?,上面對(duì)于較佳實(shí)施例的描述僅僅是作為示例給出的,而本領(lǐng)域的技術(shù)人員可以做出各種修改。
權(quán)利要求
1.一種形成供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法,包括指定多個(gè)區(qū)段,包括可以結(jié)合每一文件使用的至少一個(gè)回饋區(qū)段;訪問多個(gè)文件,且對(duì)于那些文件的每一個(gè),使用來自所訪問的文件的信息填充所述多個(gè)區(qū)段中的一些;接收包括多個(gè)搜索條目、所述文件中特定一個(gè)文件的標(biāo)識(shí)符、和關(guān)于回饋的類型的信息的回饋數(shù)據(jù),其中對(duì)于所述文件中所述特定一個(gè)文件,在關(guān)于所述回饋類型的信息的基礎(chǔ)上用所述多個(gè)搜索條目來填充回饋區(qū)段;根據(jù)所填充的區(qū)段形成所述文件的索引。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所填充的區(qū)段形成所述文件的索引之后,該方法進(jìn)一步包括接收多個(gè)搜索條目;在所述多個(gè)搜索條目的基礎(chǔ)上從所述索引中獲得文件統(tǒng)計(jì)數(shù)據(jù),并使用搜索算法來生成經(jīng)排序的文件列表,所述搜索算法適于與多個(gè)搜索條目和多個(gè)文件區(qū)段一起使用并被安排成提供對(duì)所述區(qū)段的差異加權(quán)。
3.如權(quán)利要求1所述的方法,其特征在于,所述關(guān)于回饋類型的信息包括關(guān)于所述回饋是顯式還是隱式的信息。
4.如權(quán)利要求1所述的方法,其特征在于,所述關(guān)于回饋類型的信息包括關(guān)于所述回饋是肯定還是否定的信息。
5.如權(quán)利要求1所述的方法,其特征在于,所述指定區(qū)段的步驟包括指定多個(gè)回饋區(qū)段,每一回饋區(qū)段都對(duì)應(yīng)不同類型的回饋。
6.如權(quán)利要求1所述的方法,其特征在于,所述形成索引的步驟包括在所述區(qū)段和至少某些回饋區(qū)段的基礎(chǔ)上生成文件統(tǒng)計(jì)數(shù)據(jù)。
7.如權(quán)利要求6所述的方法,其特征在于,所述索引被重復(fù)地更新。
8.如權(quán)利要求7所述的方法,其特征在于,所述索引被充分頻繁地更新,使得在搜索期間,回饋數(shù)據(jù)被動(dòng)態(tài)地裝入所述文件中并被用來影響正在進(jìn)行的搜索。
全文摘要
本發(fā)明提出了一種形成供在基于分類信息檢索的電子商務(wù)網(wǎng)站中使用的文件索引的方法,包括指定多個(gè)區(qū)段,包括可以結(jié)合每一文件使用的至少一個(gè)回饋區(qū)段;訪問多個(gè)文件,且對(duì)于那些文件的每一個(gè),使用來自所訪問的文件的信息填充所述多個(gè)區(qū)段中的一些;接收包括多個(gè)搜索條目、所述文件中特定一個(gè)文件的標(biāo)識(shí)符、和關(guān)于回饋的類型的信息的回饋數(shù)據(jù),其中對(duì)于所述文件中所述特定一個(gè)文件,在關(guān)于所述回饋類型的信息的基礎(chǔ)上用所述多個(gè)搜索條目來填充回饋區(qū)段;根據(jù)所填充的區(qū)段形成所述文件的索引。
文檔編號(hào)G06F17/30GK102567348SQ20101059538
公開日2012年7月11日 申請(qǐng)日期2010年12月17日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者于鳳霞, 查麗飛 申請(qǐng)人:上海杉達(dá)學(xué)院