專利名稱:用于單詞拆分的新詞收集方法和系統(tǒng)的制作方法
背景技術(shù):
本發(fā)明涉及單詞拆分器。更特別地,本發(fā)明涉及用于單詞拆分的新詞收集方法和系統(tǒng)。
單詞拆分是處理文本輸入的自然語言處理應(yīng)用的一個重要部分。特別是,單詞拆分對大多數(shù)搜索引擎尤其重要。出于多種目的,搜索引擎對輸入串施行單詞拆分。例如,為確定復(fù)合詞的組成單詞對輸入串施行單詞拆分。
單詞拆分對諸如日語,漢語和朝鮮語等粘著性語言尤其重要。粘著性語言是指一種單詞由獨立詞素的線性順序組成的語言,含義的每個構(gòu)件由其自身的詞素表示。粘著性語言的其它例子包括閃語(Sumerian),豪利特語(Hourrite),奧拉陶語(Ourartau),巴斯克語和土耳其語。通常,在粘著性語言中,單詞復(fù)合時可不用空格符分隔構(gòu)件單詞。
搜索目標常常包含各種詞典尚未收錄的新單詞,且不會出現(xiàn)在定制詞庫中。當搜索引擎詢問的輸入串或待標引和搜索的文件中含有未知單詞時,對單詞拆分器來說很難恰當?shù)夭鸱诌@個串。對于那些單詞不用分隔符分隔的語言尤其如此。這具有潛在的降低搜索結(jié)果的精確度/覆蓋度的可能。
為單詞拆分器使用的定制詞庫收集新詞,是一項無止盡的工作?,F(xiàn)有的用于為定制詞庫收集新詞的技術(shù)是一項耗費時間的、繁重的工作。通常,新詞由搜索網(wǎng)站所有者人工收集,用于加入該網(wǎng)站使用的定制詞庫。新詞也可由開發(fā)者人工收集,歸入下一代產(chǎn)生的系統(tǒng)詞典中。這些新詞收集技術(shù)耗費時間、勞動密集,還有許多地方有待改進。
發(fā)明內(nèi)容
本發(fā)明提供一種用于收集新詞添加到粘著性語言的詞庫的方法,計算機可讀媒體和系統(tǒng)。在此方法中,獲得提交到搜索引擎的問詢?nèi)罩?。把此問詢?nèi)罩窘?jīng)分類得到分類的問詢。然后用多重探試法標準過濾分類的問詢,得到一個新詞的候選目錄。然后將新詞的候選目錄中的單詞添加到詞庫。
在一些實施例中,使用多重探試法標準過濾分類的問詢,得到新詞的候選目錄,還包括,從新詞的候選目錄中,淘汰長度超過預(yù)定的閾長度,象是復(fù)合詞的那些問詢。如果需要,在一些實施例中,可使用基于長度的過濾,淘汰長度小于預(yù)定閾長度的問詢,如果確定它們不象是單詞,而更象是用戶無意中點擊確認鍵的結(jié)果。
在一些實施例中,使用多重探試法標準過濾分類的問詢,得到新詞的候選目錄,還包括,從候選目錄中,淘汰問詢?nèi)罩局谐霈F(xiàn)頻度小于預(yù)定的閾出現(xiàn)頻度的問詢。
在一些實施例中,使用多重探試法標準過濾分類的問詢,得到新詞的候選目錄,還包括,從候選目錄中,淘汰已經(jīng)由單詞拆分器分析,被認為是單字的那些問詢。
表征本發(fā)明實施例的其它特點和優(yōu)點,將通過閱讀下面的詳細描述和查閱相關(guān)附圖變得顯而易見。
附圖簡述
圖1是使用本發(fā)明的一個示例環(huán)境的方框圖。
圖2是說明用于本發(fā)明的搜索引擎標引系統(tǒng)的一個實施例的方框圖。
圖3是說明用于本發(fā)明的搜索引擎系統(tǒng)的一個實施例的方框圖。
圖4是說明本發(fā)明的新詞收集系統(tǒng)和方法的一個實施例的方框圖。
圖5是說明圖4所示探試性過濾模塊的一個實施例的方框圖。
示例性實施例的詳細描述圖1例示了一個可實現(xiàn)本發(fā)明的合適的計算機系統(tǒng)環(huán)境100的例子。計算機系統(tǒng)環(huán)境100僅是合適的計算機環(huán)境的一個例子,而不打算對本發(fā)明的使用范圍或功能作任何限制。同樣,計算機環(huán)境100不應(yīng)被理解對示例性的操作環(huán)境100中的任何部件或部件的組合具有任何依賴性或要求。
本發(fā)明在眾多其它通用或?qū)S糜嬎銠C系統(tǒng)環(huán)境或配置上具有可操作性??捎糜诒景l(fā)明的知名運算系統(tǒng),環(huán)境,和/或配置的例子包括,但不局限于個人電腦,服務(wù)器電腦,手提電腦或膝上設(shè)備,多處理器系統(tǒng),基于微處理器系統(tǒng),機頂盒,可編程消費類電子產(chǎn)品,網(wǎng)絡(luò)PC機,迷你電腦,大型計算機,以及包括任何上述和類似系統(tǒng)或設(shè)備的分布式計算機環(huán)境。
本發(fā)明可用計算機可執(zhí)行指令的通用語言環(huán)境描述,例如正在被計算機執(zhí)行的程序模塊。通常,程序模塊包括例行程序,程序,對象,組件,數(shù)據(jù)結(jié)構(gòu)等,它們履行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本發(fā)明也可在分布式計算機環(huán)境中實施,其任務(wù)通過通信網(wǎng)絡(luò)連接的遠程處理設(shè)備實施。在分布式計算機環(huán)境中,程序模塊可位于本地或遠程計算機存儲介質(zhì)中,包括記憶存儲設(shè)備。
如圖1所示,一種實現(xiàn)本發(fā)明的示例系統(tǒng),包括以計算機110為形式的通用運算設(shè)備。計算機110的部件可包括,但不局限于,處理單元120,系統(tǒng)存儲器130,和系統(tǒng)總線121,后者將包括系統(tǒng)存儲器的各種系統(tǒng)部件耦合至處理單元120。系統(tǒng)總線121可任選自多種類型總線結(jié)構(gòu),包括存儲總線或存儲控制器,外圍總線,和使用任何多種總線體系結(jié)構(gòu)的局部總線。作為例子,但不作限制,這種體系結(jié)構(gòu)包括工業(yè)標準體系結(jié)構(gòu)(ISA)總線,微型通道體系結(jié)構(gòu)(MCA)總線,增強ISA(EISA)總線,視頻電子標準協(xié)會(VESA)局部總線,和外圍部件互連(PCI)總線,也稱作夾層總線。
計算機110通常包括多種計算機可讀媒體。計算機可讀媒體可以是任何現(xiàn)存的可被計算機110訪問的媒體,包括易丟失和不易丟失媒體,可移動和不可移動媒體。作為例子,但不作限制,計算機可讀媒體可包括計算機存儲媒體和通信媒體。計算機存儲媒體可包括易丟失和不易丟失媒體,可移動和不可移動媒體,用于在任何方法或技術(shù)中實現(xiàn)信息的儲存,例如計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其它數(shù)據(jù)。計算機存儲媒體包括,但不局限于,RAM,ROM,EEPROM,閃存或其它存儲技術(shù),CD-ROM,數(shù)字多用光盤(DVD)或其它光盤存儲器,盒式磁帶,磁帶,磁盤存儲器或其它磁性存儲設(shè)備,或任何其它可被用來存儲需要的信息,并可被計算機110訪問的媒體。通信媒體通常包括計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其它例如載波或其它傳輸機制的調(diào)制數(shù)據(jù)信號形式的數(shù)據(jù),并包括任何信息傳遞媒體。術(shù)語“調(diào)制數(shù)據(jù)信號”指一種信號,具有一種或更多特性,其可用在信號中編碼信息方式被設(shè)置或變化。作為例子,但不作限制,通信媒體包括有線媒體,例如有線網(wǎng)絡(luò)或直接有線連接,以及無線媒體,例如聲波,射頻,紅外線和其它無線媒體。上述任何組合也應(yīng)包括在計算機可讀媒體的范圍內(nèi)。
系統(tǒng)存儲器130包括以易丟失和/或不易丟失存儲器的形式存在的計算機存儲媒體,例如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。包含基本例行程序、用來例如在啟動期間幫助在計算機110中的元件之間傳送信息的基本輸入/輸出系統(tǒng)(BIOS),通常存儲在ROM 131中。RAM 132通常包含即時訪問的和/或處理單元120當前正在操作的數(shù)據(jù)和/或程序模塊。作為例子,但不作限制,圖1例示了操作系統(tǒng)134,應(yīng)用程序135,其它程序模塊136,和程序數(shù)據(jù)137。
計算機110也可包括其它可移動/不可移動、易丟失/不易丟失計算機存儲媒體。僅作為例子,圖1例示了從不可移動、不易丟失的磁性媒體讀出或?qū)懭氲挠脖P驅(qū)動器141,從可移動、不易丟失的磁盤152讀出或?qū)懭氲拇疟P驅(qū)動器151,以及從可移動、不易丟失的光盤156,例如CD-ROM或其它光媒體讀出或?qū)懭氲墓獗P驅(qū)動器155。其它可用于示例操作環(huán)境的可移動/不可移動、易丟失/不易丟失計算機存儲媒體包括,但不局限于,盒式磁帶,閃存卡,數(shù)字多用光盤,數(shù)字錄像帶,固態(tài)RAM,固態(tài)ROM以及類似媒體。硬盤驅(qū)動器141通常通過不可移動存儲器接口例如接口140連接到系統(tǒng)總線121,而磁盤驅(qū)動器151,光盤驅(qū)動器155通常通過可移動存儲器接口例如接口150連接到系統(tǒng)總線121。
前面討論的及圖1例示的驅(qū)動器及其相關(guān)計算機存儲媒體,為計算機110提供了計算機可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊以及其它數(shù)據(jù)的存儲。例如,在圖1中,例示了硬盤驅(qū)動器141用作儲存操作系統(tǒng)144,應(yīng)用程序145,其它程序模塊146,和程序數(shù)據(jù)147。應(yīng)注意這些部件可以與操作系統(tǒng)134,應(yīng)用程序135,其它程序模塊136,和程序數(shù)據(jù)137相同或不同。在這里操作系統(tǒng)144,應(yīng)用程序145,其它程序模塊146,和程序數(shù)據(jù)147被給予不同的序號,至少說明它們是不同的拷貝。
用戶可通過例如鍵盤162,話筒163的輸入設(shè)備和諸如鼠標,軌跡球,觸摸板等指示設(shè)備161將命令或信息輸入計算機110。其它輸入設(shè)備(未顯示)可包括游戲操縱桿,游戲板,衛(wèi)星盤,掃描儀或類似設(shè)備。這些以及其它輸入設(shè)備常通過耦合至系統(tǒng)總線的用戶輸入接口160連接到處理單元120,但也可通過其它接口和總線結(jié)構(gòu),例如并行端口,游戲端口或通用串行端口(USB)連接。監(jiān)示器191或其它類型的顯示設(shè)備同樣通過接口,例如視頻接口190連接到系統(tǒng)總線121。除了監(jiān)示器,計算機也可包括其它外圍輸出設(shè)備,例如揚聲器197和打印機196,它們可通過外圍輸出接口195連接。
計算機110可使用與一臺或多臺遠程計算機,例如遠程計算機180的邏輯連接在網(wǎng)絡(luò)環(huán)境中運行。遠程計算機180可以是個人電腦,手提設(shè)備,服務(wù)器,路由器,網(wǎng)絡(luò)PC機,同級設(shè)備或其它公共網(wǎng)絡(luò)結(jié)點,通常包括許多或所有上述與計算機110相關(guān)的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可包括其它網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室,企業(yè)內(nèi)計算機網(wǎng)絡(luò),內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中普遍存在。
在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機110通過網(wǎng)絡(luò)接口或適配器170連接到LAN171。在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機110通常包括調(diào)制解調(diào)器172或其它在諸如因特網(wǎng)之類WAN內(nèi)建立的通信手段。內(nèi)置或外置的調(diào)制解調(diào)器172,可經(jīng)用戶輸入接口160或其它合適的機制連接至系統(tǒng)總線121。在一個網(wǎng)絡(luò)環(huán)境中,與計算機110或其一部分的相應(yīng)的程序模塊,可儲存在遠程記憶存儲設(shè)備中。作為例子,但不作限制,圖1例示了留駐在遠程計算機180上的遠程應(yīng)用程序185。應(yīng)當理解為所示的網(wǎng)絡(luò)連接是示例性的,也可使用建立計算機之通信連接的其它方法。
本發(fā)明包括用于收集添加到單詞拆分器所用詞庫的新詞的改進方法。收集方法和單詞拆分器,這兩者之一或全部可在圖1例示的這一運算環(huán)境中實現(xiàn),或在其它類型的計算機環(huán)境中實現(xiàn)。與常規(guī)的、常導(dǎo)致高度人力耗費的收集新詞歸入定制詞庫或系統(tǒng)詞典的傳統(tǒng)方法相比較,本發(fā)明的方法和系統(tǒng)利用搜索問詢?nèi)罩荆詣踊虬胱詣拥孬@取新詞。本發(fā)明的新詞收集方法對粘著性語言尤其適用,這些語言中單詞之間的組合不使用空格或連字符。
圖2是一種搜索引擎標引系統(tǒng)200的方框圖,說明了用搜索引擎在處理以后使用的標引文件或網(wǎng)站期間進行單詞拆分的一個應(yīng)用。系統(tǒng)200包括字符串提取模塊210。進行檢索時,模塊210從215所示的文件或網(wǎng)站(統(tǒng)稱為“文件”)中提取字符串211。
系統(tǒng)200也包括單詞拆分模塊220,用來分析字符串211,產(chǎn)生關(guān)鍵字221。單詞拆分模塊220可發(fā)揮常規(guī)的單詞拆分模塊一樣的作用。從字符串211中產(chǎn)生關(guān)鍵字221的過程中,單詞拆分模塊220利用了詞庫225。詞庫225可以是一個常規(guī)的,被用于多種用途的完整詞庫,一個專用于特定用途的定制詞庫,或這兩者的結(jié)合。按照慣例,單詞拆分模塊220也可使用字符串的特定粘著性語言合適的語法230和統(tǒng)計數(shù)據(jù)235。
由于一些搜索引擎排除了某些干擾詞(noise words),單詞拆分模塊220也可訪問干擾詞數(shù)據(jù)庫或目錄240,并且從以后將被用作關(guān)鍵字221的結(jié)果單詞組中,刪除或排除干擾詞。如果需要的話,這項功能也可在獨立的干擾詞排除步驟里,通過獨立的干擾詞排除模塊實現(xiàn)。干擾詞目錄240中的干擾詞可以是通用的,或特定搜索引擎專用,因為并不是所有的搜索引擎可能會排除相同的干擾詞。舉例說干擾詞可包括功能性單詞,例如那些對應(yīng)于英語中的“a”和“the”的詞。另一個例子,在日語中,可排除一個字符的日語假名。同樣存在許多其它類型的干擾詞,這將取決于特定的粘著性語言。
單詞拆分模塊220提供的結(jié)果關(guān)鍵字221加入索引250。索引250將關(guān)鍵字與文件215相關(guān)聯(lián),從中提取原始字符串。然后這些關(guān)鍵字被用來檢索合適的文件,來響應(yīng)包含這些關(guān)鍵字的搜索引擎問詢。
圖3是搜索引擎系統(tǒng)300的方框圖,說明了單詞拆分在搜索文件或網(wǎng)站時,響應(yīng)自然語言用戶問詢時的一個應(yīng)用。系統(tǒng)300包括單詞拆分模塊220,用于接收一個文本輸入形式305的用戶問詢。以粘著性語言的情況下為例,文本輸入305通常是文本串的形式。所例示的單詞拆分模塊與圖2中系統(tǒng)200使用的單詞拆分模塊是相同的。然而,并不是必須如此,不同系統(tǒng)之間使用的單詞拆分模塊可存在差別。
單詞拆分模塊220使用詞庫225以已知的方式實現(xiàn)單詞拆分功能。如前面所述的,單詞拆分模塊也可使用語法、統(tǒng)計數(shù)據(jù)和其它資源,以實現(xiàn)所要求的或?qū)Ρ环治龅奶囟ㄕZ言最有效用的單詞拆分功能。單詞拆分模塊220的輸出是源自文本輸入305的單詞目錄310。
與上述檢索系統(tǒng)200類似,搜索引擎系統(tǒng)300可排除干擾詞。同樣,干擾詞可包括類似相當于“a”和“the”之類的功能性詞,或那些內(nèi)容不豐富的和不帶明顯意義的其它詞。干擾詞可以是特定語言專有的,同樣可以日語的假名為例。干擾詞的排除是可選的,并可在獨立的干擾詞排除模塊329中實現(xiàn)或在單詞拆分模塊220內(nèi)實現(xiàn)。排除干擾詞之后,結(jié)果是一個關(guān)鍵字330的目錄或群。
系統(tǒng)300也包括關(guān)鍵字查詢模塊340,用來將關(guān)鍵字330與索引250中儲存的關(guān)鍵字作比較。一致的文件或站點(site)215(或一致的文件或站點的目錄)被檢索出來。關(guān)鍵字查詢模塊340通常會將檢索到的文件或站點排序,以使結(jié)果350是最可能需要的問詢結(jié)果。例如,模塊340對結(jié)果的排序可以是基于文件或站點中關(guān)鍵字的出現(xiàn)頻度,基于關(guān)鍵字在單個文件或站點中實際發(fā)現(xiàn)所占百分比,或其它排序標準。
現(xiàn)在來看圖4,示出的是一種本發(fā)明實施例的新詞收集系統(tǒng)400。圖4中說明的各種模塊同樣可代表本發(fā)明的方法。為更好地說明本發(fā)明,系統(tǒng)400及其相應(yīng)的方法將在一起描述。
本發(fā)明的這種新詞收集方法的第一步是獲取搜索引擎的搜索或問詢?nèi)罩?,以收集一個已用特定語言提交的問詢目錄。這在圖4中表示為問詢?nèi)罩?10。接著,以日志中出現(xiàn)頻度為功能對問詢?nèi)罩痉诸?。這個步驟,及其在系統(tǒng)400中對應(yīng)的構(gòu)件,由問詢?nèi)罩敬鎯δK420表示,后者把分類的問詢421作為輸出??墒褂萌我庖环N技術(shù)用發(fā)生頻度對問詢?nèi)罩具M行分類。例如,發(fā)生頻度可基于一個問詢以完全(或接近完全)相同的形式發(fā)生的次數(shù)。然而,發(fā)生頻度也可基于把相似問詢組合在一起成為一個問詢包,即使這些問詢不表現(xiàn)為完全相同的形式。
接著,本方法包括基于一些預(yù)定的探試法,對分類的問詢進行過濾。這在圖4中用探試過濾模塊430說明,過濾后在輸出431提供一個新詞的候選目錄。雖然用來過濾分類問詢的探試法針對特定實現(xiàn)目標和/或不同語言,是可變化的,但是探試過濾標準的例子在圖5中進一步說明。
如圖5所示,探試過濾模塊430(代表探試過濾標準)可包括一個問詢長度過濾器510。問詢長度過濾器510濾除比一些預(yù)定字數(shù)或字符長和/或短的問詢串,在輸出511,僅提供通過這個標準的問詢。這個過濾標準從新詞候選目錄中淘汰了那些可能是復(fù)合詞(比上閾值長)的串,或過短以至不象是新詞(短于下閾值)的串,例如用戶無意中點擊輸入鍵所致。應(yīng)該注意,過濾淘汰過長的詞不必與過濾過短的詞一起使用。在一些實施例中沒有基于過短詞的過濾。
接著,對余下的問詢進行過濾,以淘汰那些在問詢?nèi)罩局谐霈F(xiàn)不夠頻繁的問詢。這在圖5中被表示為問詢頻度過濾器520。問詢頻度過濾器520濾除在問詢?nèi)罩局谐霈F(xiàn)次數(shù)不超過某個預(yù)定閾值的問詢串,在輸出521僅提供發(fā)生足夠頻繁,得以通過該標準的問詢。應(yīng)該注意,在其它實施例中,問詢頻度過濾器520可先于問詢長度過濾器510實現(xiàn)其功能。同樣,過濾順序的其它改變也是可行的。
接著,基于單詞拆分結(jié)果對余下的問詢進行過濾。這在圖5中被表示為單詞拆分結(jié)果過濾器530。單詞拆分結(jié)果過濾器530將余下的問詢與單詞拆分結(jié)果比較,淘汰已經(jīng)過單詞拆分模塊220分析被認為是單字的任何問詢。在提供單詞拆分結(jié)果時,模塊220使用詞庫225和其它必要的資源,包括如上所述語法、統(tǒng)計數(shù)據(jù)、干擾詞目錄等。經(jīng)單詞拆分模塊分析未作為單字的余下的問詢由過濾器530在輸出531提供。
接著,如果需要,可施加其它過濾標準,如圖5中一般用過濾器540表示。例如,當收集日語新詞時,過濾器540可淘汰所有非平假名或片假名的單詞或串,因為不知道的單詞進行分析時,平假名是單詞拆分困難主要發(fā)生的區(qū)域。類似地,過濾器540可淘汰所有非平假名或片假名的單詞或串。這些是過濾器基于一種或更多日語字符類型限制的兩個例子。更一般地說,基于日語字符類型限制,從候選目錄淘汰問詢,可包括淘汰基于分類問詢的字符類型的組合的探試的問詢。許多其它過濾標準也是可行的。
回到圖4,得到的新詞431的候選目錄可進一步由人來過濾(也就是讓人從候選目錄選擇或淘汰單詞),如440所示。決定是否采用人工過濾是可選的,這將取決于特定的要求,以及工作負荷/效果和效益的權(quán)衡。本發(fā)明的方法和系統(tǒng)的一個優(yōu)點是減少人識別新詞的工作負荷,尤其對于粘著性語言。在這個環(huán)節(jié)增加人工過濾將會進一步增強效果,而不會增加過度繁重的工作負荷。
在一些人工過濾之后,余下的問詢條目作為新詞目錄441提供。這些新詞被添加入,或合并到用來在上述檢索或搜索引擎的問詢?nèi)蝿?wù)中進行單詞拆分的定制或完整詞庫(在圖2,3和5中均以詞庫225表示)。更新后的詞庫,增加了新詞目錄441,在圖4中用450表示。然后該更新詞庫在前面所述的系統(tǒng)和方法的未來使用中將代替原來的詞庫225。并且,這些結(jié)果新詞不但可供搜索引擎的單詞拆分功能使用,還可用于其它任何包括單詞拆分的自然語言分析。例如排印錯誤檢測功能,替換建議功能(也就是“你是否指…?”搜索引擎的特點),等等。
在用本發(fā)明識別的新詞更新詞庫后,上述系統(tǒng)可用來更新詞庫再標引全部文件。這樣更新后的即新的索引就可替換原始索引,用于搜索引擎的問詢分析。通過使用本發(fā)明的方法和系統(tǒng)來識別新詞加入詞庫,實現(xiàn)了語言學(xué)分析結(jié)果的改善。在搜索方面,可實現(xiàn)更好的搜索結(jié)果。本發(fā)明極大地減少維護定制字庫必須的工作負荷。結(jié)果也可并入下一代字庫,減少了更新字庫所需的工作負荷。
以下舉一個日語的例子,來說明使用本發(fā)明的方法和系統(tǒng)識別新詞的必要性,同時可作為在本例情況下本發(fā)明的方法和系統(tǒng)是如何實現(xiàn)的一個例子。設(shè)想一下新日語單詞“らるく”(laruku)。這是一個流行樂隊新出現(xiàn)的綽號(簡稱),因此它可能不會被加入系統(tǒng)詞庫。根據(jù)背景資料,在日本,該流行樂隊的正式名稱是“ラルクアンシエル”(片假名表示,讀作“l(fā)arukuansieru”)。字母記法是“L’ArcenCiel”。為說明這個例子,假設(shè)らるく事實上沒有加入系統(tǒng)詞庫。
如果單詞拆分器識別不出這個單詞,會發(fā)生什么?情況A單詞拆分器可能過度分解未知單詞(這比下面討論的情況B更普遍)。在情況A中●單詞拆分結(jié)果將會是ら/る/く(la/ru/ku)或其它類似情況。
●如果單詞拆分器將一個假名字符作為干擾詞舍棄,那么所有內(nèi)容或詞塊會被舍棄,這個條目根本不能被搜索。
●即使單詞拆分器沒有將假名字符作干擾詞舍棄,就會有許多與ら或る或く(la或ru或ku)的一致,這對系統(tǒng)的表現(xiàn)是一個負面因素,可能導(dǎo)致相一致的文件排序出現(xiàn)問題。
●另外,在某些情況下,單詞拆分器可能不會一直表現(xiàn)良好。假設(shè)一個文件包含短語らるくに會つた(larukuniatta,意思是“遇見laruku”)。這個短語的單詞拆分結(jié)果會是ら/る/くに/會/つた(la/ru/kuni/at/ta),與らるく(la/ru/ku)不一致。
情況B單詞拆分器可能對未知單詞分解不足(使用未知單詞猜測機能)。在情況B中●單詞拆分結(jié)果將會是らるく(laruku)或其它類似情況。這不是一個壞結(jié)果。
●然而,同樣,單詞拆分器在某些情況下可能不會一直表現(xiàn)良好。假設(shè)一個文件包含短語らるくに會つた(larukuniatta,意思是“遇見laruku”)。這個短語的單詞拆分結(jié)果會是らる/くに/會/つた(laru/kuni/at/ta),與らるく(laruku)不一致。
如果這個單詞被添加入定制詞庫(或合并入系統(tǒng)詞庫)會發(fā)生什么?在上述情況A和B中,都會獲得希望的結(jié)果詢問らるく(laruku)→把らるく(laruku)作為一個單詞。
在一個文件中らるくに會つた(larukuniatta)→らるく/に/會/つた(laruku/ni/at/ta)因此,識別這個單詞作為新詞加入詞庫是重要的。是否考慮一下這個單詞被前面描述的過濾拾起的過程?已知這是一個非常頻繁的問詢。這個問詢足夠短。這意味著這可能是一個單詞,而不是復(fù)合詞或短語。
當對此問詢進行單詞拆分時,存在兩種情況,情況A和情況B。
情況A單詞拆分器可能過度分解未知單詞(這比下面討論的情況B更普遍)●單詞拆分結(jié)果將會是ら/る/く(la/ru/ku)或其它類似情況。
●如果單詞拆分器將一個假名字符作為干擾詞舍棄,那么此問詢的大部分會作為干擾詞舍棄,然后此條目無疑就是候選新詞。
●如果單詞拆分器沒有將一個字符的假名作干擾詞舍棄,則檢查看該單詞拆分結(jié)果是否是過小的假名詞塊。在這種情況下,這個問詢同樣是成為新詞的合適候選者。通常,具有表意字符的短詞塊不會導(dǎo)致嚴重的搜索沖突。因此,這些情況可被排除。
情況B單詞拆分器對未知單詞可能分解不足●單詞拆分結(jié)果是らるく(laruku)。
●檢查串らるく(laruku)是否在詞庫中。如果不在詞庫中,則此問詢是作為新詞加入詞庫的合適候選者,尤其當該問詢?nèi)坑杉倜麡?gòu)成時。
盡管已通過參考特定實施例描述了本發(fā)明,本領(lǐng)域的熟練技術(shù)人員將會認識到,在不背離本發(fā)明的精神和范圍的情況下可在形式和細節(jié)上作出改變。
權(quán)利要求
1.一種收集新詞,添加到粘著性語言的詞庫的方法,其特征在于,所述方法包括獲得提交至搜索引擎的問詢?nèi)罩?;將問詢?nèi)罩痉诸?,獲得分類的問詢;使用多重探試性標準過濾分類的問詢,獲得新詞的候選目錄;以及添加新詞候選目錄上的單詞至詞庫。
2.如權(quán)利要求1所述的方法,其特征在于,使用多重探試性標準過濾分類問詢,獲得新詞的候選目錄,還包括從候選目錄淘汰長度超過預(yù)定閾長度的問詢。
3.如權(quán)利要求2所述的方法,其特征在于,使用多重探試性標準過濾分類問詢,獲得新詞的候選目錄,還包括從候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
4.如權(quán)利要求3所述的方法,其特征在于,使用多重探試性標準過濾分類問詢,獲得新詞的候選目錄,還包括從候選目錄淘汰已經(jīng)過單詞拆分器分析被認為是單字的問詢。
5.如權(quán)利要求4所述的方法,還包括人工過濾新詞的候選目錄以獲得新詞目錄,其特征在于,把新詞候選目錄的單詞添加至詞庫,包括添加來自新詞目錄增加單詞。
6.如權(quán)利要求5所述的方法,其特征在于,把新詞的候選目錄的單詞添加至詞庫,還包括把新詞目錄的單詞添加至單詞拆分器使用的詞庫,以獲得更新的詞庫。
7.如權(quán)利要求5所述的方法,其特征在于,還包括使用更新的詞庫重新標引多種文件或站點。
8.如權(quán)利要求7所述的方法,其特征在于,還包括使用更新的詞庫實施搜索引擎問詢分析。
9.如權(quán)利要求1所述的方法,其特征在于,所述粘著性語言是日語。
10.如權(quán)利要求9所述的方法,其特征在于,過濾多重探試性標準,獲得新詞的候選目錄,還包括基于日語字符類型限制,從候選目錄淘汰問詢。
11.如權(quán)利要求10所述的方法,其特征在于,基于日語字符類型限制,從候選目錄淘汰問詢,還包括,淘汰非平假名或片假名字符串的問詢。
12.如權(quán)利要求10所述的方法,其特征在于,基于日語字符類型限制,從候選目錄淘汰問詢,還包括,淘汰基于對分類的問詢的字符類型的組合進行探試問詢。
13.一種計算機可讀媒體,該媒體具有計算機可執(zhí)行指令,用于實現(xiàn)以下步驟,其特征在于,所述步驟包括對提交到粘著性語言的搜索引擎的問詢?nèi)罩具M行分類,獲得分類的問詢;以及使用多重探試性標準過濾分類問詢,以獲得用于增加到詞庫的新詞的候選目錄,其中,使用多重探試性標準過濾分類問詢,還包括從新詞候選目錄淘汰長度超過預(yù)定閾長度的問詢。
14.如權(quán)利要求13所述的計算機可讀媒體,其特征在于,使用多重探試性標準過濾分類問詢,還包括從候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
15.如權(quán)利要求14所述的計算機可讀媒體,其特征在于,使用多重探試性標準過濾分類問詢,還包括還包括從候選目錄淘汰已經(jīng)單詞拆分器分析被認為是單字的問詢。
16.如權(quán)利要求15所述的計算機可讀媒體,其特征在于,還具有計算機可執(zhí)行的指令,用于實現(xiàn)包括把新詞候選目錄的單詞添加至詞庫的步驟。
17.一種新詞收集系統(tǒng),用于把從問詢?nèi)罩咎峤恢了阉饕媸占持哉Z言的新詞添加到詞庫,其特征在于,所述系統(tǒng)包括問詢?nèi)罩痉诸惒考?,配置成對問詢?nèi)罩具M行分類,以獲得分類的問詢;以及探試性過濾部件,配置成使用多重探試性標準過濾分類的問詢,以獲得新詞的候選目錄。
18.如權(quán)利要求17所述新詞收集系統(tǒng),其特征在于,所述探試性過濾部件還包括問詢長度過濾器,配置成從新詞候選目錄淘汰長度超過預(yù)定閾長度的問詢。
19.如權(quán)利要求18所述新詞收集系統(tǒng),其特征在于,所述探試性過濾部件還包括問詢頻度過濾器,配置成從新詞候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
20.如權(quán)利要求19所述新詞收集系統(tǒng),其特征在于,所述探試性過濾部件還包括單詞拆分結(jié)果過濾器,配置從新詞候選目錄淘汰已經(jīng)單詞拆分器分析被認為是單字的問詢。
全文摘要
本發(fā)明提供一種用于收集新詞,添加到粘著性語言所用的詞庫的方法,計算機可讀的媒體和系統(tǒng)。在本方法中,獲得提交到搜索引擎的問詢?nèi)罩?。把該問詢?nèi)罩具M行分類以獲得分類問詢。然后使用多重探試性標準將分類問詢進行過濾,以獲得新詞的候選目錄。然后把新詞候選目錄上的單詞添加到詞庫。
文檔編號G06F17/30GK1664818SQ200510053170
公開日2005年9月7日 申請日期2005年3月3日 優(yōu)先權(quán)日2004年3月3日
發(fā)明者奧村薰 申請人:微軟公司