用于單詞拆分的新詞收集方法和系統(tǒng)的制作方法

文檔序號：6538275閱讀：168來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于單詞拆分的新詞收集方法和系統(tǒng)的制作方法
背景技術(shù)：
本發(fā)明涉及單詞拆分器。更特別地，本發(fā)明涉及用于單詞拆分的新詞收集方法和系統(tǒng)。
單詞拆分是處理文本輸入的自然語言處理應(yīng)用的一個重要部分。特別是，單詞拆分對大多數(shù)搜索引擎尤其重要。出于多種目的，搜索引擎對輸入串施行單詞拆分。例如，為確定復(fù)合詞的組成單詞對輸入串施行單詞拆分。
單詞拆分對諸如日語，漢語和朝鮮語等粘著性語言尤其重要。粘著性語言是指一種單詞由獨立詞素的線性順序組成的語言，含義的每個構(gòu)件由其自身的詞素表示。粘著性語言的其它例子包括閃語(Sumerian)，豪利特語(Hourrite)，奧拉陶語(Ourartau)，巴斯克語和土耳其語。通常，在粘著性語言中，單詞復(fù)合時可不用空格符分隔構(gòu)件單詞。
搜索目標常常包含各種詞典尚未收錄的新單詞，且不會出現(xiàn)在定制詞庫中。當搜索引擎詢問的輸入串或待標引和搜索的文件中含有未知單詞時，對單詞拆分器來說很難恰當?shù)夭鸱诌@個串。對于那些單詞不用分隔符分隔的語言尤其如此。這具有潛在的降低搜索結(jié)果的精確度/覆蓋度的可能。
為單詞拆分器使用的定制詞庫收集新詞，是一項無止盡的工作?，F(xiàn)有的用于為定制詞庫收集新詞的技術(shù)是一項耗費時間的、繁重的工作。通常，新詞由搜索網(wǎng)站所有者人工收集，用于加入該網(wǎng)站使用的定制詞庫。新詞也可由開發(fā)者人工收集，歸入下一代產(chǎn)生的系統(tǒng)詞典中。這些新詞收集技術(shù)耗費時間、勞動密集，還有許多地方有待改進。

發(fā)明內(nèi)容
本發(fā)明提供一種用于收集新詞添加到粘著性語言的詞庫的方法，計算機可讀媒體和系統(tǒng)。在此方法中，獲得提交到搜索引擎的問詢?nèi)罩?。把此問詢?nèi)罩窘?jīng)分類得到分類的問詢。然后用多重探試法標準過濾分類的問詢，得到一個新詞的候選目錄。然后將新詞的候選目錄中的單詞添加到詞庫。
在一些實施例中，使用多重探試法標準過濾分類的問詢，得到新詞的候選目錄，還包括，從新詞的候選目錄中，淘汰長度超過預(yù)定的閾長度，象是復(fù)合詞的那些問詢。如果需要，在一些實施例中，可使用基于長度的過濾，淘汰長度小于預(yù)定閾長度的問詢，如果確定它們不象是單詞，而更象是用戶無意中點擊確認鍵的結(jié)果。
在一些實施例中，使用多重探試法標準過濾分類的問詢，得到新詞的候選目錄，還包括，從候選目錄中，淘汰問詢?nèi)罩局谐霈F(xiàn)頻度小于預(yù)定的閾出現(xiàn)頻度的問詢。
在一些實施例中，使用多重探試法標準過濾分類的問詢，得到新詞的候選目錄，還包括，從候選目錄中，淘汰已經(jīng)由單詞拆分器分析，被認為是單字的那些問詢。
表征本發(fā)明實施例的其它特點和優(yōu)點，將通過閱讀下面的詳細描述和查閱相關(guān)附圖變得顯而易見。
附圖簡述

圖1是使用本發(fā)明的一個示例環(huán)境的方框圖。
圖2是說明用于本發(fā)明的搜索引擎標引系統(tǒng)的一個實施例的方框圖。
圖3是說明用于本發(fā)明的搜索引擎系統(tǒng)的一個實施例的方框圖。
圖4是說明本發(fā)明的新詞收集系統(tǒng)和方法的一個實施例的方框圖。
圖5是說明圖4所示探試性過濾模塊的一個實施例的方框圖。
示例性實施例的詳細描述圖1例示了一個可實現(xiàn)本發(fā)明的合適的計算機系統(tǒng)環(huán)境100的例子。計算機系統(tǒng)環(huán)境100僅是合適的計算機環(huán)境的一個例子，而不打算對本發(fā)明的使用范圍或功能作任何限制。同樣，計算機環(huán)境100不應(yīng)被理解對示例性的操作環(huán)境100中的任何部件或部件的組合具有任何依賴性或要求。
本發(fā)明在眾多其它通用或?qū)Ｓ糜嬎銠C系統(tǒng)環(huán)境或配置上具有可操作性?？捎糜诒景l(fā)明的知名運算系統(tǒng)，環(huán)境，和/或配置的例子包括，但不局限于個人電腦，服務(wù)器電腦，手提電腦或膝上設(shè)備，多處理器系統(tǒng)，基于微處理器系統(tǒng)，機頂盒，可編程消費類電子產(chǎn)品，網(wǎng)絡(luò)PC機，迷你電腦，大型計算機，以及包括任何上述和類似系統(tǒng)或設(shè)備的分布式計算機環(huán)境。
本發(fā)明可用計算機可執(zhí)行指令的通用語言環(huán)境描述，例如正在被計算機執(zhí)行的程序模塊。通常，程序模塊包括例行程序，程序，對象，組件，數(shù)據(jù)結(jié)構(gòu)等，它們履行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本發(fā)明也可在分布式計算機環(huán)境中實施，其任務(wù)通過通信網(wǎng)絡(luò)連接的遠程處理設(shè)備實施。在分布式計算機環(huán)境中，程序模塊可位于本地或遠程計算機存儲介質(zhì)中，包括記憶存儲設(shè)備。
如圖1所示，一種實現(xiàn)本發(fā)明的示例系統(tǒng)，包括以計算機110為形式的通用運算設(shè)備。計算機110的部件可包括，但不局限于，處理單元120，系統(tǒng)存儲器130，和系統(tǒng)總線121，后者將包括系統(tǒng)存儲器的各種系統(tǒng)部件耦合至處理單元120。系統(tǒng)總線121可任選自多種類型總線結(jié)構(gòu)，包括存儲總線或存儲控制器，外圍總線，和使用任何多種總線體系結(jié)構(gòu)的局部總線。作為例子，但不作限制，這種體系結(jié)構(gòu)包括工業(yè)標準體系結(jié)構(gòu)(ISA)總線，微型通道體系結(jié)構(gòu)(MCA)總線，增強ISA(EISA)總線，視頻電子標準協(xié)會(VESA)局部總線，和外圍部件互連(PCI)總線，也稱作夾層總線。
計算機110通常包括多種計算機可讀媒體。計算機可讀媒體可以是任何現(xiàn)存的可被計算機110訪問的媒體，包括易丟失和不易丟失媒體，可移動和不可移動媒體。作為例子，但不作限制，計算機可讀媒體可包括計算機存儲媒體和通信媒體。計算機存儲媒體可包括易丟失和不易丟失媒體，可移動和不可移動媒體，用于在任何方法或技術(shù)中實現(xiàn)信息的儲存，例如計算機可讀指令，數(shù)據(jù)結(jié)構(gòu)，程序模塊或其它數(shù)據(jù)。計算機存儲媒體包括，但不局限于，RAM，ROM，EEPROM，閃存或其它存儲技術(shù)，CD-ROM，數(shù)字多用光盤(DVD)或其它光盤存儲器，盒式磁帶，磁帶，磁盤存儲器或其它磁性存儲設(shè)備，或任何其它可被用來存儲需要的信息，并可被計算機110訪問的媒體。通信媒體通常包括計算機可讀指令，數(shù)據(jù)結(jié)構(gòu)，程序模塊或其它例如載波或其它傳輸機制的調(diào)制數(shù)據(jù)信號形式的數(shù)據(jù)，并包括任何信息傳遞媒體。術(shù)語“調(diào)制數(shù)據(jù)信號”指一種信號，具有一種或更多特性，其可用在信號中編碼信息方式被設(shè)置或變化。作為例子，但不作限制，通信媒體包括有線媒體，例如有線網(wǎng)絡(luò)或直接有線連接，以及無線媒體，例如聲波，射頻，紅外線和其它無線媒體。上述任何組合也應(yīng)包括在計算機可讀媒體的范圍內(nèi)。
系統(tǒng)存儲器130包括以易丟失和/或不易丟失存儲器的形式存在的計算機存儲媒體，例如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。包含基本例行程序、用來例如在啟動期間幫助在計算機110中的元件之間傳送信息的基本輸入/輸出系統(tǒng)(BIOS)，通常存儲在ROM 131中。RAM 132通常包含即時訪問的和/或處理單元120當前正在操作的數(shù)據(jù)和/或程序模塊。作為例子，但不作限制，圖1例示了操作系統(tǒng)134，應(yīng)用程序135，其它程序模塊136，和程序數(shù)據(jù)137。
計算機110也可包括其它可移動/不可移動、易丟失/不易丟失計算機存儲媒體。僅作為例子，圖1例示了從不可移動、不易丟失的磁性媒體讀出或?qū)懭氲挠脖P驅(qū)動器141，從可移動、不易丟失的磁盤152讀出或?qū)懭氲拇疟P驅(qū)動器151，以及從可移動、不易丟失的光盤156，例如CD-ROM或其它光媒體讀出或?qū)懭氲墓獗P驅(qū)動器155。其它可用于示例操作環(huán)境的可移動/不可移動、易丟失/不易丟失計算機存儲媒體包括，但不局限于，盒式磁帶，閃存卡，數(shù)字多用光盤，數(shù)字錄像帶，固態(tài)RAM，固態(tài)ROM以及類似媒體。硬盤驅(qū)動器141通常通過不可移動存儲器接口例如接口140連接到系統(tǒng)總線121，而磁盤驅(qū)動器151，光盤驅(qū)動器155通常通過可移動存儲器接口例如接口150連接到系統(tǒng)總線121。
前面討論的及圖1例示的驅(qū)動器及其相關(guān)計算機存儲媒體，為計算機110提供了計算機可讀指令，數(shù)據(jù)結(jié)構(gòu)，程序模塊以及其它數(shù)據(jù)的存儲。例如，在圖1中，例示了硬盤驅(qū)動器141用作儲存操作系統(tǒng)144，應(yīng)用程序145，其它程序模塊146，和程序數(shù)據(jù)147。應(yīng)注意這些部件可以與操作系統(tǒng)134，應(yīng)用程序135，其它程序模塊136，和程序數(shù)據(jù)137相同或不同。在這里操作系統(tǒng)144，應(yīng)用程序145，其它程序模塊146，和程序數(shù)據(jù)147被給予不同的序號，至少說明它們是不同的拷貝。
用戶可通過例如鍵盤162，話筒163的輸入設(shè)備和諸如鼠標，軌跡球，觸摸板等指示設(shè)備161將命令或信息輸入計算機110。其它輸入設(shè)備(未顯示)可包括游戲操縱桿，游戲板，衛(wèi)星盤，掃描儀或類似設(shè)備。這些以及其它輸入設(shè)備常通過耦合至系統(tǒng)總線的用戶輸入接口160連接到處理單元120，但也可通過其它接口和總線結(jié)構(gòu)，例如并行端口，游戲端口或通用串行端口(USB)連接。監(jiān)示器191或其它類型的顯示設(shè)備同樣通過接口，例如視頻接口190連接到系統(tǒng)總線121。除了監(jiān)示器，計算機也可包括其它外圍輸出設(shè)備，例如揚聲器197和打印機196，它們可通過外圍輸出接口195連接。
計算機110可使用與一臺或多臺遠程計算機，例如遠程計算機180的邏輯連接在網(wǎng)絡(luò)環(huán)境中運行。遠程計算機180可以是個人電腦，手提設(shè)備，服務(wù)器，路由器，網(wǎng)絡(luò)PC機，同級設(shè)備或其它公共網(wǎng)絡(luò)結(jié)點，通常包括許多或所有上述與計算機110相關(guān)的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173，但也可包括其它網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室，企業(yè)內(nèi)計算機網(wǎng)絡(luò)，內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中普遍存在。
在LAN網(wǎng)絡(luò)環(huán)境中使用時，計算機110通過網(wǎng)絡(luò)接口或適配器170連接到LAN171。在WAN網(wǎng)絡(luò)環(huán)境中使用時，計算機110通常包括調(diào)制解調(diào)器172或其它在諸如因特網(wǎng)之類WAN內(nèi)建立的通信手段。內(nèi)置或外置的調(diào)制解調(diào)器172，可經(jīng)用戶輸入接口160或其它合適的機制連接至系統(tǒng)總線121。在一個網(wǎng)絡(luò)環(huán)境中，與計算機110或其一部分的相應(yīng)的程序模塊，可儲存在遠程記憶存儲設(shè)備中。作為例子，但不作限制，圖1例示了留駐在遠程計算機180上的遠程應(yīng)用程序185。應(yīng)當理解為所示的網(wǎng)絡(luò)連接是示例性的，也可使用建立計算機之通信連接的其它方法。
本發(fā)明包括用于收集添加到單詞拆分器所用詞庫的新詞的改進方法。收集方法和單詞拆分器，這兩者之一或全部可在圖1例示的這一運算環(huán)境中實現(xiàn)，或在其它類型的計算機環(huán)境中實現(xiàn)。與常規(guī)的、常導(dǎo)致高度人力耗費的收集新詞歸入定制詞庫或系統(tǒng)詞典的傳統(tǒng)方法相比較，本發(fā)明的方法和系統(tǒng)利用搜索問詢?nèi)罩荆詣踊虬胱詣拥孬@取新詞。本發(fā)明的新詞收集方法對粘著性語言尤其適用，這些語言中單詞之間的組合不使用空格或連字符。
圖2是一種搜索引擎標引系統(tǒng)200的方框圖，說明了用搜索引擎在處理以后使用的標引文件或網(wǎng)站期間進行單詞拆分的一個應(yīng)用。系統(tǒng)200包括字符串提取模塊210。進行檢索時，模塊210從215所示的文件或網(wǎng)站(統(tǒng)稱為“文件”)中提取字符串211。
系統(tǒng)200也包括單詞拆分模塊220，用來分析字符串211，產(chǎn)生關(guān)鍵字221。單詞拆分模塊220可發(fā)揮常規(guī)的單詞拆分模塊一樣的作用。從字符串211中產(chǎn)生關(guān)鍵字221的過程中，單詞拆分模塊220利用了詞庫225。詞庫225可以是一個常規(guī)的，被用于多種用途的完整詞庫，一個專用于特定用途的定制詞庫，或這兩者的結(jié)合。按照慣例，單詞拆分模塊220也可使用字符串的特定粘著性語言合適的語法230和統(tǒng)計數(shù)據(jù)235。
由于一些搜索引擎排除了某些干擾詞(noise words)，單詞拆分模塊220也可訪問干擾詞數(shù)據(jù)庫或目錄240，并且從以后將被用作關(guān)鍵字221的結(jié)果單詞組中，刪除或排除干擾詞。如果需要的話，這項功能也可在獨立的干擾詞排除步驟里，通過獨立的干擾詞排除模塊實現(xiàn)。干擾詞目錄240中的干擾詞可以是通用的，或特定搜索引擎專用，因為并不是所有的搜索引擎可能會排除相同的干擾詞。舉例說干擾詞可包括功能性單詞，例如那些對應(yīng)于英語中的“a”和“the”的詞。另一個例子，在日語中，可排除一個字符的日語假名。同樣存在許多其它類型的干擾詞，這將取決于特定的粘著性語言。
單詞拆分模塊220提供的結(jié)果關(guān)鍵字221加入索引250。索引250將關(guān)鍵字與文件215相關(guān)聯(lián)，從中提取原始字符串。然后這些關(guān)鍵字被用來檢索合適的文件，來響應(yīng)包含這些關(guān)鍵字的搜索引擎問詢。
圖3是搜索引擎系統(tǒng)300的方框圖，說明了單詞拆分在搜索文件或網(wǎng)站時，響應(yīng)自然語言用戶問詢時的一個應(yīng)用。系統(tǒng)300包括單詞拆分模塊220，用于接收一個文本輸入形式305的用戶問詢。以粘著性語言的情況下為例，文本輸入305通常是文本串的形式。所例示的單詞拆分模塊與圖2中系統(tǒng)200使用的單詞拆分模塊是相同的。然而，并不是必須如此，不同系統(tǒng)之間使用的單詞拆分模塊可存在差別。
單詞拆分模塊220使用詞庫225以已知的方式實現(xiàn)單詞拆分功能。如前面所述的，單詞拆分模塊也可使用語法、統(tǒng)計數(shù)據(jù)和其它資源，以實現(xiàn)所要求的或?qū)Ρ环治龅奶囟ㄕZ言最有效用的單詞拆分功能。單詞拆分模塊220的輸出是源自文本輸入305的單詞目錄310。
與上述檢索系統(tǒng)200類似，搜索引擎系統(tǒng)300可排除干擾詞。同樣，干擾詞可包括類似相當于“a”和“the”之類的功能性詞，或那些內(nèi)容不豐富的和不帶明顯意義的其它詞。干擾詞可以是特定語言專有的，同樣可以日語的假名為例。干擾詞的排除是可選的，并可在獨立的干擾詞排除模塊329中實現(xiàn)或在單詞拆分模塊220內(nèi)實現(xiàn)。排除干擾詞之后，結(jié)果是一個關(guān)鍵字330的目錄或群。
系統(tǒng)300也包括關(guān)鍵字查詢模塊340，用來將關(guān)鍵字330與索引250中儲存的關(guān)鍵字作比較。一致的文件或站點(site)215(或一致的文件或站點的目錄)被檢索出來。關(guān)鍵字查詢模塊340通常會將檢索到的文件或站點排序，以使結(jié)果350是最可能需要的問詢結(jié)果。例如，模塊340對結(jié)果的排序可以是基于文件或站點中關(guān)鍵字的出現(xiàn)頻度，基于關(guān)鍵字在單個文件或站點中實際發(fā)現(xiàn)所占百分比，或其它排序標準。
現(xiàn)在來看圖4，示出的是一種本發(fā)明實施例的新詞收集系統(tǒng)400。圖4中說明的各種模塊同樣可代表本發(fā)明的方法。為更好地說明本發(fā)明，系統(tǒng)400及其相應(yīng)的方法將在一起描述。
本發(fā)明的這種新詞收集方法的第一步是獲取搜索引擎的搜索或問詢?nèi)罩?，以收集一個已用特定語言提交的問詢目錄。這在圖4中表示為問詢?nèi)罩?10。接著，以日志中出現(xiàn)頻度為功能對問詢?nèi)罩痉诸?。這個步驟，及其在系統(tǒng)400中對應(yīng)的構(gòu)件，由問詢?nèi)罩敬鎯δK420表示，后者把分類的問詢421作為輸出?？墒褂萌我庖环N技術(shù)用發(fā)生頻度對問詢?nèi)罩具M行分類。例如，發(fā)生頻度可基于一個問詢以完全(或接近完全)相同的形式發(fā)生的次數(shù)。然而，發(fā)生頻度也可基于把相似問詢組合在一起成為一個問詢包，即使這些問詢不表現(xiàn)為完全相同的形式。
接著，本方法包括基于一些預(yù)定的探試法，對分類的問詢進行過濾。這在圖4中用探試過濾模塊430說明，過濾后在輸出431提供一個新詞的候選目錄。雖然用來過濾分類問詢的探試法針對特定實現(xiàn)目標和/或不同語言，是可變化的，但是探試過濾標準的例子在圖5中進一步說明。
如圖5所示，探試過濾模塊430(代表探試過濾標準)可包括一個問詢長度過濾器510。問詢長度過濾器510濾除比一些預(yù)定字數(shù)或字符長和/或短的問詢串，在輸出511，僅提供通過這個標準的問詢。這個過濾標準從新詞候選目錄中淘汰了那些可能是復(fù)合詞(比上閾值長)的串，或過短以至不象是新詞(短于下閾值)的串，例如用戶無意中點擊輸入鍵所致。應(yīng)該注意，過濾淘汰過長的詞不必與過濾過短的詞一起使用。在一些實施例中沒有基于過短詞的過濾。
接著，對余下的問詢進行過濾，以淘汰那些在問詢?nèi)罩局谐霈F(xiàn)不夠頻繁的問詢。這在圖5中被表示為問詢頻度過濾器520。問詢頻度過濾器520濾除在問詢?nèi)罩局谐霈F(xiàn)次數(shù)不超過某個預(yù)定閾值的問詢串，在輸出521僅提供發(fā)生足夠頻繁，得以通過該標準的問詢。應(yīng)該注意，在其它實施例中，問詢頻度過濾器520可先于問詢長度過濾器510實現(xiàn)其功能。同樣，過濾順序的其它改變也是可行的。
接著，基于單詞拆分結(jié)果對余下的問詢進行過濾。這在圖5中被表示為單詞拆分結(jié)果過濾器530。單詞拆分結(jié)果過濾器530將余下的問詢與單詞拆分結(jié)果比較，淘汰已經(jīng)過單詞拆分模塊220分析被認為是單字的任何問詢。在提供單詞拆分結(jié)果時，模塊220使用詞庫225和其它必要的資源，包括如上所述語法、統(tǒng)計數(shù)據(jù)、干擾詞目錄等。經(jīng)單詞拆分模塊分析未作為單字的余下的問詢由過濾器530在輸出531提供。
接著，如果需要，可施加其它過濾標準，如圖5中一般用過濾器540表示。例如，當收集日語新詞時，過濾器540可淘汰所有非平假名或片假名的單詞或串，因為不知道的單詞進行分析時，平假名是單詞拆分困難主要發(fā)生的區(qū)域。類似地，過濾器540可淘汰所有非平假名或片假名的單詞或串。這些是過濾器基于一種或更多日語字符類型限制的兩個例子。更一般地說，基于日語字符類型限制，從候選目錄淘汰問詢，可包括淘汰基于分類問詢的字符類型的組合的探試的問詢。許多其它過濾標準也是可行的。
回到圖4，得到的新詞431的候選目錄可進一步由人來過濾(也就是讓人從候選目錄選擇或淘汰單詞)，如440所示。決定是否采用人工過濾是可選的，這將取決于特定的要求，以及工作負荷/效果和效益的權(quán)衡。本發(fā)明的方法和系統(tǒng)的一個優(yōu)點是減少人識別新詞的工作負荷，尤其對于粘著性語言。在這個環(huán)節(jié)增加人工過濾將會進一步增強效果，而不會增加過度繁重的工作負荷。
在一些人工過濾之后，余下的問詢條目作為新詞目錄441提供。這些新詞被添加入，或合并到用來在上述檢索或搜索引擎的問詢?nèi)蝿?wù)中進行單詞拆分的定制或完整詞庫(在圖2，3和5中均以詞庫225表示)。更新后的詞庫，增加了新詞目錄441，在圖4中用450表示。然后該更新詞庫在前面所述的系統(tǒng)和方法的未來使用中將代替原來的詞庫225。并且，這些結(jié)果新詞不但可供搜索引擎的單詞拆分功能使用，還可用于其它任何包括單詞拆分的自然語言分析。例如排印錯誤檢測功能，替換建議功能(也就是“你是否指…？”搜索引擎的特點)，等等。
在用本發(fā)明識別的新詞更新詞庫后，上述系統(tǒng)可用來更新詞庫再標引全部文件。這樣更新后的即新的索引就可替換原始索引，用于搜索引擎的問詢分析。通過使用本發(fā)明的方法和系統(tǒng)來識別新詞加入詞庫，實現(xiàn)了語言學(xué)分析結(jié)果的改善。在搜索方面，可實現(xiàn)更好的搜索結(jié)果。本發(fā)明極大地減少維護定制字庫必須的工作負荷。結(jié)果也可并入下一代字庫，減少了更新字庫所需的工作負荷。
以下舉一個日語的例子，來說明使用本發(fā)明的方法和系統(tǒng)識別新詞的必要性，同時可作為在本例情況下本發(fā)明的方法和系統(tǒng)是如何實現(xiàn)的一個例子。設(shè)想一下新日語單詞“らるく”(laruku)。這是一個流行樂隊新出現(xiàn)的綽號(簡稱)，因此它可能不會被加入系統(tǒng)詞庫。根據(jù)背景資料，在日本，該流行樂隊的正式名稱是“ラルクアンシエル”(片假名表示，讀作“l(fā)arukuansieru”)。字母記法是“L’ArcenCiel”。為說明這個例子，假設(shè)らるく事實上沒有加入系統(tǒng)詞庫。
如果單詞拆分器識別不出這個單詞，會發(fā)生什么？情況A單詞拆分器可能過度分解未知單詞(這比下面討論的情況B更普遍)。在情況A中●單詞拆分結(jié)果將會是ら/る/く(la/ru/ku)或其它類似情況。
●如果單詞拆分器將一個假名字符作為干擾詞舍棄，那么所有內(nèi)容或詞塊會被舍棄，這個條目根本不能被搜索。
●即使單詞拆分器沒有將假名字符作干擾詞舍棄，就會有許多與ら或る或く(la或ru或ku)的一致，這對系統(tǒng)的表現(xiàn)是一個負面因素，可能導(dǎo)致相一致的文件排序出現(xiàn)問題。
●另外，在某些情況下，單詞拆分器可能不會一直表現(xiàn)良好。假設(shè)一個文件包含短語らるくに會つた(larukuniatta，意思是“遇見laruku”)。這個短語的單詞拆分結(jié)果會是ら/る/くに/會/つた(la/ru/kuni/at/ta)，與らるく(la/ru/ku)不一致。
情況B單詞拆分器可能對未知單詞分解不足(使用未知單詞猜測機能)。在情況B中●單詞拆分結(jié)果將會是らるく(laruku)或其它類似情況。這不是一個壞結(jié)果。
●然而，同樣，單詞拆分器在某些情況下可能不會一直表現(xiàn)良好。假設(shè)一個文件包含短語らるくに會つた(larukuniatta，意思是“遇見laruku”)。這個短語的單詞拆分結(jié)果會是らる/くに/會/つた(laru/kuni/at/ta)，與らるく(laruku)不一致。
如果這個單詞被添加入定制詞庫(或合并入系統(tǒng)詞庫)會發(fā)生什么？在上述情況A和B中，都會獲得希望的結(jié)果詢問らるく(laruku)→把らるく(laruku)作為一個單詞。
在一個文件中らるくに會つた(larukuniatta)→らるく/に/會/つた(laruku/ni/at/ta)因此，識別這個單詞作為新詞加入詞庫是重要的。是否考慮一下這個單詞被前面描述的過濾拾起的過程？已知這是一個非常頻繁的問詢。這個問詢足夠短。這意味著這可能是一個單詞，而不是復(fù)合詞或短語。
當對此問詢進行單詞拆分時，存在兩種情況，情況A和情況B。
情況A單詞拆分器可能過度分解未知單詞(這比下面討論的情況B更普遍)●單詞拆分結(jié)果將會是ら/る/く(la/ru/ku)或其它類似情況。
●如果單詞拆分器將一個假名字符作為干擾詞舍棄，那么此問詢的大部分會作為干擾詞舍棄，然后此條目無疑就是候選新詞。
●如果單詞拆分器沒有將一個字符的假名作干擾詞舍棄，則檢查看該單詞拆分結(jié)果是否是過小的假名詞塊。在這種情況下，這個問詢同樣是成為新詞的合適候選者。通常，具有表意字符的短詞塊不會導(dǎo)致嚴重的搜索沖突。因此，這些情況可被排除。
情況B單詞拆分器對未知單詞可能分解不足●單詞拆分結(jié)果是らるく(laruku)。
●檢查串らるく(laruku)是否在詞庫中。如果不在詞庫中，則此問詢是作為新詞加入詞庫的合適候選者，尤其當該問詢?nèi)坑杉倜麡?gòu)成時。
盡管已通過參考特定實施例描述了本發(fā)明，本領(lǐng)域的熟練技術(shù)人員將會認識到，在不背離本發(fā)明的精神和范圍的情況下可在形式和細節(jié)上作出改變。
權(quán)利要求
1.一種收集新詞，添加到粘著性語言的詞庫的方法，其特征在于，所述方法包括獲得提交至搜索引擎的問詢?nèi)罩?；將問詢?nèi)罩痉诸?，獲得分類的問詢；使用多重探試性標準過濾分類的問詢，獲得新詞的候選目錄；以及添加新詞候選目錄上的單詞至詞庫。
2.如權(quán)利要求1所述的方法，其特征在于，使用多重探試性標準過濾分類問詢，獲得新詞的候選目錄，還包括從候選目錄淘汰長度超過預(yù)定閾長度的問詢。
3.如權(quán)利要求2所述的方法，其特征在于，使用多重探試性標準過濾分類問詢，獲得新詞的候選目錄，還包括從候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
4.如權(quán)利要求3所述的方法，其特征在于，使用多重探試性標準過濾分類問詢，獲得新詞的候選目錄，還包括從候選目錄淘汰已經(jīng)過單詞拆分器分析被認為是單字的問詢。
5.如權(quán)利要求4所述的方法，還包括人工過濾新詞的候選目錄以獲得新詞目錄，其特征在于，把新詞候選目錄的單詞添加至詞庫，包括添加來自新詞目錄增加單詞。
6.如權(quán)利要求5所述的方法，其特征在于，把新詞的候選目錄的單詞添加至詞庫，還包括把新詞目錄的單詞添加至單詞拆分器使用的詞庫，以獲得更新的詞庫。
7.如權(quán)利要求5所述的方法，其特征在于，還包括使用更新的詞庫重新標引多種文件或站點。
8.如權(quán)利要求7所述的方法，其特征在于，還包括使用更新的詞庫實施搜索引擎問詢分析。
9.如權(quán)利要求1所述的方法，其特征在于，所述粘著性語言是日語。
10.如權(quán)利要求9所述的方法，其特征在于，過濾多重探試性標準，獲得新詞的候選目錄，還包括基于日語字符類型限制，從候選目錄淘汰問詢。
11.如權(quán)利要求10所述的方法，其特征在于，基于日語字符類型限制，從候選目錄淘汰問詢，還包括，淘汰非平假名或片假名字符串的問詢。
12.如權(quán)利要求10所述的方法，其特征在于，基于日語字符類型限制，從候選目錄淘汰問詢，還包括，淘汰基于對分類的問詢的字符類型的組合進行探試問詢。
13.一種計算機可讀媒體，該媒體具有計算機可執(zhí)行指令，用于實現(xiàn)以下步驟，其特征在于，所述步驟包括對提交到粘著性語言的搜索引擎的問詢?nèi)罩具M行分類，獲得分類的問詢；以及使用多重探試性標準過濾分類問詢，以獲得用于增加到詞庫的新詞的候選目錄，其中，使用多重探試性標準過濾分類問詢，還包括從新詞候選目錄淘汰長度超過預(yù)定閾長度的問詢。
14.如權(quán)利要求13所述的計算機可讀媒體，其特征在于，使用多重探試性標準過濾分類問詢，還包括從候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
15.如權(quán)利要求14所述的計算機可讀媒體，其特征在于，使用多重探試性標準過濾分類問詢，還包括還包括從候選目錄淘汰已經(jīng)單詞拆分器分析被認為是單字的問詢。
16.如權(quán)利要求15所述的計算機可讀媒體，其特征在于，還具有計算機可執(zhí)行的指令，用于實現(xiàn)包括把新詞候選目錄的單詞添加至詞庫的步驟。
17.一種新詞收集系統(tǒng)，用于把從問詢?nèi)罩咎峤恢了阉饕媸占持哉Z言的新詞添加到詞庫，其特征在于，所述系統(tǒng)包括問詢?nèi)罩痉诸惒考?，配置成對問詢?nèi)罩具M行分類，以獲得分類的問詢；以及探試性過濾部件，配置成使用多重探試性標準過濾分類的問詢，以獲得新詞的候選目錄。
18.如權(quán)利要求17所述新詞收集系統(tǒng)，其特征在于，所述探試性過濾部件還包括問詢長度過濾器，配置成從新詞候選目錄淘汰長度超過預(yù)定閾長度的問詢。
19.如權(quán)利要求18所述新詞收集系統(tǒng)，其特征在于，所述探試性過濾部件還包括問詢頻度過濾器，配置成從新詞候選目錄淘汰問詢?nèi)罩局邪l(fā)生頻度低于預(yù)定閾發(fā)生頻度的問詢。
20.如權(quán)利要求19所述新詞收集系統(tǒng)，其特征在于，所述探試性過濾部件還包括單詞拆分結(jié)果過濾器，配置從新詞候選目錄淘汰已經(jīng)單詞拆分器分析被認為是單字的問詢。
全文摘要
本發(fā)明提供一種用于收集新詞，添加到粘著性語言所用的詞庫的方法，計算機可讀的媒體和系統(tǒng)。在本方法中，獲得提交到搜索引擎的問詢?nèi)罩?。把該問詢?nèi)罩具M行分類以獲得分類問詢。然后使用多重探試性標準將分類問詢進行過濾，以獲得新詞的候選目錄。然后把新詞候選目錄上的單詞添加到詞庫。
文檔編號G06F17/30GK1664818SQ200510053170
公開日2005年9月7日申請日期2005年3月3日優(yōu)先權(quán)日2004年3月3日
發(fā)明者奧村薰申請人:微軟公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：奧村薰
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

上一篇：輔助表格填充的制作方法
上一篇：代碼的計量執(zhí)行的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于單詞拆分的新詞收集方法和系統(tǒng)的制作方法