專(zhuān)利名稱(chēng):短信內(nèi)容的線性參數(shù)模糊匹配算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是對(duì)大容量連續(xù)輸入的短消息(短信)內(nèi)容進(jìn)行基于關(guān)鍵詞的搜索、匹配的算法操作實(shí)現(xiàn)過(guò)程。通過(guò)本算法,利用可變條件參數(shù)可以把一些通過(guò)常規(guī)算法不能得到有效匹配結(jié)果的短信匹配出來(lái),從而實(shí)現(xiàn)對(duì)關(guān)鍵詞基礎(chǔ)的短信內(nèi)容的動(dòng)態(tài)精確匹配。
背景技術(shù):
目前,在互聯(lián)網(wǎng)絡(luò)及各種管理系統(tǒng)中均用到了搜索匹配算法,根據(jù)信息類(lèi)型及所面向的用戶(hù)種類(lèi)的不同,各種搜索匹配算法又有所不同。一般的匹配算法只對(duì)固定的內(nèi)容進(jìn)行關(guān)鍵詞固定的組合匹配處理,而對(duì)于不符合規(guī)則的關(guān)鍵詞的人為組合則無(wú)能為力。
隨著目前移動(dòng)短信業(yè)務(wù)的開(kāi)展,短信的流量迅速增大,短信中同時(shí)也包括大量的危害信息。短信內(nèi)容為文本格式,內(nèi)容短小,但數(shù)量和流量很大,因此對(duì)匹配的準(zhǔn)確性和實(shí)時(shí)性提出了更高的要求。同時(shí),短信中的關(guān)鍵詞之間由于插入一些無(wú)意義的字符(如空格、字母等),這些組合沒(méi)有固定的格式和順序,這就需要一種更靈活的算法能夠識(shí)別出這種不固定格式組合。以往的匹配算法嚴(yán)格按照關(guān)鍵詞的順序判別,如果關(guān)鍵詞匹配不上,該匹配結(jié)果就被認(rèn)為是無(wú)效的結(jié)果,這種方法導(dǎo)致有些不是嚴(yán)格按照關(guān)鍵詞順序的短信或者關(guān)鍵詞中含有其他字符的短信被丟棄。
用目前的匹配算法,用戶(hù)難以設(shè)置靈活多樣的匹配規(guī)則,對(duì)短信內(nèi)容的搜索、匹配效果并不理想。并且,即使增加匹配方式設(shè)定的復(fù)雜性和難度的基礎(chǔ)上,這些算法也難以滿(mǎn)足對(duì)大容量和高速的短信內(nèi)容的匹配要求。
發(fā)明目的為解決順序匹配過(guò)程中出現(xiàn)的各個(gè)關(guān)鍵詞之間的間隔不固定的問(wèn)題,本發(fā)明公開(kāi)的短信內(nèi)容的線性參數(shù)模糊匹配算法,不僅可以進(jìn)行精確匹配,還可以進(jìn)行模糊匹配,高速、準(zhǔn)確地對(duì)短信內(nèi)容進(jìn)行搜索。同時(shí),本算法也可根據(jù)以前匹配的結(jié)果動(dòng)態(tài)調(diào)整匹配的格式和參數(shù),實(shí)現(xiàn)自動(dòng)、動(dòng)態(tài)、可調(diào)和靈活的匹配格式選擇和應(yīng)用,保證匹配的準(zhǔn)確性和有效性。
本發(fā)明的技術(shù)方案短信內(nèi)容的線性參數(shù)模糊匹配算法,其特征在于1、本算法對(duì)大容量和高速的短信內(nèi)容進(jìn)行匹配;2、匹配規(guī)則包括關(guān)鍵詞、關(guān)鍵詞權(quán)值、順序匹配、匹配參數(shù)和有效性參數(shù);3、關(guān)鍵詞權(quán)值表示該關(guān)鍵詞所代表的重要性程度;順序匹配,即匹配過(guò)程按照關(guān)鍵詞的順序從前到后進(jìn)行;匹配參數(shù)表示掃描短信內(nèi)容后計(jì)算出該短信含有的關(guān)鍵詞的權(quán)值之和;有效性參數(shù)表示在一定的時(shí)間段內(nèi),被匹配規(guī)則匹配上的短信條數(shù),或被匹配短信條數(shù)占流入總條數(shù)的百分率;4、匹配結(jié)果與有效性參數(shù)的差別由增量來(lái)體現(xiàn),根據(jù)增量的正負(fù)和大小調(diào)整匹配參數(shù);5、通過(guò)匹配參數(shù)的動(dòng)態(tài)調(diào)整,控制匹配結(jié)果,使匹配結(jié)果落在一個(gè)理想的范圍之內(nèi)。短信內(nèi)容的線性參數(shù)模糊匹配算法,其特征在于1、本算法對(duì)大容量和高速的短信內(nèi)容進(jìn)行匹配;2、匹配規(guī)則包括關(guān)鍵詞、順序匹配、匹配模板和有效性參數(shù);3、順序匹配,即匹配過(guò)程按照關(guān)鍵詞的順序從前到后進(jìn)行;匹配模板由關(guān)鍵詞和代表關(guān)鍵詞之間字節(jié)數(shù)的通配符構(gòu)成;有效性參數(shù)表示在一定的時(shí)間段內(nèi),被匹配規(guī)則匹配上的短信條數(shù),或被匹配短信條數(shù)占流入總條數(shù)的百分率;4、匹配結(jié)果與有效性參數(shù)的差別由增量來(lái)體現(xiàn),根據(jù)增量的正負(fù)和大小調(diào)整匹配參數(shù);5、通過(guò)匹配參數(shù)的動(dòng)態(tài)調(diào)整,控制匹配結(jié)果,使匹配結(jié)果落在一個(gè)理想的范圍之內(nèi)。線性參數(shù)模糊匹配算法根據(jù)模糊點(diǎn)不同,分為線性參數(shù)模糊匹配和線性參數(shù)模板匹配兩種方式。
線性參數(shù)模糊匹配的每個(gè)關(guān)鍵詞都具有一定的權(quán)值,表示該關(guān)鍵詞所代表的重要性程度。算法掃描短信內(nèi)容后計(jì)算出該短信含有的關(guān)鍵詞的權(quán)值之和,如果該和超過(guò)一個(gè)指定的匹配參數(shù)(閾值),算法就判定該短信是匹配有效的;否則,該短信被認(rèn)為是無(wú)效的,做丟棄處理。同時(shí),算法根據(jù)一段時(shí)間的匹配結(jié)果動(dòng)態(tài)調(diào)整各個(gè)關(guān)鍵詞的權(quán)重和匹配參數(shù)(閾值),以達(dá)到最佳的匹配設(shè)置。
線性參數(shù)模板匹配算法是以一種順序關(guān)系掃描短信內(nèi)容并動(dòng)態(tài)調(diào)整匹配模板的算法。在短信匹配規(guī)則設(shè)置時(shí),關(guān)鍵詞以模板的形式規(guī)定,掃描短信內(nèi)容時(shí)依次搜索模板中出現(xiàn)的關(guān)鍵詞,若模板中的關(guān)鍵詞都出現(xiàn),且關(guān)鍵詞之間的距離剛好滿(mǎn)足通配符代表的字節(jié)數(shù),則認(rèn)為已經(jīng)成功匹配模板規(guī)則。而經(jīng)多次循環(huán)掃描未能與該模板設(shè)置相匹配時(shí),線性參數(shù)模板匹配算法程序則對(duì)模板進(jìn)行動(dòng)態(tài)調(diào)整,在預(yù)設(shè)的關(guān)鍵詞模板中間再次調(diào)整后對(duì)短信內(nèi)容循環(huán)掃描,該種算法靈活的實(shí)現(xiàn)了關(guān)鍵詞模糊搜索,特別適用于與關(guān)鍵詞類(lèi)似但又不完全一致的字符串匹配。
算法思路通過(guò)初始參數(shù)來(lái)進(jìn)行數(shù)據(jù)的預(yù)匹配處理,然后根據(jù)處理的結(jié)果動(dòng)態(tài)調(diào)整匹配參數(shù),形成新的匹配方式。算法根據(jù)新的匹配方式進(jìn)行下一輪的掃描,符合匹配規(guī)則的短信即匹配成功,不符合規(guī)則的短信作丟棄處理,然后再進(jìn)行下一次掃描,如若多次循環(huán)掃描匹配率都未能達(dá)到一個(gè)最優(yōu)的值,則再次調(diào)節(jié)匹配參數(shù),直到匹配率達(dá)到最優(yōu)。這樣,整個(gè)算法將處于一個(gè)參數(shù)不斷調(diào)整、搜索結(jié)果不斷擴(kuò)大、參數(shù)不斷重置的循環(huán)之中,從而保證匹配結(jié)果的準(zhǔn)確性和有效性。
算法適用范圍在短信內(nèi)容匹配算法中,使用者對(duì)每個(gè)關(guān)鍵詞的重要性的期望值是不一樣的,關(guān)鍵性的詞語(yǔ)希望它能夠在匹配結(jié)果中所占的份量大些,而一些非關(guān)鍵性的詞語(yǔ)希望所占的分量要小些,這樣匹配出來(lái)的結(jié)果含有重要關(guān)鍵詞的機(jī)率就要大些。在另外一些匹配應(yīng)用中,希望匹配的模板能夠動(dòng)態(tài)調(diào)整,以滿(mǎn)足不同的關(guān)鍵詞的不規(guī)則的組合。本模糊匹配算法可以很好的解決以上的各種匹配問(wèn)題,實(shí)現(xiàn)匹配參數(shù)動(dòng)態(tài)變化和匹配規(guī)則動(dòng)態(tài)更新。
有益效果本發(fā)明的有益效果是,利用本發(fā)明公開(kāi)的算法編寫(xiě)程序,不僅執(zhí)行效率滿(mǎn)足對(duì)從省級(jí)運(yùn)營(yíng)商短信中心采集的短信進(jìn)行匹配的要求,而且適用范圍較傳統(tǒng)算法大規(guī)模擴(kuò)大,匹配效果理想。
采用這種模糊匹配算法,算法根據(jù)對(duì)每個(gè)關(guān)鍵詞預(yù)先設(shè)定的參數(shù)匹配,匹配的結(jié)果又作為下次統(tǒng)計(jì)效果不明顯時(shí)參數(shù)調(diào)整的依據(jù)。這樣,整個(gè)算法將處于一個(gè)參數(shù)不斷調(diào)整、搜索結(jié)果不斷擴(kuò)大、參數(shù)重置的循環(huán)之中,保證匹配的結(jié)果的有效性和高準(zhǔn)確性。
圖1線性參數(shù)模糊匹配算法應(yīng)用處理流程具體的實(shí)施方式本發(fā)明的實(shí)施利用該算法,用計(jì)算機(jī)語(yǔ)言編程,實(shí)現(xiàn)對(duì)短信內(nèi)容的搜索、匹配操作。
預(yù)先設(shè)定匹配采用的匹配方式和針對(duì)每種匹配方式所使用的參數(shù)初始設(shè)置,調(diào)用相應(yīng)的匹配函數(shù)進(jìn)行匹配處理。當(dāng)匹配流量過(guò)高或過(guò)低,算法本身根據(jù)匹配的結(jié)果智能調(diào)節(jié)匹配參數(shù)設(shè)置選項(xiàng),以便匹配度更高的短信或者獲取更大范圍內(nèi)的短信內(nèi)容,從而滿(mǎn)足不同的應(yīng)用需要。
線性參數(shù)模糊匹配應(yīng)用匹配過(guò)程按照各個(gè)關(guān)鍵詞設(shè)定的順序進(jìn)行順序匹配,匹配成功一個(gè)關(guān)鍵詞,將匹配結(jié)果加上該關(guān)鍵詞的權(quán)值。依次對(duì)所有的關(guān)鍵詞進(jìn)行如上的處理,將匹配結(jié)果的權(quán)值與閾值做比較。如果匹配結(jié)果的權(quán)值小于設(shè)定的閾值,該匹配認(rèn)為是無(wú)效的匹配結(jié)果;反之,如果匹配結(jié)果的權(quán)值大于設(shè)定的閾值,該匹配認(rèn)為是有效的匹配結(jié)果。算法同時(shí)對(duì)匹配出的結(jié)果進(jìn)行統(tǒng)計(jì),如果一段時(shí)間內(nèi)匹配的出的結(jié)果較少,算法將認(rèn)為預(yù)先設(shè)定的閾值過(guò)高,將按照某個(gè)固定的種子數(shù)減小閾值直到匹配結(jié)果達(dá)到預(yù)計(jì)的量。如果閾值已經(jīng)降到危險(xiǎn)的閾值附近,匹配結(jié)果仍達(dá)不到預(yù)計(jì)的目標(biāo),算法認(rèn)為關(guān)鍵詞權(quán)值需要調(diào)整,將按照有效性參數(shù)下調(diào)權(quán)值大的關(guān)鍵詞的權(quán)值,上調(diào)權(quán)值小的關(guān)鍵詞的權(quán)值,上調(diào)和下調(diào)的策略將由算法根據(jù)已經(jīng)匹配的結(jié)果進(jìn)行統(tǒng)計(jì)分析得到。然后重置匹配結(jié)果閾值,算法將輪回以上的匹配流程。
例如‘東南亞證券公司為你辦理各種證件文憑、發(fā)票、車(chē)牌’,按照線性參數(shù)模糊匹配算法,設(shè)定關(guān)鍵詞‘東南亞、‘辦理‘、‘發(fā)票’,每個(gè)關(guān)鍵詞分別設(shè)定權(quán)值為0.5,0.3,0.2,匹配后的權(quán)值為0.8。如果門(mén)限閾值為0.7該短信被匹配出來(lái);反之,如果門(mén)限閾值為0.9,該短信將丟棄。
線性參數(shù)模板匹配應(yīng)用首先,匹配過(guò)程初始化時(shí)傳遞以關(guān)鍵詞順序出現(xiàn)的匹配模板,一定時(shí)間內(nèi)觀察短信匹配的結(jié)果,根據(jù)有效性參數(shù)調(diào)整模板中的通配符代表的字節(jié)數(shù),使匹配效果得到最佳,例如在短信內(nèi)容為‘那個(gè)法呀輪呀——功就是好’中如果預(yù)先設(shè)定“法*輪,功”為一個(gè)匹配模版,*表示模板通配符標(biāo)識(shí),表示關(guān)鍵詞之間插入了不確定意義的字,當(dāng)一段時(shí)間不能得到匹配結(jié)果時(shí)動(dòng)態(tài)調(diào)整匹配參數(shù)通配符的個(gè)數(shù),當(dāng)字節(jié)數(shù)為2(注一個(gè)漢字字節(jié)數(shù))時(shí),變成“法**輪,功”,在新一輪匹配中此短信匹配成功。
權(quán)利要求
1.短信內(nèi)容的線性參數(shù)模糊匹配算法,其特征在于1)本算法對(duì)大容量和高速的短信內(nèi)容進(jìn)行匹配;2)匹配規(guī)則包括關(guān)鍵詞、關(guān)鍵詞權(quán)值、順序匹配、匹配參數(shù)和有效性參數(shù);3)關(guān)鍵詞權(quán)值表示該關(guān)鍵詞所代表的重要性程度;順序匹配,即匹配過(guò)程按照關(guān)鍵詞的順序從前到后進(jìn)行;匹配參數(shù)表示掃描短信內(nèi)容后計(jì)算出該短信含有的關(guān)鍵詞的權(quán)值之和;有效性參數(shù)表示在一定的時(shí)間段內(nèi),被匹配規(guī)則匹配上的短信條數(shù),或被匹配短信條數(shù)占流入總條數(shù)的百分率;4)匹配結(jié)果與有效性參數(shù)的差別由增量來(lái)體現(xiàn),根據(jù)增量的正負(fù)和大小調(diào)整匹配參數(shù);5)通過(guò)匹配參數(shù)的動(dòng)態(tài)調(diào)整,控制匹配結(jié)果,使匹配結(jié)果落在一個(gè)理想的范圍之內(nèi)。
2.短信內(nèi)容的線性參數(shù)模糊匹配算法,其特征在于1)本算法對(duì)大容量和高速的短信內(nèi)容進(jìn)行匹配;2)匹配規(guī)則包括關(guān)鍵詞、順序匹配、匹配模板和有效性參數(shù);3)順序匹配,即匹配過(guò)程按照關(guān)鍵詞的順序從前到后進(jìn)行;匹配模板由關(guān)鍵詞和代表關(guān)鍵詞之間字節(jié)數(shù)的通配符構(gòu)成;有效性參數(shù)表示在一定的時(shí)間段內(nèi),被匹配規(guī)則匹配上的短信條數(shù),或被匹配短信條數(shù)占流入總條數(shù)的百分率;4)匹配結(jié)果與有效性參數(shù)的差別由增量來(lái)體現(xiàn),根據(jù)增量的正負(fù)和大小調(diào)整匹配參數(shù);5)通過(guò)匹配參數(shù)的動(dòng)態(tài)調(diào)整,控制匹配結(jié)果,使匹配結(jié)果落在一個(gè)理想的范圍之內(nèi)。
全文摘要
短信內(nèi)容的線性參數(shù)模糊匹配算法,每個(gè)關(guān)鍵詞都具有一定的權(quán)值,表示該關(guān)鍵詞所代表的重要性程度。算法掃描短信內(nèi)容后計(jì)算出該短信含有的關(guān)鍵詞的權(quán)值之和,如果該和超過(guò)一個(gè)指定的匹配參數(shù)(閾值),算法就判定該短信是匹配有效的;否則,該短信被認(rèn)為是無(wú)效的,做丟棄處理。同時(shí),算法根據(jù)一段時(shí)間的匹配結(jié)果動(dòng)態(tài)調(diào)整各個(gè)關(guān)鍵詞的權(quán)重和匹配參數(shù)(閾值),以達(dá)到最佳的匹配設(shè)置。不僅可以進(jìn)行精確匹配,還可以進(jìn)行模糊匹配,高速、準(zhǔn)確地對(duì)短信內(nèi)容進(jìn)行搜索。
文檔編號(hào)G06F17/20GK1619538SQ200410061270
公開(kāi)日2005年5月25日 申請(qǐng)日期2004年12月3日 優(yōu)先權(quán)日2004年12月3日
發(fā)明者張勁松, 郝萬(wàn)里, 胡軍 申請(qǐng)人:北京北方烽火科技有限公司