本發(fā)明涉及智能控制技術領域,尤其涉及一種用戶偏好的檢索方法及裝置。
背景技術:
計算機科學領域的一個重要分支就是“人工智能”,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
在自然語言處理方面,如何讓計算機識別和理解人類的語言,并且模擬人類思維方式去思考、推理問題,是完成“人工智能”這個人類偉大理想的重要舉措。
從中文的角度而言,本身就具備復雜、表達同一種語義,可以包含多種形式等特點。同樣一個詞在不同的語用、語境下表達的意思是完全不同的。比如“乒乓球拍賣完了”,可以理解為“乒乓球_拍賣完了”、也可以是“乒乓球拍_賣完了”,再比如“xxx行賄中國石油公司”和“中國石油公司行賄xxx”。同樣的內容不同的分割、不同的順序,表達的意思就完全不一樣。所以若想讓計算機識別中文文本,第一步要做的就是告訴計算機在一句話中,哪幾個字是一個詞組。而這就是分詞的過程。而由于中文具有非常強的歧義性,所以準確分詞技術是一項非常復雜和具有挑戰(zhàn)性的工作。
常見的中文歧義類型有:
1、組合歧義:在分詞過程中是最常遇到的,比如:“美國花旗銀行”中的“國花”,“蘇聯想從邊境撤軍”中的“聯想”,“技術和服務”中的“和服”等等非常多。
2、人名歧義:“寧靜”、“楊柳”、“黎明”等等,語境歧義
3、語用歧義:“牦牛肉不好吃”,其中的“好”有兩種意思,a)“味道不好吃”的意思;b)“不容易吃”的意思;
4、語境歧義:兩米二六個頭的姚明。并不是說姚明有“26個腦袋”
5、真歧義:真歧義是最難以區(qū)分的,包括我們人類若沒有上下文語境的判斷和知識積累,也很難正確的分詞。例如“武漢市長江大橋”就可以分為“武漢_市長_江大橋”或者“武漢市_長江大橋”。
6、分詞顆粒問題:“中國人民解放軍”可以是一個詞,也可以是“中國人民解放軍”在不同的應用情景下,分詞顆粒度是完全不同的。分詞顆粒度的不同,造成語義的完全不同。
7、分詞具有領域性:在醫(yī)藥、化工領域的中文表達方式和文字特點與其他領域完全不同,互聯網網友的用詞方式跟其他領域完全不同。
若不能正確的分詞,計算機就無法正確識別中文文本的內容。
當能正確的分詞僅僅是中文語義識別的第一步,必須還要能準確的對詞義進行解析,讓計算機“懂得”詞的意義。
在現有技術中,如果用戶想通過互聯網搜索一些條目時,主要采用簡單的關鍵詞檢索。而關鍵詞識別規(guī)則過于簡單,容易誤判,也即是經常會出現上文中所述的歧義性的理解,不能正確的進行用戶語義識別。因此,最終搜索到的條目可能并非是用戶最終想要獲取的條目。
技術實現要素:
為解決上述技術問題,本發(fā)明提供了一種用戶偏好的檢索方法及裝置。
第一方面,本發(fā)明提供了一種用戶偏好的檢索方法,該方法包括:
獲取日志信息中包含的條文信息,其中日志信息為接收用戶輸入的條文信息后,從后臺生成的信息;
對條文信息進行分詞處理,獲取至少一個詞匯;
將至少一個詞匯中每一個詞匯與預配置的反向詞典中的詞匯進行匹配,其中反向詞典包括與至少一個詞匯的關聯度低于第一預定閾值的詞匯;
當至少一個詞匯中的每一個詞匯與預配置的反向詞典中的詞匯匹配失敗時,將至少一個詞匯中的每一個詞匯與預配置的基礎詞典中的詞匯進行匹配,確定至少一個詞匯與基礎詞典中詞匯的相似度,并從基礎詞典中獲取與一個或者多個詞匯對應的關聯信息;其中,基礎詞典包括至少一個詞匯中的一個或者多個詞匯;
并根據相似度,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
本發(fā)明的有益效果是:實時從后臺生成的日志信息中獲取用戶輸入的搜索條文信息。對條文信息進行上述處理后,確定用戶的偏好。并將用戶偏好推薦給營銷商,以便營銷商能夠針對不同用戶的偏好,生成相應的產品后,在推銷給用戶。
進一步,當至少一個詞匯中任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,舍棄條文信息,停止操作。
采用上述進一步的方案的有益技術效果在于,當至少一個詞匯中的任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,說明該條文并非所要搜索的目的條文,即該條文對于確定用戶偏好沒有幫助,對營銷商而言,沒有太大的意義。因此,舍棄該條文。
進一步,根據相似度,確定用戶偏好,以及與一個或者多個詞匯對應的關聯信息,具體包括:
根據相似度,確定初始匹配分數;
根據初始匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的技術方案的有益技術效果在于,通過分數,可以更加直觀的確定用戶的偏好。
進一步的,根據相似度,確定初始匹配分數之后,方法還包括:
將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,其中正向詞典包括與至少一個詞匯的關聯度高于第一預定閾值的詞匯;
當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照第一預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數;
根據第二匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的技術方案的有益技術效果在于:通過上一步驟,僅僅是獲取了初始分數,而通過將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,如果能夠匹配成功,則可以進一步的確定用戶的偏好。因此,在匹配成功時,在初始匹配分數的基礎上按照第一預定規(guī)則,進行加分處理。最終根據加分后的分數確定用戶的偏好。
進一步的,當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數之后,方法還包括:
確定用戶搜索條文信息時使用的域名;
當用戶搜索條文信息時使用的域名屬于預設域名時,按照第二預設規(guī)則,在第二匹配分數的基礎上進行加分,獲取第三匹配分數;
根據獲取的第三匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的方案的有益技術效果在于,同上面的進一步的步驟類似的,通過確定用戶搜索條文信息時使用的域名,同樣可以幫助理解用戶的偏好。例如用戶搜索音樂名稱時,如果是從酷我搜索,說明用戶想要聽取這首歌曲。而當用戶從百度搜索時,則是希望了解歌曲名稱或者其他相關信息。并非想聽音樂。
第二方面,本發(fā)明提供了一種用戶偏好的檢索裝置,該裝置包括:
獲取單元,用于獲取日志信息中包含的條文信息,其中日志信息為接收用戶輸入的條文信息后,從后臺生成的信息;
分詞單元,用于對條文信息進行分詞處理,獲取至少一個詞匯;
匹配單元,用于將至少一個詞匯中每一個詞匯與預配置的反向詞典中的詞匯進行匹配,其中反向詞典包括與至少一個詞匯的關聯度低于第一預定閾值的詞匯;
當至少一個詞匯中的每一個詞匯與預配置的反向詞典中的詞匯匹配失敗時,將至少一個詞匯中的每一個詞匯與預配置的基礎詞典中的詞匯進行匹配;
處理單元,用于確定至少一個詞匯與基礎詞典中詞匯的相似度,并從基礎詞典中獲取與一個或者多個詞匯對應的關聯信息;其中,基礎詞典包括至少一個詞匯中的一個或者多個詞匯;
根據相似度,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
本發(fā)明的有益效果是:實時從后臺生成的日志信息中獲取用戶輸入的搜索條文信息。對條文信息進行上述處理后,確定用戶的偏好。并將用戶偏好推薦給營銷商,以便營銷商能夠針對不同用戶的偏好,生成相應的產品后,在推銷給用戶。
進一步,處理單元還用于,當至少一個詞匯中任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,舍棄條文信息,停止操作。
采用上述進一步的方案的有益技術效果在于,當至少一個詞匯中的任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,說明該條文并非所要搜索的目的條文,即該條文對于確定用戶偏好沒有幫助,對營銷商而言,沒有太大的意義。因此,舍棄該條文。
進一步,處理單元具體用于,
根據相似度,確定初始匹配分數;
根據初始匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的技術方案的有益技術效果在于,通過分數,可以更加直觀的確定用戶的偏好。
進一步的,匹配單元還用于,將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,其中正向詞典包括與至少一個詞匯的關聯度高于第一預定閾值的詞匯;
處理單元還用于,當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照第一預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數;
根據第二匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的技術方案的有益技術效果在于:通過上一步驟,僅僅是獲取了初始分數,而通過將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,如果能夠匹配成功,則可以進一步的確定用戶的偏好。因此,在匹配成功時,在初始匹配分數的基礎上按照第一預定規(guī)則,進行加分處理。最終根據加分后的分數確定用戶的偏好。
進一步的,處理單元還用于,確定用戶搜索條文信息時使用的域名;當用戶搜索條文信息時使用的域名屬于預設域名時,按照第二預設規(guī)則,在第二匹配分數的基礎上進行加分,獲取第三匹配分數;
根據獲取的第三匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
采用上述進一步的技術方案的有益技術效果在于:同上面的進一步的步驟類似的,通過確定用戶搜索條文信息時使用的域名,同樣可以幫助理解用戶的偏好。例如用戶搜索音樂名稱時,如果是從酷我搜索,說明用戶想要聽取這首歌曲。而當用戶從百度搜索時,則是希望了解歌曲名稱或者其他相關信息。并非想聽音樂。
附圖說明
圖1為本發(fā)明實施例提供的一種用戶偏好的檢索方法流程示意圖;
圖2為本發(fā)明實施例提供的一種用戶偏好的檢索裝置原理示意圖。
具體實施方式
以下描述中,為了說明而不是為了限定,提出了諸如特定方法結構、接口、技術之類的具體細節(jié),以便透切理解本發(fā)明。然而,本領域的技術人員應當清楚,在沒有這些具體細節(jié)的其它實施例中也可以實現本發(fā)明。在其它情況中,省略對眾所周知的方法、電路以及方法的詳細說明,以免不必要的細節(jié)妨礙本發(fā)明的描述。
圖1為本發(fā)明實施例提供的一種用戶偏好的檢索方法流程圖。如圖1所示,本實施例包括以下步驟:
步驟110,獲取日志信息中包含的條文信息。
具體的,條文信息是用戶通過應用軟件(例如百度)輸入的信息,主要用于搜索與條文信息對應的內容。而在用戶通過應用軟件輸入信息時,系統(tǒng)會自動在后臺生成日志信息。而本發(fā)明所涉及的方案則是從后臺產生的日志信息中,獲取到條文信息。
步驟120,對條文信息進行分詞處理,獲取至少一個詞匯。
具體的,在本發(fā)明中主要使用了開源的分詞工具ikanalyzer對條文信息進行分詞處理,獲取至少一個詞匯。
步驟130,將至少一個詞匯中每一個詞匯與預配置的反向詞典中的詞匯進行匹配。
具體的,反向詞典包括與至少一個詞匯的關聯度低于第一預定閾值的詞匯。例如,利用分詞工具將條文信息分成了兩個詞匯,那么詞典中包括的詞匯均是與這兩個詞匯中每一個詞匯的關聯度都低于第一預定閾值的詞匯。將至少一個詞匯和反向詞典中的詞匯進行匹配,主要是為了確定目標條文。去除哪些沒有利用價值的條文,為后續(xù)工作減輕工作量。例如,我們所想要得到的條文是音樂領域的條文,獲取的是與音樂有關的歌名、原唱、專輯、編曲作家,以及相應樂器等等。而反向詞典中所包括的是:翻唱、搞怪版、卡碟、卡帶、斷裂、壞了等等不太相關的詞匯。
步驟140,當至少一個詞匯中的每一個詞匯與預配置的反向詞典中的詞匯匹配失敗時,將至少一個詞匯中的每一個詞匯與預配置的基礎詞典中的詞匯進行匹配,確定至少一個詞匯與基礎詞典中詞匯的相似度。
具體的,當至少一個詞匯中的每一個詞匯與預配置的反向詞典中的詞匯匹配失敗時,說明該條文經初步篩選后,可以粗略的認為是目標條文。將至少一個詞匯與預配置的基礎詞典中詞匯進行匹配。由此來確定至少一個詞匯與基礎詞典中詞匯的相似度。其中,基礎詞典中包括至少一個詞匯中的一個或者多個詞匯。在實際應用中,匹配引擎可以使用以lucene為應用主體,結合反向詞典,基礎詞典等,以及文法分析算法的ikanalyzer3的核心api來實現匹配功能。在具體的匹配過程中,可以首先采用循環(huán)匹配的方式,也即是,將拆分好的詞匯,從左至右,依次和反向詞典(或者基礎詞典)中的詞匯進行匹配。然后,在采用循環(huán)疊加匹配的方式,也即是至少兩個詞匯的組合,和反向詞典(或者基礎詞典)中的詞匯進行匹配,最終,再采用整體匹配的方式(可選的),和反向詞典(或者基礎詞典)中的詞匯進行匹配。語義評估器通過和ikanalyzer3的核心api結合采用固定算法確定至少一個詞匯與基礎詞典中詞匯的相似度。
進一步的,在將至少一個詞匯與基礎詞典中的詞匯進行匹配過程中,還包括步驟150,從基礎詞典中獲取與一個或者多個詞匯對應的關聯信息。
具體的,同樣以在音樂領域為例,條文信息中拆分出來的詞匯為“劍心”,“張杰”。在基礎詞匯中與“劍心”,“張杰”等相關聯的詞匯包括:名稱:劍心,原唱:張杰,專輯:古劍奇譚,填詞:段思思,譜曲:譚旋,編曲:王文穎,語言:國語,演奏:亞洲愛樂團交響樂團等關聯信息。
步驟160,根據相似度,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
具體的,根據至少一個詞匯在基礎詞典中的詞匯的相似度,以及與一個或者多個詞匯對應的關聯信息,可以大致清楚用戶所有搜索的相關內容。從這些內容中確定用戶的偏好。例如步驟150中的,通過至少一個詞匯和與至少一個詞匯中一個或者多個詞匯對應的關聯信息,可以確定用戶所有搜索的是與張杰演唱的歌曲“劍心”相關的材料。那么,用戶很可能所喜歡的是張杰這個歌手,或者,喜歡的是張杰演唱的劍心這首歌曲?;蛘?,喜歡歌曲中詞曲等等。
眾所周知,數字能夠更加直觀的體現一種現象。因此,在確定用戶的偏好時,還可以采用分數形式體現。
優(yōu)選的,可以根據至少一個詞匯與基礎詞典中的詞匯的相似度,確定初始匹配分數。并根據初始匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶的偏好。
進一步優(yōu)選的,根據相似度,確定初始匹配分數之后,方法還包括:將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,其中正向詞典包括與至少一個詞匯的關聯度高于第一預定閾值的詞匯。當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照第一預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數;根據第二匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。這里的正向詞典,讀者可以理解為起到輔助作用的詞典。也即是起到了更好確定用戶偏好作用的詞典。同樣,以音樂領域為例,該正向詞典中所包括的詞匯,例如:下載、鈴聲、多少錢、價格、報價、專輯、演唱會等等。當然匹配的方式,同與反向詞典或者基礎詞典中匹配的方式類似,這里不再贅述。而當至少一個詞匯中的一個或者多個詞匯和正向詞典中的詞匯相匹配時,說明用戶可能更傾向于搜索與某一歌曲或者專輯相關的內容,方便推銷商根據用戶偏好,推銷相關的產品。所以,可以作為一個加分動作。具體加分機制,也即是第一預設規(guī)則,可以人為根據需要設定。
進一步的,除了上述的和各類詞典相匹配之外,還可以包括確定用戶在輸入條文信息時使用的域名。也即是,當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數之后,方法還包括:確定用戶搜索條文信息時使用的域名;當用戶搜索條文信息時使用的域名屬于預設域名時,按照第二預設規(guī)則,在第二匹配分數的基礎上進行加分,獲取第三匹配分數;根據獲取的第三匹配分數,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
這里,同樣以音樂為例進行說明,如果用戶使用的域名是酷我音樂對應的域名或者蝦米音樂對應的域名,那么,很明顯用戶感興趣的是某一首音樂。而并非是其他無關緊要的內容,那么對于確定用戶的偏好而言,具有很大的幫助。所以,可以作為一個加分動作,具體的加分機制同樣根據實際需要人為設定。
當然,確定域名的過程,以及與正向詞典中詞匯匹配的過程都是可選的,沒有先后順序,也并不是只有一個執(zhí)行完成后才能執(zhí)行后一個。而是二者中可以至執(zhí)行一個,或者執(zhí)行兩個。本發(fā)明中并不做任何限定。完全根據需求人員的需求設定。
還需要說明的是,在步驟140中,當至少一個詞匯中任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,舍棄條文信息,停止操作。也即是說,該條文并非所需要的目標條文。因此,將不再做后續(xù)處理。
設定相應的評分機制,可以更好的確定用戶的偏好。將用戶的偏好推薦給營銷人員后,營銷人員可以根據不同用戶的需求,設定與用戶對應的營銷方案,進而促進營銷。而在本實施例中,主要是以音樂領域為例進行說明的,但是并不限于音樂領域。還可以是其他領域,例如小說、電影等等。而預設的反向詞典、正向詞典以及基礎詞典等也并不是唯一的,而是針對不同的領域預先設置的。而且,詞典中的詞匯也會根據需要實時進行更新。
本發(fā)明實施例提供的一種用戶偏好的檢索方法,實時從后臺生成的日志信息中獲取用戶輸入的搜索條文信息。對條文信息進行上述處理后,確定用戶的偏好。并將用戶偏好推薦給營銷商,以便營銷商能夠針對不同用戶的偏好,生成相應的產品后,在推銷給用戶。從而盡量的營銷商帶來更多的收益。
相應地,本發(fā)明實施例還提供了一種用戶偏好的檢索裝置原理示意圖。如圖2所示,該裝置包括:獲取單元201、分詞單元202、匹配單元203和處理單元204。
獲取單元201,用于獲取日志信息中包含的條文信息,其中日志信息為接收用戶輸入的條文信息后,從后臺生成的信息;
分詞單元202,用于對條文信息進行分詞處理,獲取至少一個詞匯;
匹配單元203,用于將至少一個詞匯中每一個詞匯與預配置的反向詞典中的詞匯進行匹配,其中反向詞典包括與至少一個詞匯的關聯度低于第一預定閾值的詞匯;
當至少一個詞匯中的每一個詞匯與預配置的反向詞典中的詞匯匹配失敗時,將至少一個詞匯中的每一個詞匯與預配置的基礎詞典中的詞匯進行匹配;
處理單元204,用于確定至少一個詞匯與基礎詞典中詞匯的相似度,并從基礎詞典中獲取與一個或者多個詞匯對應的關聯信息;其中,基礎詞典包括至少一個詞匯中的一個或者多個詞匯;
根據相似度,以及與一個或者多個詞匯對應的關聯信息,確定用戶偏好。
優(yōu)選的,處理單元204還用于,當至少一個詞匯中任一個詞匯與預配置的反向詞典中的詞匯匹配成功時,舍棄條文信息,停止操作。
而處理單元204根據相似度,確定用戶偏好,以及與一個或者多個詞匯對應的關聯信息,具體包括:根據相似度,確定初始匹配分數;根據初始匹配分數,確定用戶偏好。
而在獲取初始匹配分數之后,為了能夠更精確的確定用戶的偏好。匹配單元203還可以用于,將至少一個詞匯中的每一個詞匯與預配置的正向詞典中的詞匯進行匹配,其中正向詞典包括與至少一個詞匯的關聯度高于第一預定閾值的詞匯;
處理單元204還用于,當至少一個詞匯中的一個或者多個詞匯與預配置的正向詞典中的詞匯匹配成功時,按照第一預設規(guī)則,在初始匹配分數的基礎上進行加分,獲取第二匹配分數;根據第二匹配分數,確定用戶偏好。
進一步的,處理單元204還用于,確定用戶搜索條文信息時使用的域名;當用戶搜索條文信息時使用的域名屬于預設域名時,按照第二預設規(guī)則,在第二匹配分數的基礎上進行加分,獲取第三匹配分數;根據獲取的第三匹配分數,確定用戶偏好。
該裝置中的各部件所執(zhí)行的功能已經在上述實施例一種用戶偏好的檢索方法中做了詳細的介紹,這里不再贅述。
本發(fā)明實施例提供的一種用戶偏好的檢索裝置,實時從后臺生成的日志信息中獲取用戶輸入的搜索條文信息。對條文信息進行上述處理后,確定用戶的偏好。并將用戶偏好推薦給營銷商,以便營銷商能夠針對不同用戶的偏好,生成相應的產品后,在推銷給用戶。從而盡量的營銷商帶來更多的收益。
讀者應理解,在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。
盡管上面已經示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。