欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用戶行為信息展示方法及系統(tǒng)與流程

文檔序號:11830347閱讀:246來源:國知局
一種用戶行為信息展示方法及系統(tǒng)與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種用戶行為信息展示方法及系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,交互變的越來越重要。在線的交互,已經(jīng)成為日益重要的溝通模式。為了滿足廣大用戶信息交互的需要,各種交互軟件或者溝通軟件應(yīng)運而生。

微信是騰訊公司推出的一個為智能終端提供即時通訊服務(wù)的免費應(yīng)用程序,微信支持跨通信運營商、跨操作系統(tǒng)平臺通過網(wǎng)絡(luò)快速發(fā)送免費(需消耗少量網(wǎng)絡(luò)流量)語音短信、視頻、圖片和文字,同時,也可以使用通過共享流媒體內(nèi)容的資料和基于位置的社交插件等服務(wù)插件。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過“搖一搖”、“搜索號碼”、“附近的人”、掃二維碼方式添加好友和關(guān)注公眾平臺,同時微信將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。

微信作為時下最熱門的社交信息平臺,也是移動端的一大入口,正在演變成為一大商業(yè)交易平臺,其對營銷行業(yè)帶來的顛覆性變化開始顯現(xiàn)。微信商城的開發(fā)也隨之興起,微信商城是基于微信而研發(fā)的一款社會化電子商務(wù)系統(tǒng),消費者只要通過微信平臺,就可以實現(xiàn)商品查詢、選購、體驗、互動、訂購與支付的線上線下一體化服務(wù)模式。

微信公眾賬號是開發(fā)者或商家在微信公眾平臺上申請的應(yīng)用賬號,該帳號與QQ賬號互通,通過公眾賬號,商家可在微信平臺上實現(xiàn)和特定群體的文字、圖片、語音、視頻的全方位溝通、互動。形成了一種主流的線上線下微信互 動營銷方式。用戶可以通過自身設(shè)備與公眾賬號進行互動。

當用戶在瀏覽相關(guān)網(wǎng)頁的時候,實際上用戶很可能希望對該網(wǎng)頁內(nèi)容相關(guān)聯(lián)的其它信息或者內(nèi)容進行深入瀏覽,而現(xiàn)有技術(shù)中通常也會有網(wǎng)頁上一些關(guān)鍵詞高亮顯示等,用以引起用戶注意,從而繼續(xù)進一步的瀏覽。

現(xiàn)有技術(shù)中,這種對于用戶瀏覽網(wǎng)頁內(nèi)容的標識方式僅僅是對熱度較高的詞語進行標注,或者是對有更詳細內(nèi)容的詞語進行標注,并未從用戶的角度出發(fā)。因而,亟需要一種新的可以根據(jù)用戶的興趣愛好進行詞語標注和信息展示的方案,以提高用戶體驗度。



技術(shù)實現(xiàn)要素:

本發(fā)明提供一種用戶行為信息展示方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中無法根據(jù)用戶行為進行信息展示的問題。

本發(fā)明提供一種用戶行為信息展示方法,包括:

提取用戶的特征信息;所述特征信息包括用戶使用應(yīng)用程序的行為信息和用戶自定義信息;

根據(jù)所述特征信息獲取用戶興趣點;

根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;

根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。

所述方法還包括:

根據(jù)所述特征信息將所述用戶分為若干小組;

獲取所述小組中用戶的興趣點;

根據(jù)所述興趣點獲取興趣關(guān)鍵詞;

根據(jù)所述興趣關(guān)鍵詞在小組內(nèi)所有用戶瀏覽頁面上做標引。

所述方法還包括:

根據(jù)所述用戶特征信息,采用聚類分析,將所述用戶分為若干小組;每個所述小組對應(yīng)若干用戶;同一所述用戶能夠?qū)儆谌舾蓚€所述小組。

所述在用戶瀏覽頁面上做標引包括:

在用戶瀏覽頁面上識別所述興趣關(guān)鍵詞;

為所述興趣關(guān)鍵詞設(shè)置鏈接,所述鏈接指向所述興趣關(guān)鍵詞對應(yīng)的頁面。

所述方法還包括:

將所述做標引的興趣關(guān)鍵詞特殊顯示。

所述根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞,包括:

對所述用戶興趣點進行分詞處理,在得到的分詞結(jié)果中取出現(xiàn)概率較大的詞語作為興趣關(guān)鍵詞。

一種用戶行為信息展示系統(tǒng),包括:

特征信息提取單元,用于提取用戶的特征信息;所述特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息;

興趣點獲取單元,用于根據(jù)所述特征信息獲取用戶興趣點;

關(guān)鍵詞獲取單元,用于根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;

標引單元,用于根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。

所述系統(tǒng)還包括分組單元,用于根據(jù)所述特征信息將所述用戶分為若干小組;

所述興趣點獲取單元,獲取所述小組中用戶的興趣點;

所述標引單元,根據(jù)所述興趣關(guān)鍵詞在小組內(nèi)所有用戶瀏覽頁面上做標引。

所述標引單元,還用于:

在用戶瀏覽頁面上識別所述興趣關(guān)鍵詞;

為所述興趣關(guān)鍵詞設(shè)置鏈接,所述鏈接指向所述興趣關(guān)鍵詞對應(yīng)的頁面。

所述關(guān)鍵詞獲取單元,還用于:

對所述用戶興趣點進行分詞處理,在得到的分詞結(jié)果中取出現(xiàn)概率較大的詞語作為興趣關(guān)鍵詞。

本發(fā)明實施例中,通過提取用戶的特征信息;所述特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息;根據(jù)所述特征信息獲取用戶興趣點;根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。本發(fā)明實施例的方案,能夠根據(jù)用戶自身的信息設(shè)定和行為設(shè)定,分析用戶的興趣點,并根據(jù)興趣點為用戶進行后續(xù)瀏覽頁面的展示和標引,極大的提高了用戶體驗度。

本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。

附圖說明

附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:

圖1為本發(fā)明實施例1提供的一種用戶行為信息展示方法原理流程圖;

圖2為本發(fā)明實施例2提供的一種用戶行為信息展示系統(tǒng)結(jié)構(gòu)示意圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應(yīng)當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,為本發(fā)明實施例1提供的一種用戶行為信息展示方法原理流程圖,其中,

步驟11,提取用戶的特征信息,特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息。

用戶特征信息包括用戶行為特征信息和用戶自定義信息等,也就是包括了 用戶自身的信息、用戶使用應(yīng)用的行為信息、用戶自行定義的自定義信息等。首先需要獲取這些信息。通常,獲取用戶信息的方法包括了要求用戶自行上傳、在用戶使用過程中提取特征信息等方式,或者,在用戶使用應(yīng)用的日志信息中,通過文本分析的方法獲取用戶特征信息。

特征提取如果基于用戶行為的日志數(shù)據(jù)進行文本提取的話,就要用到文本特征提取。文本挖掘是一門交叉性學科,涉及數(shù)據(jù)挖掘、機器學習、模式識別、人工智能、統(tǒng)計學、計算機語言學、計算機網(wǎng)絡(luò)技術(shù)、信息學等多個領(lǐng)域。文本挖掘就是從大量的文檔中發(fā)現(xiàn)隱含知識和模式的一種方法和工具,它從數(shù)據(jù)挖掘發(fā)展而來,但與傳統(tǒng)的數(shù)據(jù)挖掘又有許多不同。文本挖掘的對象是海量、異構(gòu)、分布的文檔(web);文檔內(nèi)容是人類所使用的自然語言,缺乏計算機可理解的語義。傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結(jié)構(gòu)化的,而文檔(web)都是半結(jié)構(gòu)或無結(jié)構(gòu)的。所以,文本挖掘面臨的首要問題是如何在計算機中合理地表示文本,使之既要包含足夠的信息以反映文本的特征,又不至于過于復雜使學習算法無法處理。在浩如煙海的網(wǎng)絡(luò)信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB內(nèi)容挖掘的一種重要形式。

文本的表示及其特征項的選取是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數(shù)學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現(xiàn)對文本的識別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對文本向量做進一步凈化處理,在保證原文含 義的基礎(chǔ)上,找出對文本特征類別最具代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。

目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)特征項要能夠確實標識文本內(nèi)容;2)特征項具有將目標文本與其他文本相區(qū)分的能力;3)特征項的個數(shù)不能太多;4)特征項分離要比較容易實現(xiàn)。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現(xiàn)文檔與文檔、文檔與用戶目標之間的相似度計算。如果把所有的詞都作為特征項,那么特征向量的維數(shù)將過于巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。文本特征選擇對文本內(nèi)容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個特征評估函數(shù)計算各個特征的評分值,然后按評分值對這些特征進行排序,選取若干個評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。

特征選取的方式有4種:(I)用映射或變換的方法把原始特征變換為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據(jù)專家的知識挑選最有影響的特征;(4)用數(shù)學的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)的應(yīng)用。

實際上,在提取用戶特征的過程中,需要對用戶信息以及行為信息全面分析,并設(shè)定合理的提取特征數(shù)量和具體內(nèi)容,以更全面的反應(yīng)用戶實際的行為 特征,從而為后續(xù)的分類處理奠定基礎(chǔ)。

步驟12,根據(jù)特征信息獲取用戶興趣點。

具體來說,根據(jù)用戶的特征信息獲取用戶的興趣點,通常需要用到聚類方法?;蛘?,可以將特征信息相近的用戶進行分組。

在提取用戶特征的基礎(chǔ)上,根據(jù)用戶特征之間的聯(lián)系,將用戶分為若干個小組。每個小組對應(yīng)一個或多個用戶特征信息,這樣就將用戶根據(jù)自身的特征信息分配到不同的小組。同一小組對應(yīng)多個用戶,同一用戶根據(jù)自身的特征信息可以對應(yīng)多個小組。

根據(jù)用戶特征將用戶分組的方案,需要用到聚類算法。聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無序的對象進行分組、歸類,以達到更好地理解研究對象的目的。聚類結(jié)果要求組內(nèi)對象相似性較高,組間對象相似性較低。在用戶研究中,很多問題可以借助聚類分析來解決,比如,網(wǎng)站的信息分類問題、網(wǎng)頁的點擊行為關(guān)聯(lián)性問題以及用戶分類問題等等。其中,用戶分類是最常見的情況。

聚類分析計算方法主要有如下幾種:

1、劃分方法(partitioning methods)

給定一個有N個元組或者紀錄的數(shù)據(jù)集,分裂法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1)每一個分組至少包含一個數(shù)據(jù)紀錄;(2)每一個數(shù)據(jù)紀錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

大部分劃分方法是基于距離的。給定要構(gòu)建的分區(qū)數(shù)k,劃分方法首先創(chuàng)建一個初始化劃分。然后,它采用一種迭代的重定位技術(shù),通過把對象從一個 組移動到另一個組來進行劃分。一個好的劃分的一般準備是:同一個簇中的對象盡可能相互接近或相關(guān),而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質(zhì)量的其他準則。傳統(tǒng)的劃分方法可以擴展到子空間聚類,而不是搜索整個數(shù)據(jù)空間。當存在很多屬性并且數(shù)據(jù)稀疏時,這是有用的。為了達到全局最優(yōu),基于劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數(shù)應(yīng)用都采用了流行的啟發(fā)式方法,如k-均值和k-中心算法,漸近的提高聚類質(zhì)量,逼近局部最優(yōu)解。這些啟發(fā)式聚類方法很適合發(fā)現(xiàn)中小規(guī)模的數(shù)據(jù)庫中小規(guī)模的數(shù)據(jù)庫中的球狀簇。為了發(fā)現(xiàn)具有復雜形狀的簇和對超大型數(shù)據(jù)集進行聚類,需要進一步擴展基于劃分的方法。

2、層次方法(hierarchical methods)

這種方法對給定的數(shù)據(jù)集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數(shù)據(jù)紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。

層次聚類方法可以是基于距離的或基于密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在于,一旦一個步驟(合并或分裂)完成,它就不能被撤銷。這個嚴格規(guī)定是有用的,因為不用擔心不同選擇的組合數(shù)目,它將產(chǎn)生較小的計算開銷。然而這種技術(shù)不能更正錯誤的決定。已經(jīng)提出了一些提高層次聚類質(zhì)量的方法。

3、基于密度的方法(density-based methods)

基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的指導思想就是,只要一個區(qū)域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

4、基于網(wǎng)格的方法(grid-based methods)

這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。

很多空間數(shù)據(jù)挖掘問題,使用網(wǎng)格通常都是一種有效的方法。因此,基于網(wǎng)格的方法可以和其他聚類方法集成。

5、基于模型的方法(model-based methods)

基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。

當然聚類方法還有:傳遞閉包法,布爾矩陣法,直接聚類法,相關(guān)性分析聚類,基于統(tǒng)計的聚類方法等。

現(xiàn)有的聚類已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實際應(yīng)用中數(shù)據(jù)的復雜性,在處理許多問題時,現(xiàn)有的算法經(jīng)常失效,特別是對于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因為傳統(tǒng)聚類方法在高維數(shù)據(jù)集中進行聚類時,主要遇到兩個問題。一個是高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;另一個是高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進行聚類的,因此在高維空間中無法基于距離來構(gòu)建簇。

高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數(shù)據(jù)聚類也是聚類技術(shù)的難點。隨著技術(shù)的進步使得數(shù)據(jù)收集變得越來越容易,導致數(shù)據(jù)庫規(guī)模越來越大、復雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達數(shù)據(jù)等,它們的維度(屬性)通??梢赃_到成百上千維,甚至更高。 但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個非?;钴S的領(lǐng)域,同時它也是一個具有挑戰(zhàn)性的工作。高維數(shù)據(jù)聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應(yīng)用。

本實施例中,對于聚類方法沒有具體的限定,只要可以將用戶特征信息根據(jù)必要的條件分類,并根據(jù)分類的結(jié)果對用戶進行分組即可。

步驟13,根據(jù)用戶興趣點獲取興趣關(guān)鍵詞。

完成用戶的分組后,每組用戶都擁有相同或相近的興趣點,小組的興趣點就是該小組中用戶共同的興趣點。獲取了用戶的興趣點,還需要對所述用戶興趣點進行分詞處理,在得到的分詞結(jié)果中取出現(xiàn)概率較大的詞語作為興趣關(guān)鍵詞。

分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵詞串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。

分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統(tǒng)計的分詞方法和基于知識理解的分詞方法。

第一類方法應(yīng)用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文本的分詞處理。第二類基于統(tǒng)計的分詞方法則基于字和詞的統(tǒng)計信息,如把相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞,由于這些信息是通過調(diào)查真實語料而取得的,因而基于統(tǒng)計的分詞方法具有較好的實用性。

1).逐詞遍歷法。

逐詞遍歷法將詞典中的所有詞按由長到短的順序在文章中逐字搜索,直至文章結(jié)束。也就是說,不管文章有多短,詞典有多大,都要將詞典遍歷一遍。這種方法效率比較低,大一點的系統(tǒng)一般都不使用。

2).基于字典、詞庫匹配的分詞方法(機械分詞法)

這種方法按照一定策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。識別出一個詞,根據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長度優(yōu)先匹配的情況,分為最大(最長)匹配和最小(最短)匹配。根據(jù)與詞性標注過程是否相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的方法如下:

(一)最大正向匹配法(Maximum Matching Method)通常簡稱為MM法。其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理……如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。

(二)逆向最大匹配法,通常簡稱為RMM法。RMM法的基本原理與MM法相同,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續(xù)匹配。相應(yīng)地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對逆序文檔用正向最大匹配法處理即可。

由于漢語中偏正結(jié)構(gòu)較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/16.9,單純使用逆向最大匹配的錯誤率為1/245。例如切分字段“碩士研究生產(chǎn)”,正向最大匹配法的結(jié)果會是“碩士研究生/產(chǎn)”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結(jié)果“碩士/研究/生產(chǎn)”。

當然,最大匹配算法是一種基于分詞詞典的機械分詞法,不能根據(jù)文檔上下文的語義特征來切分詞語,對詞典的依賴性較大,所以在實際使用時,難免會造成一些分詞錯誤,為了提高系統(tǒng)分詞的準確度,可以采用正向最大匹配法和逆向最大匹配法相結(jié)合的分詞方案(即雙向匹配法)。

(三)最少切分法:使每一句中切出的詞數(shù)最小。

(四)雙向匹配法:將正向最大匹配法與逆向最大匹配法組合。先根據(jù)標點對文檔進行粗切分,把文檔分解成若干個句子,然后再對這些句子用正向最大匹配法和逆向最大匹配法進行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同,則認為分詞正確,否則,按最小集處理。

3).全切分和基于詞的頻度統(tǒng)計的分詞方法

基于詞的頻度統(tǒng)計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。

全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎(chǔ)上的分詞方法不管采取何種歧義糾正策略,都可能會遺漏正確的切分,造成分詞錯誤或失敗。而建立在全切分基礎(chǔ)上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒有在文本處理中廣泛地采用,原因有以下幾點:

全切分算法只是能獲得正確分詞的前提,因為全切分不具有歧義檢測功能,最終分詞結(jié)果的正確性和完全性依賴于獨立的歧義處理方法,如果評測有誤,也會造成錯誤的結(jié)果。

全切分的切分結(jié)果個數(shù)隨句子長度的增長呈指數(shù)增長,一方面將導致龐大的無用數(shù)據(jù)充斥于存儲數(shù)據(jù)庫;另一方面當句長達到一定長度后,由于切分形式過多,造成分詞效率嚴重下降。

基于詞的頻度統(tǒng)計的分詞方法:

這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現(xiàn)的頻率進行統(tǒng)計,次數(shù)越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統(tǒng)計語言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來。

4).基于知識理解的分詞方法。

該方法主要基于句法、語法分析,并結(jié)合語義分析,通過對上下文內(nèi)容所提供信息的分析對詞進行定界,它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統(tǒng)還處在試驗階段。

5).并行分詞方法。這種分詞方法借助于一個含有分詞詞庫的管道進行,比較匹配過程是分步進行的,每一步可以對進入管道中的詞同時與詞庫中相應(yīng)的詞進行比較,由于同時有多個詞進行比較匹配,因而分詞速度可以大幅度提高。這種方法涉及到多級內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。

分詞的目的在于將用戶興趣點切分成為一個一個的詞語,作為找到其中出現(xiàn)頻率最大的部分詞語作為興趣關(guān)鍵詞。為了避免干擾,還需要去除一些無實際意義的詞語。

步驟14,根據(jù)興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。

獲取了興趣關(guān)鍵詞后,需要在用戶瀏覽頁面上識別所述興趣關(guān)鍵詞;

為所述興趣關(guān)鍵詞設(shè)置鏈接,所述鏈接指向所述興趣關(guān)鍵詞對應(yīng)的頁面。進一步的,還可以將做標引的興趣關(guān)鍵詞特殊顯示。這里的特殊顯示包括高亮顯示、處理成藝術(shù)字等等方式。目的在于引起用戶注意,并且區(qū)分于一般的瀏覽文字,使得用戶可以很容易從中找到可以進一步點擊瀏覽的關(guān)鍵詞和頁面鏈 接。

本發(fā)明實施例中,通過提取用戶的特征信息;所述特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息;根據(jù)所述特征信息獲取用戶興趣點;根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。本發(fā)明實施例的方案,能夠根據(jù)用戶自身的信息設(shè)定和行為設(shè)定,分析用戶的興趣點,并根據(jù)興趣點為用戶進行后續(xù)瀏覽頁面的展示和標引,極大的提高了用戶體驗度。

如圖2所示,為本發(fā)明實施例2提供的一種用戶行為信息展示系統(tǒng)結(jié)構(gòu)示意圖,其中,

特征信息提取單元21,用于提取用戶的特征信息;所述特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息;

興趣點獲取單元22,用于根據(jù)所述特征信息獲取用戶興趣點;

關(guān)鍵詞獲取單元23,用于根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;

標引單元24,用于根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。

進一步的,上述系統(tǒng)還包括分組單元25,用于根據(jù)所述特征信息將所述用戶分為若干小組;

興趣點獲取單元22,獲取所述小組中用戶的興趣點;

所述標引單元24,根據(jù)所述興趣關(guān)鍵詞在小組內(nèi)所有用戶瀏覽頁面上做標引。

進一步的,上述標引單元24,還用于:

在用戶瀏覽頁面上識別所述興趣關(guān)鍵詞;

為所述興趣關(guān)鍵詞設(shè)置鏈接,所述鏈接指向所述興趣關(guān)鍵詞對應(yīng)的頁面。

進一步的,上述關(guān)鍵詞獲取單元23,還用于:

對所述用戶興趣點進行分詞處理,在得到的分詞結(jié)果中取出現(xiàn)概率較大的詞語作為興趣關(guān)鍵詞。

綜上所述,本發(fā)明實施例中,通過提取用戶的特征信息;所述特征信息包括用戶使用所述應(yīng)用的行為信息和用戶自定義信息;根據(jù)所述特征信息獲取用戶興趣點;根據(jù)所述用戶興趣點獲取興趣關(guān)鍵詞;根據(jù)所述興趣關(guān)鍵詞在用戶瀏覽頁面上做標引。本發(fā)明實施例的方案,能夠根據(jù)用戶自身的信息設(shè)定和行為設(shè)定,分析用戶的興趣點,并根據(jù)興趣點為用戶進行后續(xù)瀏覽頁面的展示和標引,極大的提高了用戶體驗度。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個 流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黑水县| 武汉市| 扎赉特旗| 南岸区| 金山区| 手游| 合阳县| 库尔勒市| 大邑县| 乌拉特中旗| 柘城县| 奇台县| 晋宁县| 高尔夫| 龙川县| 报价| 阿荣旗| 新沂市| 蓝山县| 北安市| 十堰市| 会东县| 滕州市| 衡阳县| 陵川县| 石林| 四子王旗| 鄱阳县| 鹿邑县| 衡水市| 吐鲁番市| 霍邱县| 寿宁县| 上栗县| 松阳县| 阿拉善左旗| 论坛| 内丘县| 蒙城县| 南昌市| 永兴县|