本發(fā)明一種智能網(wǎng)站系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展,為了能夠適應(yīng)開(kāi)放動(dòng)態(tài)的網(wǎng)絡(luò)環(huán)境,融合異構(gòu)的硬件資源以及滿足不斷變化的用戶需求,要求網(wǎng)站系統(tǒng)能夠在運(yùn)行時(shí)自主地感知自身和環(huán)境的變化,并隨著這種變化按照功能指標(biāo)和性能指標(biāo)進(jìn)行動(dòng)態(tài)調(diào)整和演化,從而提供高質(zhì)量、可持續(xù)的服務(wù),進(jìn)而滿足用戶的需求。具備這種能力的網(wǎng)站也叫智能網(wǎng)站,一個(gè)自適應(yīng)周期包括感知、決策和執(zhí)行環(huán)節(jié),三個(gè)環(huán)節(jié)分別要求實(shí)現(xiàn)情境空間與目標(biāo)系統(tǒng)的數(shù)據(jù)融合,智能的決策以及系統(tǒng)在線動(dòng)態(tài)演化。
同時(shí),網(wǎng)站個(gè)性化信息服務(wù)也正在由基于用戶當(dāng)前瀏覽頁(yè)面的信息推薦服務(wù)方式向基于信息結(jié)構(gòu)自適應(yīng)調(diào)整的敏捷服務(wù)方式發(fā)展。太原理工大學(xué)計(jì)算機(jī)與軟件學(xué)院的余雪麗教授在其全國(guó)教育科學(xué)“十五”規(guī)劃國(guó)家重點(diǎn)課題《信息化進(jìn)程中的教育技術(shù)發(fā)展研究》子課題研究報(bào)告(基于XML和學(xué)習(xí)對(duì)象技術(shù)的e-Learning系統(tǒng)平臺(tái)研究)中,研究了個(gè)性化智能e-learning系統(tǒng)平臺(tái)及其構(gòu)建理論、方法和技術(shù),并且提出了從需求到軟件體系結(jié)構(gòu)的映射的模型,丁博、王懷民等人在“構(gòu)造具備自適應(yīng)能力的軟件”一文中提出,軟件自適應(yīng)的實(shí)現(xiàn)技術(shù)跨越了軟件監(jiān)控、上下文敏感計(jì)算、決策和控制理論、軟件演化和維護(hù)等多個(gè)學(xué)科分支,從自適應(yīng)軟件構(gòu)造與實(shí)現(xiàn)這一角度出發(fā),以“感知-決策-執(zhí)行”軟件自適應(yīng)基本周期為主線,對(duì)已有的研究和實(shí)踐進(jìn)行綜述,給出軟件自適應(yīng)的概念內(nèi)涵,概述軟件自適應(yīng)活動(dòng)在感知、決策、執(zhí)行各環(huán)節(jié)上的特征分類(lèi),闡述面向自適應(yīng)軟件構(gòu)造、關(guān)注程度較高的一系列使能技術(shù),給出自適應(yīng)軟件構(gòu)造領(lǐng)域的未來(lái)主要研究趨勢(shì)。
近來(lái),人們?cè)絹?lái)越認(rèn)識(shí)到在整個(gè)軟件開(kāi)發(fā)生命周期內(nèi)需求的變化是不可避免的。正是這種認(rèn)識(shí)導(dǎo)致了開(kāi)始對(duì)動(dòng)態(tài)軟件體系結(jié)構(gòu)(Dynamic Software Architecture)、軟件開(kāi)發(fā)框架(Software Development Frameworks)及自適應(yīng)軟件(Self-adapting Software)等領(lǐng)域的研究。
一般的自適應(yīng)軟件(或動(dòng)態(tài)體系結(jié)構(gòu)網(wǎng)站)采用了一種映射機(jī)制,也就是解決需求分析到體系結(jié)構(gòu)的映射問(wèn)題。一個(gè)系統(tǒng)除了從需求方面描述外,還要從它的靜態(tài)結(jié)構(gòu)、動(dòng)態(tài)行為以及實(shí)現(xiàn)上來(lái)描述。需求模型、結(jié)構(gòu)模型、行為模型和實(shí)現(xiàn)模型就構(gòu)成了系統(tǒng)的不同視圖,從不同的視圖觀察系統(tǒng)可得到不同的結(jié)論。因此,動(dòng)態(tài)軟件體系結(jié)構(gòu)也可由一組彼此內(nèi)在聯(lián)系的視圖來(lái)表示,每一個(gè)視圖反映軟件體系結(jié)構(gòu)的某個(gè)方面。四個(gè)模型并不是孤立的,而是相互依賴(lài)、相互約束的。在描述系統(tǒng)軟件體系結(jié)構(gòu)中尤其如此。只有分析清楚各個(gè)模型間映射關(guān)系,才能使得開(kāi)發(fā)人員準(zhǔn)確、一致地理解體系結(jié)構(gòu),從而有利于系統(tǒng)的開(kāi)發(fā)。
但是由于該映射機(jī)制過(guò)于復(fù)雜,而且比較適合大型軟件體系結(jié)構(gòu)的描述,是一項(xiàng)龐大的系統(tǒng)工程,需要遵循大型、軟件密集型復(fù)雜系統(tǒng)的開(kāi)發(fā)原則進(jìn)行。對(duì)于一般的動(dòng)態(tài)結(jié)構(gòu)的網(wǎng)站顯得不太適合。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種更輕型的更實(shí)用的智能網(wǎng)站系統(tǒng)
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種智能網(wǎng)站系統(tǒng),包括瀏覽器及與瀏覽器進(jìn)行信息交互的Web服務(wù)器,其特征在于,還包括:
Web用戶信息挖掘單元,用于從Web服務(wù)器日志文檔中挖掘用戶興趣模型,保存到數(shù)據(jù)庫(kù)服務(wù)器;
Web結(jié)構(gòu)控制器,用于讀取用戶興趣模型數(shù)據(jù),依據(jù)用戶興趣模型數(shù)據(jù)調(diào)增網(wǎng)站信息結(jié)構(gòu)中的內(nèi)容結(jié)構(gòu)后動(dòng)態(tài)合成頁(yè)面,用戶通過(guò)瀏覽器訪問(wèn)Web服務(wù)器后獲取頁(yè)面;
網(wǎng)站頁(yè)面分為欄目頁(yè)、主題頁(yè)和文檔頁(yè)三種類(lèi)型,欄目頁(yè)由鏈接著下級(jí)欄目頁(yè)和主題頁(yè)的導(dǎo)航條區(qū)和直接鏈接文檔頁(yè)的鏈接區(qū)組成,主題頁(yè)沒(méi)有下級(jí)欄目頁(yè),只有直接鏈接文檔的鏈接區(qū),文檔頁(yè)主要顯示原始信息,則動(dòng)態(tài)合成頁(yè)面包括以下步驟:
步驟1、應(yīng)用服務(wù)器的導(dǎo)航條區(qū)生成器從網(wǎng)站形式結(jié)構(gòu)庫(kù)中取出其下級(jí)欄目數(shù)據(jù),生成欄目頁(yè)的導(dǎo)航條區(qū);
步驟2、鏈接區(qū)生成器依據(jù)用戶興趣模型數(shù)據(jù)確定欄目頁(yè)下屬各欄目在鏈接區(qū)中顯示區(qū)域的大小和位置,然后使用數(shù)據(jù)過(guò)濾器依據(jù)用戶興趣模型數(shù)據(jù)所反映的用戶興趣度順序篩選的信息,在各子欄目相應(yīng)的區(qū)域內(nèi)組織指向原始文檔的鏈接;
當(dāng)用戶申請(qǐng)主題頁(yè)時(shí),鏈接區(qū)生成器使用數(shù)據(jù)過(guò)濾器依據(jù)用戶興趣度順序優(yōu)先篩選的信息,在頁(yè)面上組織指向原始文檔的鏈接,連續(xù)使用前后鏈接著的多個(gè)頁(yè)面連續(xù)組織鏈接。
優(yōu)選地,所述用戶興趣模型通過(guò)以下方法生成:
統(tǒng)計(jì)用戶瀏覽歷史的每一個(gè)特征詞的詞頻,并結(jié)合該特征詞出現(xiàn)的位置和瀏覽的時(shí)間長(zhǎng)短、時(shí)間先后的新近度,對(duì)每一個(gè)特征詞賦予一個(gè)興趣權(quán)值,表示用戶行為中對(duì)該特征詞的興趣程度,得到該用戶興趣模型。
優(yōu)選地,所述網(wǎng)站信息結(jié)構(gòu)包括形式結(jié)構(gòu)Sf以及內(nèi)容結(jié)構(gòu)Sct,其中:
所述形式結(jié)構(gòu)Sf是該網(wǎng)站內(nèi)容的分類(lèi)體系結(jié)構(gòu)Scl在網(wǎng)站上的一個(gè)映射G(Scl),Sf=G(Scl);
所述內(nèi)容結(jié)構(gòu)Sct是當(dāng)前用戶的興趣偏好P(t)在網(wǎng)站的一個(gè)映射,Sct=F(P(t)),F(xiàn)為基于用戶偏好的網(wǎng)站結(jié)構(gòu)調(diào)整機(jī)制;
網(wǎng)站t時(shí)刻的信息結(jié)構(gòu)為St,St=H(F(P(t)),G(Scl)),H為網(wǎng)站的自適應(yīng)信息結(jié)構(gòu)模式。
本發(fā)明吸收已有的信息推薦等技術(shù),互相結(jié)合、互為補(bǔ)充,便于用戶拓展興趣空間。
附圖說(shuō)明
圖1為智能網(wǎng)站的結(jié)構(gòu)模型;
圖2為網(wǎng)站內(nèi)容分類(lèi)體系;
圖3為智能網(wǎng)站的概念模型;
圖4為虛擬網(wǎng)站結(jié)構(gòu);
圖5為網(wǎng)站結(jié)構(gòu)合理性示意圖。
具體實(shí)施方式
為使本發(fā)明更明顯易懂,茲以?xún)?yōu)選實(shí)施例,并配合附圖作詳細(xì)說(shuō)明如下。
本發(fā)明提供的一種智能網(wǎng)站系統(tǒng)基于如下定義:
【定義1】:網(wǎng)站的信息結(jié)構(gòu),是網(wǎng)站依托網(wǎng)頁(yè)鏈接結(jié)構(gòu)而進(jìn)行信息展示的信息元間的位置關(guān)系。
據(jù)此定義,信息結(jié)構(gòu)可分解為兩層,一層是信息展示所依托的網(wǎng)頁(yè)鏈接結(jié)構(gòu),稱(chēng)之為形式結(jié)構(gòu)。另一層是網(wǎng)頁(yè)鏈接結(jié)構(gòu)中不同結(jié)點(diǎn)位置上的不同信息元組成的信息關(guān)系,稱(chēng)之為內(nèi)容結(jié)構(gòu)。
【定義2】:垂直網(wǎng)站的形式結(jié)構(gòu)Sf是該網(wǎng)站內(nèi)容的分類(lèi)體系結(jié)構(gòu)Scl在網(wǎng)站上的一個(gè)映射G(Scl)。
Sf=G(Scl)
【定義3】:垂直網(wǎng)站的內(nèi)容結(jié)構(gòu)Sct是當(dāng)前用戶(群)的興趣偏好P(t)在網(wǎng)站的一個(gè)映射。
Sct=F(P(t))
其中,F(xiàn):基于用戶偏好的網(wǎng)站結(jié)構(gòu)調(diào)整機(jī)制,P(t)即為t時(shí)刻上的興趣快照。
【定義4】:設(shè)用戶興趣為P(t),垂直網(wǎng)站的內(nèi)容的分類(lèi)體系結(jié)構(gòu)為Scl,則垂直網(wǎng)站t時(shí)刻的信息結(jié)構(gòu)St為:
St=H(F(P(t)),G(Scl))
上式表示,垂直網(wǎng)站的信息結(jié)構(gòu)是由分類(lèi)體系決定的(靜態(tài)的)形式結(jié)構(gòu)和適應(yīng)用戶興趣變化而動(dòng)態(tài)調(diào)整的(動(dòng)態(tài)的)內(nèi)容結(jié)構(gòu)所構(gòu)成的。我們把這種結(jié)構(gòu)構(gòu)成機(jī)制H,叫做垂直網(wǎng)站的自適應(yīng)信息結(jié)構(gòu)模式。
【定義5】:網(wǎng)站上網(wǎng)頁(yè)間的距離:
1、兩直接相連的網(wǎng)頁(yè)間的距離為2。間接相連的網(wǎng)頁(yè)間的距離為相連路徑上的網(wǎng)頁(yè)數(shù)之和。
2、網(wǎng)頁(yè)到自身的距離為1。
3、網(wǎng)頁(yè)到主頁(yè)的最短距離為該網(wǎng)頁(yè)的中心距離。
【定義6】:網(wǎng)站信息的顯現(xiàn)度是該信息“易被瀏覽到的程度”。網(wǎng)站信息的顯現(xiàn)度由信息所在頁(yè)的中心距離和信息在頁(yè)內(nèi)所處的位置、顯示方式確定。
信息的顯現(xiàn)度與該網(wǎng)頁(yè)中心距離成反比例關(guān)系。
【定義7】:興趣度是用戶對(duì)信息感興趣的程度。
用戶興趣就是垂直網(wǎng)站特征空間或主題空間的一個(gè)向量。該向量在主題空間各維(軸)上的分量,即為用戶對(duì)該主題的興趣度。用戶對(duì)某欄目或子欄目的興趣度為該欄目或子欄目下屬各主題興趣度之和。
本發(fā)明中基于用戶行為分析的智能網(wǎng)站信息結(jié)構(gòu)調(diào)整模型如圖1所示。在該模型中:
1)Web用戶信息挖掘單元。從Web服務(wù)器日志文檔中挖掘用戶模式,保存到數(shù)據(jù)庫(kù)服務(wù)器。
2)Web結(jié)構(gòu)控制器。讀取用戶興趣模型數(shù)據(jù)、構(gòu)建與之相適應(yīng)的網(wǎng)站信息結(jié)構(gòu)控制信息、并根據(jù)此控制信息刷新網(wǎng)站,實(shí)現(xiàn)結(jié)構(gòu)調(diào)整。
我們統(tǒng)計(jì)用戶瀏覽歷史的每一個(gè)特征詞的詞頻,并結(jié)合該特征詞出現(xiàn)的位置和瀏覽的時(shí)間長(zhǎng)短、時(shí)間先后的新近度,對(duì)每一個(gè)特征詞賦予一個(gè)興趣權(quán)值Wi,表示用戶行為中對(duì)該特征詞的興趣程度,得到該用戶興趣描述模型:
P(w1,w2,w3,…,wn)
對(duì)于網(wǎng)站內(nèi)容(信息元、欄目等)也使用相同空間上的向量表示,便于將用戶的興趣和網(wǎng)站的內(nèi)容進(jìn)行比較運(yùn)算。垂直網(wǎng)站上,除了定義特征空間,還可以定義主題空間。
在本發(fā)明中,垂直網(wǎng)站內(nèi)容的粒度與主題分別定義如下:
1)垂直網(wǎng)站內(nèi)容的粒度:垂直網(wǎng)站根據(jù)信息聚集的程度大小分為欄目和多級(jí)子欄目。欄目級(jí)次越低的子欄目,欄目主題范圍越窄,粒度越小。網(wǎng)站內(nèi)容的分類(lèi)體系如圖2。
2)垂直網(wǎng)站的主題:定義不再設(shè)置下級(jí)類(lèi)目的子類(lèi)(葉子類(lèi))為垂直網(wǎng)站的主題。主題可包含多篇文檔,文檔是網(wǎng)站內(nèi)容粒度最小的單位。
在本發(fā)明中,智能網(wǎng)站的信息結(jié)構(gòu)動(dòng)態(tài)調(diào)整的概念模型包含如下內(nèi)容:
智能網(wǎng)站的信息結(jié)構(gòu)的調(diào)整對(duì)象是信息內(nèi)容結(jié)構(gòu)。智能網(wǎng)站信息結(jié)構(gòu)調(diào)整的目標(biāo)是根據(jù)用戶的興趣,在虛擬網(wǎng)站不同層次的頁(yè)面中合理安排鏈接信息,以最大限度地適應(yīng)用戶的興趣偏好。
1.1智能網(wǎng)站的信息結(jié)構(gòu)動(dòng)態(tài)調(diào)整的概念模型
網(wǎng)站所要展示的全部信息,以文件系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)的存儲(chǔ)形式保存在服務(wù)器。其中元數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)包括原始文檔的標(biāo)題、作者、URL、文檔類(lèi)型、所屬主題(分類(lèi)體系中的主題),產(chǎn)生、修改時(shí)間等等,智能網(wǎng)站的概念模型如圖3。
網(wǎng)站形式結(jié)構(gòu)是網(wǎng)站結(jié)構(gòu)的基本框架,不作為自動(dòng)調(diào)整對(duì)象。保存在形式結(jié)構(gòu)庫(kù)中,數(shù)據(jù)字段主要有:欄目(主題)名稱(chēng),上級(jí)欄目、頁(yè)面生成程序名等等。
[XML描述]
每個(gè)用戶的興趣偏好數(shù)據(jù)保存在用戶興趣模型庫(kù)。該庫(kù)的數(shù)據(jù)字段包括:用戶標(biāo)識(shí)、興趣向量、IP地址等。
1.2智能網(wǎng)站信息結(jié)構(gòu)調(diào)整機(jī)制
1)虛擬網(wǎng)站結(jié)構(gòu)與頁(yè)面類(lèi)型
動(dòng)態(tài)生成的虛擬網(wǎng)站結(jié)構(gòu)如圖4所示。網(wǎng)站頁(yè)面分為欄目頁(yè)(或子欄目頁(yè))、主題頁(yè)和文檔頁(yè)三種類(lèi)型。
2)各類(lèi)型頁(yè)面的框架結(jié)構(gòu)
欄目頁(yè)由鏈接著下級(jí)欄目頁(yè)和主題頁(yè)的“導(dǎo)航條區(qū)”和直接鏈接文檔頁(yè)的“鏈接區(qū)”組成。有時(shí)候在頁(yè)面較大(較長(zhǎng))時(shí),鏈接區(qū)中插入導(dǎo)航點(diǎn),作為方便導(dǎo)航的一種補(bǔ)充。
主題頁(yè)由于沒(méi)有下級(jí)欄目頁(yè),只有直接鏈接文檔的“鏈接區(qū)”。
文檔頁(yè)主要顯示原始信息。
3)虛擬網(wǎng)站的動(dòng)態(tài)生成--結(jié)構(gòu)調(diào)整算法
當(dāng)用戶申請(qǐng)欄目頁(yè)(含主頁(yè))時(shí),頁(yè)面生成的算法步驟如下:
步驟1、應(yīng)用服務(wù)器的“導(dǎo)航條區(qū)生成器”從網(wǎng)站形式結(jié)構(gòu)庫(kù)中取出其下級(jí)欄目數(shù)據(jù),生成欄目頁(yè)的導(dǎo)航條區(qū)。
步驟2、“鏈接區(qū)生成器”依據(jù)用戶興趣度確定欄目頁(yè)下屬各欄目在鏈接區(qū)中顯示區(qū)域的大小和位置,然后使用“數(shù)據(jù)過(guò)濾器”依據(jù)用戶興趣度順序篩選的信息,在各子欄目相應(yīng)的區(qū)域內(nèi)組織指向原始文檔的鏈接。
當(dāng)用戶申請(qǐng)主題頁(yè)時(shí),“鏈接區(qū)生成器”使用“數(shù)據(jù)過(guò)濾器”依據(jù)用戶興趣度順序優(yōu)先篩選的信息,在頁(yè)面上組織指向原始文檔的鏈接。可以連續(xù)使用前后鏈接著的多個(gè)頁(yè)面連續(xù)組織鏈接。
“數(shù)據(jù)過(guò)濾器”的功能是,將網(wǎng)站上各主題范圍內(nèi)的文檔,按用戶興趣度排序,供“鏈接區(qū)生成器”從高到低選用。
1.3欄目頁(yè)鏈接區(qū)的布局算法
為了方便研究,作如下約定:
1)鏈接區(qū)版面根據(jù)下屬子欄目數(shù)多少分為1-3列,各列寬度均等。
2)鏈接區(qū)按下屬各子欄目集中組織超連接,分別構(gòu)成不可分割的矩形鏈接塊。
3)欄目頁(yè)鏈接區(qū)的鏈接塊數(shù)即為該欄目下屬的子欄目數(shù)。
4)各子欄目的面積大小由該子欄目的用戶興趣度和本鏈接區(qū)的總面積確定。
5)由于寬度相同,面積由矩形的高度來(lái)表示,單位是“行”。
6)布局時(shí),靠近屏幕頂端的位置具有較高的顯現(xiàn)度。分兩欄的鏈接區(qū),在布局高度相同時(shí),左邊具有較高顯現(xiàn)度;分三欄的鏈接區(qū),顯現(xiàn)度按中、左、右的順序排列。
算法:
1、各子欄目在鏈接區(qū)的布局按其面積由大到小的順序依次進(jìn)行。
2、每個(gè)子欄目布置在當(dāng)前具有較高顯現(xiàn)度的位置。
智能網(wǎng)站信息結(jié)構(gòu)調(diào)整的評(píng)價(jià)標(biāo)準(zhǔn)是:在網(wǎng)站各主題上的信息顯現(xiàn)度分布是否與用戶的興趣度分布趨于一致,也就是信息結(jié)構(gòu)調(diào)整后的各主題的顯現(xiàn)度構(gòu)成的曲線和用戶興趣度曲線相重合(或平行),如圖5所示。