用戶需求獲取方法
【專利摘要】本發(fā)明涉及一種用戶需求獲取方法,依次包括以下步驟:獲取用戶提供的種子詞、關(guān)鍵詞擴(kuò)展步驟、搜索步驟、網(wǎng)頁(yè)挑選步驟、標(biāo)注步驟、評(píng)價(jià)步驟以及學(xué)習(xí)步驟,由上述步驟得到用戶的需求模型。上述用戶需求獲取方法中,需求模型是按照用戶需求建立并不斷完善的,根據(jù)該用戶的需求模型,能夠準(zhǔn)確獲取該用戶的需求,從而提供相關(guān)性較高的信息給該用戶。
【專利說(shuō)明】用戶需求獲取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是涉及一種用戶需求獲取方法。
【背景技術(shù)】
[0002]自互聯(lián)網(wǎng)誕生以來(lái),因特網(wǎng)已經(jīng)發(fā)展成為擁有近億用戶和數(shù)億頁(yè)面的巨大的全球信息倉(cāng)庫(kù),而且其信息量仍在以指數(shù)形式飛速地增長(zhǎng)。從互聯(lián)網(wǎng)中獲取信息已經(jīng)成為個(gè)人獲取知識(shí)的主要方法和重要手段,也成為當(dāng)前企業(yè)獲取情報(bào)的重要途徑,但是,面對(duì)浩如煙海的網(wǎng)絡(luò)信息,傳統(tǒng)的人工搜集和處理方法都已難以勝任,搜索結(jié)果通常包括很多與用戶需求相關(guān)性不大的信息,因此如何準(zhǔn)確獲取用戶的需求是一個(gè)關(guān)鍵的問(wèn)題。
[0003]目前,國(guó)內(nèi)外在信息搜索領(lǐng)域已經(jīng)做了大量研究,并開(kāi)發(fā)了多種搜索引擎,如百度、谷歌以及雅虎等。從某種程度上這些搜索引擎提高了搜索的效率和速度,但獲取用戶需求的方法仍然存在著很大的局限性,最突出表現(xiàn)在以下幾個(gè)方面:首先,由于采用的是全文檢索或關(guān)鍵詞檢索方式,基于字面的檢索機(jī)制造成實(shí)際檢索結(jié)果與用戶需求之間的偏差,即檢索返回“有用”信息太少,“垃圾”信息太多;其次,網(wǎng)絡(luò)搜索引擎需面對(duì)廣泛的知識(shí)領(lǐng)域,而針對(duì)某一特殊領(lǐng)域因沒(méi)有足夠的背景知識(shí),導(dǎo)致搜索到大量無(wú)關(guān)的網(wǎng)頁(yè),具有較大相關(guān)性的網(wǎng)頁(yè)卻很少。
【發(fā)明內(nèi)容】
[0004]基于此,針對(duì)網(wǎng)絡(luò)信息的搜索,有必要提供一種準(zhǔn)確獲取用戶需求的方法。
[0005]一種用戶需求獲取方法,依次包括以下步驟:
[0006]獲取用戶提供的種子詞,所述種子詞包括正種子詞和負(fù)種子詞;
[0007]關(guān)鍵詞擴(kuò)展步驟,利用同義詞集合以及上下義關(guān)系,對(duì)所述種子詞擴(kuò)展,得到與正種子詞相關(guān)的正相關(guān)關(guān)鍵詞以及與負(fù)種子詞相關(guān)的反相關(guān)關(guān)鍵詞;
[0008]搜索步驟,根據(jù)所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,基于互聯(lián)網(wǎng)進(jìn)行匹配搜索,得到待標(biāo)注網(wǎng)頁(yè),所述待標(biāo)注網(wǎng)頁(yè)包括候選正例和候選反例,所述候選正例和候選反例分別由所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到;
[0009]網(wǎng)頁(yè)挑選步驟,分析所述待標(biāo)注網(wǎng)頁(yè),根據(jù)其內(nèi)容將待標(biāo)注網(wǎng)頁(yè)分類,然后從每類網(wǎng)頁(yè)中分別選出一個(gè)樣本網(wǎng)頁(yè)供用戶標(biāo)注;
[0010]標(biāo)注步驟,如果樣本網(wǎng)頁(yè)符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為正例,如果樣本網(wǎng)頁(yè)不符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為反例,集合所述正例和反例,得到初始用戶標(biāo)注數(shù)據(jù)集;
[0011]評(píng)價(jià)步驟,采用SVM分類器訓(xùn)練法,將從所述候選正例和候選反例中選出的所有樣本網(wǎng)頁(yè)作為測(cè)試集,將所有非樣本網(wǎng)頁(yè)作為訓(xùn)練集,對(duì)待標(biāo)注網(wǎng)頁(yè)分類的準(zhǔn)確性進(jìn)行測(cè)試,得到分類的準(zhǔn)確率,預(yù)先設(shè)定閾值,當(dāng)所述分類的準(zhǔn)確率達(dá)到所述閾值時(shí),所述評(píng)價(jià)步驟完成,當(dāng)所述分類的準(zhǔn)確率未達(dá)到所述閾值時(shí),返回所述網(wǎng)頁(yè)挑選步驟,調(diào)整需要標(biāo)注的正例和反例的數(shù)量,重復(fù)標(biāo)注步驟和評(píng)價(jià)步驟,最終得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集。
[0012]學(xué)習(xí)步驟,基于所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集,學(xué)習(xí)用戶需求,得到用戶的需求模型。
[0013]在其中一個(gè)實(shí)施例中,在所述關(guān)鍵詞擴(kuò)展步驟中,所述同義詞集合以及上下義關(guān)系由wordnet提供。
[0014]在其中一個(gè)實(shí)施例中,所述標(biāo)注步驟之后還包括從得到的所述正例和反例中抽取特征詞,生成正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,進(jìn)一步擴(kuò)展所述種子詞的步驟。
[0015]在其中一個(gè)實(shí)施例中,在所述標(biāo)注步驟中,所述樣本網(wǎng)頁(yè)的標(biāo)注由用戶通過(guò)人機(jī)交互界面完成。
[0016]在其中一個(gè)實(shí)施例中,在所述標(biāo)注步驟中,需要標(biāo)注的所述正例和反例的初始數(shù)
量相等。
[0017]在其中一個(gè)實(shí)施例中,在所述評(píng)價(jià)步驟中,所述需要標(biāo)注的正例和反例的數(shù)量如下:
[0018]正例的數(shù)量=用戶標(biāo)注網(wǎng)頁(yè)的總數(shù)* (當(dāng)前反例的比例+當(dāng)前分類錯(cuò)誤中反例的比例)/2 ;
[0019]反例的數(shù)量=用戶標(biāo)準(zhǔn)網(wǎng)頁(yè)的總數(shù)* (當(dāng)前正例的比例+當(dāng)前分類錯(cuò)誤中正例的比例)/2。
[0020]上述計(jì)算方法中,反例的比例指反例占正例和反例總量的比例,正例的比例指正例占正例和反例總量的比例,分類錯(cuò)誤中反例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為反例的比例,分類錯(cuò)誤中正例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為正例的比例。
[0021]在其中一個(gè)實(shí)施例中,所述學(xué)習(xí)步驟包括:
[0022]主題句學(xué)習(xí)步驟,預(yù)先設(shè)置主題特征搜索樹(shù),首先從所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中抽取主題得到主題數(shù)據(jù)集,其次從所述主題數(shù)據(jù)集中抽取主題句特征,最后進(jìn)行主題需求判斷,如果當(dāng)前的主題特征搜索樹(shù)不包括所述抽取的主題特征,則將所述抽取的主題特征加入所述主題特征搜索樹(shù),得到用戶的主題監(jiān)控模型;
[0023]內(nèi)容學(xué)習(xí)步驟,首先從所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中抽取內(nèi)容得到內(nèi)容數(shù)據(jù)集,其次從所述內(nèi)容數(shù)據(jù)集中抽取內(nèi)容特征,最后進(jìn)行二元分類器訓(xùn)練,對(duì)內(nèi)容需求進(jìn)行判別,得到用戶的內(nèi)容監(jiān)控模型。
[0024]在其中一個(gè)實(shí)施例中,在所述主題句學(xué)習(xí)步驟中,在從所述主題數(shù)據(jù)集中抽取主題特征時(shí),采用基于字的重排序的方式構(gòu)建主題特征。
[0025]在其中一個(gè)實(shí)施例中,所述二元分類器訓(xùn)練為貝葉斯分類器。
[0026]上述用戶需求獲取方法,首先獲取用戶提供的種子詞并將其擴(kuò)展得到正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,其次基于正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到待標(biāo)注網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)挑選步驟和標(biāo)注步驟,得到初始用戶標(biāo)注數(shù)據(jù)集,再對(duì)初始用戶標(biāo)注數(shù)據(jù)集進(jìn)行評(píng)價(jià),得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集,對(duì)正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集進(jìn)行分析,學(xué)習(xí)用戶的需求,并得到用戶的需求模型。上述需求模型是按照用戶需求建立并不斷完善的,根據(jù)該用戶的需求模型,能夠準(zhǔn)確獲取該用戶的需求,從而提供相關(guān)性較高的信息給該用戶?!緦@綀D】
【附圖說(shuō)明】
[0027]圖1為一個(gè)實(shí)施例的用戶需求獲取方法的流程圖;
[0028]圖2為一個(gè)實(shí)施例的學(xué)習(xí)步驟的流程圖。
【具體實(shí)施方式】
[0029]為了解決難以準(zhǔn)確獲取用戶需求問(wèn)題,本實(shí)施方式提供了一種準(zhǔn)確獲取用戶需求的方法。下面結(jié)合具體的實(shí)施例,對(duì)用戶需求獲取方法進(jìn)行具體的描述。
[0030]請(qǐng)參考圖1和圖2,本實(shí)施方式提供的用戶需求獲取方法,包括如下步驟:
[0031]步驟S110,獲取用戶提供的種子詞;
[0032]步驟S120,關(guān)鍵詞擴(kuò)展步驟;
[0033]步驟S130,搜索步驟;
[0034]步驟S140,網(wǎng)頁(yè)挑選步驟;
[0035]步驟S150,標(biāo)注步驟;
[0036]步驟S160,評(píng)價(jià)步驟;
[0037]步驟S170,學(xué)習(xí)步驟。
[0038]在步驟SllO中,獲取用戶提供的種子詞,種子詞包括正種子詞和負(fù)種子詞。
[0039]步驟S120為關(guān)鍵詞擴(kuò)展步驟,關(guān)鍵詞擴(kuò)展即增加種子詞的同義詞或近義詞來(lái)擴(kuò)展當(dāng)前種子詞。關(guān)鍵詞擴(kuò)展有兩種途徑,第一種途徑是利用wordnet (—種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典,它不僅把單詞以字母順序排列,而且按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”)提供的同義詞集合以及上下義關(guān)系,對(duì)種子詞進(jìn)行關(guān)鍵詞擴(kuò)展,得到與正種子詞相關(guān)的正相關(guān)關(guān)鍵詞以及與負(fù)種子詞相關(guān)的反相關(guān)關(guān)鍵詞,集合正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞得到關(guān)鍵詞庫(kù)。另一種途徑是,根據(jù)步驟S160的評(píng)價(jià)步驟,從得到的正例和反例中抽取特征詞,生成正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,進(jìn)一步擴(kuò)展種子詞,從而完善關(guān)鍵詞庫(kù),更準(zhǔn)確地獲取用戶的需求。
[0040]步驟S130為搜索步驟,根據(jù)關(guān)鍵詞庫(kù)中正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,基于互聯(lián)網(wǎng)進(jìn)行匹配搜索,得到待標(biāo)注網(wǎng)頁(yè),待標(biāo)注網(wǎng)頁(yè)包括候選正例和候選反例,候選正例和候選反例分別由正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到。候選正例即為用戶關(guān)心的網(wǎng)頁(yè),符合用戶的需求;候選反例即為所謂的“錯(cuò)誤信息”,是不符合用戶需求的。
[0041]在步驟S140即網(wǎng)頁(yè)挑選步驟中,分析待標(biāo)注網(wǎng)頁(yè),根據(jù)其內(nèi)容將待標(biāo)注網(wǎng)頁(yè)分為若干類,然后從每類網(wǎng)頁(yè)中分別選出一個(gè)樣本網(wǎng)頁(yè)供用戶標(biāo)注,樣本網(wǎng)頁(yè)包含的網(wǎng)頁(yè)數(shù)量由用戶指定。如果樣本網(wǎng)頁(yè)被用戶標(biāo)注為正例,那么該樣本網(wǎng)頁(yè)所在的類中的其他待標(biāo)注網(wǎng)頁(yè)均視正例,如果樣本網(wǎng)頁(yè)被用戶標(biāo)注為反例,那么該樣本網(wǎng)頁(yè)所在的類中的其他待標(biāo)注網(wǎng)頁(yè)均視反例。顯然,步驟S124可以極大地降低用戶標(biāo)注的工作量。
[0042]步驟S150為標(biāo)注步驟,本實(shí)施方式提供了人機(jī)交互界面,用戶可以通過(guò)人機(jī)交互界面方便地完成對(duì)候選網(wǎng)頁(yè)的標(biāo)注工作。如果樣本網(wǎng)頁(yè)符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為正例,如果樣本網(wǎng)頁(yè)不符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為反例,集合正例和反例,得到初始用戶標(biāo)注數(shù)據(jù)集。
[0043]首次人機(jī)交互時(shí),由于還沒(méi)有進(jìn)行步驟S160的評(píng)價(jià)步驟,用戶需要對(duì)樣本網(wǎng)頁(yè)進(jìn)行1:1的標(biāo)注,即用戶從所有樣本網(wǎng)頁(yè)中,標(biāo)注出相同數(shù)量的正例和反例。當(dāng)然,這個(gè)正例和反例1:1的比例只是初始設(shè)定比例,在后續(xù)步驟中,正例和反例的比例會(huì)進(jìn)行相應(yīng)調(diào)整。
[0044]步驟S160為評(píng)價(jià)步驟,采用SVM(support vector machine,支持向量機(jī))分類器,將從候選正例和候選反例中選出的所有樣本網(wǎng)頁(yè)作為測(cè)試集,將所有非樣本網(wǎng)頁(yè)作為訓(xùn)練集,對(duì)待標(biāo)注網(wǎng)頁(yè)分類的準(zhǔn)確性進(jìn)行測(cè)試,得到分類的準(zhǔn)確率,預(yù)先設(shè)定閾值,當(dāng)分類的準(zhǔn)確率達(dá)到閾值時(shí),評(píng)價(jià)步驟完成。當(dāng)分類的準(zhǔn)確率未達(dá)到閾值時(shí),返回網(wǎng)頁(yè)挑選步驟,調(diào)整需要標(biāo)注的正例和反例的數(shù)量,重復(fù)標(biāo)注步驟和評(píng)價(jià)步驟,直至分類的準(zhǔn)確率達(dá)到閾值,從而得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集。
[0045]如果所述分類的準(zhǔn)確率未達(dá)到所述閾值,進(jìn)入下一輪評(píng)價(jià)步驟時(shí),所述正例和反例在下一輪評(píng)價(jià)步驟中的數(shù)量根據(jù)如下計(jì)算方法調(diào)整:
[0046]正例的數(shù)量=用戶標(biāo)注網(wǎng)頁(yè)的總數(shù)* (當(dāng)前反例的比例+當(dāng)前分類錯(cuò)誤中反例的比例)/2 ;
[0047]反例的數(shù)量=用戶標(biāo)準(zhǔn)網(wǎng)頁(yè)的總數(shù)* (當(dāng)前正例的比例+當(dāng)前分類錯(cuò)誤中正例的比例)/2。
[0048]上述計(jì)算方法中,反例的比例指反例占正例和反例總量的比例,正例的比例指正例占正例和反例總量的比例。分類錯(cuò)誤中反例比例指經(jīng)SVM分類器訓(xùn)練步驟后,訓(xùn)練集中被誤認(rèn)為反例的比例,分類錯(cuò)誤中正例比例指經(jīng)SVM分類器訓(xùn)練步驟后,訓(xùn)練集中被誤認(rèn)為正例的比例。該計(jì)算方法即為調(diào)整正例和反例比例的依據(jù)。
[0049]步驟S170為學(xué)習(xí)步驟,包括主題句學(xué)習(xí)步驟和內(nèi)容學(xué)習(xí)步驟兩部分。
[0050]在步驟S170中,首先執(zhí)行步驟172:主題抽取,內(nèi)容抽取。在已經(jīng)得到的正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中,抽取出主題以及內(nèi)容,并分別得到主題數(shù)據(jù)集和內(nèi)容數(shù)據(jù)集。
[0051 ] 步驟S174a為主題句特征抽取,步驟S176a為主題需求判斷。預(yù)先設(shè)置主題特征搜索樹(shù),執(zhí)行步驟S174a,從主題數(shù)據(jù)集中抽取出主題句特征。在從主題數(shù)據(jù)集中抽取主題特征時(shí),傳統(tǒng)的做法一般是采用基于詞特征構(gòu)建主題過(guò)渡模型,而主題詞變化形式較多,因此基于詞特征構(gòu)建主題過(guò)渡模型的方法不能全面覆蓋用戶需要的信息。為了解決這個(gè)問(wèn)題,本實(shí)施方式采用基于字的重排序的方式構(gòu)建主題特征,將主題詞分解為關(guān)鍵字并將關(guān)鍵字重組得到各種形式的主題詞,這樣便解決了主題詞因變化形式較多引起的問(wèn)題。然后再執(zhí)行步驟S176a,進(jìn)行主題需求判斷,如果當(dāng)前的主題特征搜索樹(shù)不包括抽取的主題特征,則將抽取的主題特征加入主題特征搜索樹(shù),得到用戶的主題監(jiān)控模型。
[0052]步驟S174b為內(nèi)容特征抽取,步驟S176b為內(nèi)容需求判別。執(zhí)行步驟S174a,從主題數(shù)據(jù)集中抽取出內(nèi)容特征,再執(zhí)行步驟S176a,進(jìn)行主題需求判別。在主題需求判別時(shí),采用訓(xùn)練二元分類器的方法,得到用戶的內(nèi)容監(jiān)控模型。為了保證分類器的分類速度,本實(shí)施方式使用的二元分類器為貝葉斯分類器。
[0053]在本實(shí)施方式中,首先獲取用戶提供的種子詞并將其擴(kuò)展得到正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,其次基于正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到待標(biāo)注網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)挑選步驟和標(biāo)注步驟,得到初始用戶標(biāo)注數(shù)據(jù)集,再對(duì)初始用戶標(biāo)注數(shù)據(jù)集做多次評(píng)價(jià)得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集,對(duì)正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集進(jìn)行分析,學(xué)習(xí)用戶的需求,并得到用戶的需求模型。上述需求模型是按照用戶需求建立并不斷完善的,根據(jù)該用戶的需求模型,能夠準(zhǔn)確獲取該用戶的需求,從而提供相關(guān)性較高的信息給該用戶。
[0054]采用SVM分類器,可以定量地評(píng)價(jià)正例和反例,對(duì)訓(xùn)練集有定量的評(píng)價(jià),及時(shí)調(diào)整正例和反例的比例。以此為依據(jù)有選擇地進(jìn)行人機(jī)交互,可以更有效地全面獲得用戶的需求。
[0055]傳統(tǒng)方法基于詞特征構(gòu)建主題過(guò)渡模型,而主題詞形式變化較多,這類形式變化的詞很可能就會(huì)被當(dāng)做“錯(cuò)誤信息”過(guò)濾掉,使用戶無(wú)法全面獲取需求的信息。采用基于字重排序的主題特征過(guò)濾模型,有效解決主題形式變化較多的問(wèn)題,保證了用戶獲取需求信息的全面性。
[0056]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種用戶需求獲取方法,其特征在于,依次包括以下步驟: 獲取用戶提供的種子詞,所述種子詞包括正種子詞和負(fù)種子詞; 關(guān)鍵詞擴(kuò)展步驟,利用同義詞集合以及上下義關(guān)系,對(duì)所述種子詞擴(kuò)展,得到與正種子詞相關(guān)的正相關(guān)關(guān)鍵詞以及與負(fù)種子詞相關(guān)的反相關(guān)關(guān)鍵詞; 搜索步驟,根據(jù)所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,基于互聯(lián)網(wǎng)進(jìn)行匹配搜索,得到待標(biāo)注網(wǎng)頁(yè),所述待標(biāo)注網(wǎng)頁(yè)包括候選正例和候選反例,所述候選正例和候選反例分別由所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到; 網(wǎng)頁(yè)挑選步驟,分析所述待標(biāo)注網(wǎng)頁(yè),根據(jù)其內(nèi)容將待標(biāo)注網(wǎng)頁(yè)分類,然后從每類網(wǎng)頁(yè)中分別選出一個(gè)樣本網(wǎng)頁(yè)供用戶標(biāo)注; 標(biāo)注步驟,如果樣本網(wǎng)頁(yè)符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為正例,如果樣本網(wǎng)頁(yè)不符合用戶的需求,將該樣本網(wǎng)頁(yè)標(biāo)注為反例,集合所述正例和反例,得到初始用戶標(biāo)注數(shù)據(jù)集; 評(píng)價(jià)步驟,采用SVM分類器訓(xùn)練法,將從所述候選正例和候選反例中選出的所有樣本網(wǎng)頁(yè)作為測(cè)試集,將所有非樣本網(wǎng)頁(yè)作為訓(xùn)練集,對(duì)待標(biāo)注網(wǎng)頁(yè)分類的準(zhǔn)確性進(jìn)行測(cè)試,得到分類的準(zhǔn)確率,預(yù)先設(shè)定閾值,當(dāng)所述分類的準(zhǔn)確率達(dá)到所述閾值時(shí),所述評(píng)價(jià)步驟完成,當(dāng)所述分類的準(zhǔn)確率未達(dá)到所述閾值時(shí),返回所述網(wǎng)頁(yè)挑選步驟,調(diào)整需要標(biāo)注的正例和反例的數(shù)量,重復(fù)標(biāo)注步驟和評(píng)價(jià)步驟,最終得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集。 學(xué)習(xí)步驟,基于所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集,學(xué)習(xí)用戶需求,得到用戶的需求模型。
2.根據(jù)權(quán)利要求1所`述的用戶需求獲取方法,其特征在于,在所述關(guān)鍵詞擴(kuò)展步驟中,所述同義詞集合以及上下義關(guān)系由wordnet提供。
3.根據(jù)權(quán)利要求1所述的用戶需求獲取方法,其特征在于,所述標(biāo)注步驟之后還包括從得到的所述正例和反例中抽取特征詞,生成正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,進(jìn)一步擴(kuò)展所述種子詞的步驟。
4.根據(jù)權(quán)利要求1所述的用戶需求獲取方法,其特征在于,在所述標(biāo)注步驟中,所述樣本網(wǎng)頁(yè)的標(biāo)注由用戶通過(guò)人機(jī)交互界面完成。
5.根據(jù)權(quán)利要求1所述的用戶需求獲取方法,其特征在于,在所述標(biāo)注步驟中,需要標(biāo)注的所述正例和反例的初始數(shù)量相等。
6.根據(jù)權(quán)利要求1所述的用戶需求獲取方法,其特征在于,在所述評(píng)價(jià)步驟中,所述需要標(biāo)注的正例和反例的數(shù)量如下: 正例的數(shù)量=用戶標(biāo)注網(wǎng)頁(yè)的總數(shù)*(當(dāng)前反例的比例+當(dāng)前分類錯(cuò)誤中反例的比例)/2 ; 反例的數(shù)量=用戶標(biāo)準(zhǔn)網(wǎng)頁(yè)的總數(shù)*(當(dāng)前正例的比例+當(dāng)前分類錯(cuò)誤中正例的比例)/2。 上述計(jì)算方法中,反例的比例指反例占正例和反例總量的比例,正例的比例指正例占正例和反例總量的比例,分類錯(cuò)誤中反例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為反例的比例,分類錯(cuò)誤中正例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為正例的比例。
7.根據(jù)權(quán)利要求1所述的用戶需求獲取方法,其特征在于,所述學(xué)習(xí)步驟包括: 主題句學(xué)習(xí)步驟,預(yù)先設(shè)置主題特征搜索樹(shù),首先從所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中抽取主題得到主題數(shù)據(jù)集,其次從所述主題數(shù)據(jù)集中抽取主題句特征,最后進(jìn)行主題需求判斷,如果當(dāng)前的主題特征搜索樹(shù)不包括所述抽取的主題特征,則將所述抽取的主題特征加入所述主題特征搜索樹(shù),得到用戶的主題監(jiān)控模型; 內(nèi)容學(xué)習(xí)步驟,首先從所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中抽取內(nèi)容得到內(nèi)容數(shù)據(jù)集,其次從所述內(nèi)容數(shù)據(jù)集中抽取內(nèi)容特征,最后進(jìn)行二元分類器訓(xùn)練,對(duì)內(nèi)容需求進(jìn)行判別,得到用戶的內(nèi)容監(jiān)控模型。
8.根據(jù)權(quán)利要求7所述的用戶需求獲取方法,其特征在于,在所述主題句學(xué)習(xí)步驟中,在從所述主題數(shù)據(jù)集中抽取主題特征時(shí),采用基于字的重排序的方式構(gòu)建主題特征。
9.根據(jù)權(quán)利要求7所述的用戶需求獲取方法,其特征在于,所述二元分類器訓(xùn)練為貝葉斯分 類器。
【文檔編號(hào)】G06F17/30GK103793444SQ201210436032
【公開(kāi)日】2014年5月14日 申請(qǐng)日期:2012年11月5日 優(yōu)先權(quán)日:2012年11月5日
【發(fā)明者】朱利民 申請(qǐng)人:江蘇蘇大大數(shù)據(jù)科技有限公司