一種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法及單詞匹配推薦方法
【專利摘要】本發(fā)明公開了一種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法及單詞匹配推薦方法。本推薦方法為:1)基于社會(huì)網(wǎng)絡(luò)構(gòu)建用戶x的個(gè)體中心網(wǎng);2)對(duì)于該用戶x的個(gè)體中心網(wǎng)中每一用戶y,計(jì)算該用戶x與該用戶y之間單詞庫的相似性;如果相似性大于設(shè)定閾值H1,則計(jì)算該用戶x、用戶y之間親密度;如果親密度大于設(shè)定閾值H2,則根據(jù)得到的相似性與親密度確定用戶x、用戶y之間單詞的評(píng)分值;如果評(píng)分值大于設(shè)定閾值H3,則將該用戶y在時(shí)間段T內(nèi)記憶的單詞發(fā)送給該用戶x;3)根據(jù)發(fā)送過來的單詞將其按照單詞評(píng)分排序并推薦給該用戶x。本發(fā)明增加了互動(dòng)的效果,且記單詞效率會(huì)有顯著提升。
【專利說明】
一種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法及單詞匹配推薦方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,涉及一種單詞匹配方法,更具體地,涉及一種基于 社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法及單詞匹配推薦方法。
【背景技術(shù)】
[0002] 英語作為世界通用語言,是我國除漢語之外各領(lǐng)域最常用的語言,英語水平已經(jīng) 成為各種考核的重要指標(biāo)。單詞的學(xué)習(xí)是英語學(xué)習(xí)的基礎(chǔ);如何有效的記單詞一直都是人 們十分關(guān)注的問題。
[0003] 現(xiàn)有的單詞記憶方法是通過詞匯書來記憶或者通過軟件來提醒記憶。例如,新東 方的《六級(jí)詞匯詞根+聯(lián)想記憶法》等書,通過單詞規(guī)律來記單詞;還有"云詞"等軟件在算法 設(shè)計(jì)上采用了人類記憶規(guī)律來被動(dòng)式的提醒用戶記單詞。這些方法的缺點(diǎn)是人們獨(dú)自記單 詞,缺乏互動(dòng),使得記單詞枯燥無味,效率低下,難以長期堅(jiān)持。
[0004] 社交網(wǎng)站(SNS)以社會(huì)網(wǎng)絡(luò)為基礎(chǔ),日益成為人們必不可少的聯(lián)系工具,是一個(gè)把 具有相同興趣愛好的人和生活中的朋友聯(lián)系在一起的維持關(guān)系的平臺(tái);社交網(wǎng)站中的好友 關(guān)系,使得用戶間的互動(dòng)更加方便和直接。
[0005] 現(xiàn)有單詞記憶方法的局限使得并不能將人們有興趣記憶的單詞進(jìn)行準(zhǔn)確匹配,基 于社會(huì)網(wǎng)絡(luò)的單詞匹配方法,可以在和好友互動(dòng)的條件下,將人們感興趣的單詞進(jìn)行準(zhǔn)確 匹配并推薦,讓單詞記憶變得更富有樂趣,印象深刻,也會(huì)更容易長期堅(jiān)持。
【發(fā)明內(nèi)容】
[0006] 鑒于傳統(tǒng)單詞記憶方法不能將人們有興趣記憶的單詞進(jìn)行準(zhǔn)確匹配的問題,本發(fā) 明提出一種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法及單詞匹配推薦方法。
[0007] 該方法利用社會(huì)網(wǎng)絡(luò)中鄰接用戶間對(duì)單詞的需求相似度以及用戶間親密度來判 斷哪些詞匯與用戶的意愿更加匹配,從而做有效的單詞推薦又能達(dá)到互動(dòng)的效果。該方法 包括:確定鄰接用戶之間對(duì)單詞品味或喜好的需求相似性;確定鄰接用戶之間聯(lián)系的親密 度;根據(jù)相似性和親密度為單詞評(píng)分,將好友記憶的單詞按照評(píng)分推薦給用戶。
[0008] 本發(fā)明的技術(shù)方案為:
[0009] -種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法,其步驟為:
[0010] 1)基于社會(huì)網(wǎng)絡(luò)構(gòu)建用戶X的個(gè)體中心網(wǎng);
[0011] 2)對(duì)于該用戶X的個(gè)體中心網(wǎng)中每一用戶y,計(jì)算該用戶X與該用戶y之間單詞庫的 相似性;如果相似性大于設(shè)定閾值H1,則計(jì)算該用戶X、用戶y之間親密度;如果親密度大于 設(shè)定閾值H2,則根據(jù)得到的相似性與親密度確定用戶X、用戶y之間單詞的評(píng)分值;如果評(píng)分 值大于設(shè)定閾值H3,則將該用戶y在時(shí)間段T內(nèi)記憶的單詞發(fā)送給該用戶X;
[0012] 3)該用戶X將收到的單詞與該用戶X的當(dāng)前單詞庫進(jìn)行合并并刪除重復(fù)的單詞,得 到該用戶X的單詞庫。
[0013] -種基于社會(huì)網(wǎng)絡(luò)的單詞匹配推薦方法,其步驟為:
[0014] 1)基于社會(huì)網(wǎng)絡(luò)構(gòu)建用戶x的個(gè)體中心網(wǎng);
[0015] 2)對(duì)于該用戶X的個(gè)體中心網(wǎng)中每一用戶y,計(jì)算該用戶X與該用戶y之間單詞庫的 相似性;如果相似性大于設(shè)定閾值H1,則計(jì)算該用戶X、用戶y之間親密度;如果親密度大于 設(shè)定閾值H2,則根據(jù)得到的相似性與親密度確定用戶X、用戶y之間單詞的評(píng)分值;如果評(píng)分 值大于設(shè)定閾值H3,則將該用戶y在時(shí)間段T內(nèi)記憶的單詞發(fā)送給該用戶X;
[0016] 3)根據(jù)發(fā)送過來的單詞將其按照單詞評(píng)分排序并推薦給該用戶X。
[0017] 進(jìn)一步的,構(gòu)建用戶X的個(gè)體中心網(wǎng)的方法為:通過社會(huì)網(wǎng)絡(luò)獲取與該用戶X相連 的其他個(gè)體以及這些個(gè)體之間的連接關(guān)系,構(gòu)成該用戶X的個(gè)體中心網(wǎng)。
[0018] 進(jìn)一步的,采用一圖結(jié)構(gòu)G表示該社會(huì)網(wǎng)絡(luò);該圖結(jié)構(gòu)G為二元組形式:G=(V,E); 其中,V是一個(gè)非空有限頂點(diǎn)集,每一頂點(diǎn)對(duì)應(yīng)一用戶,E是一個(gè)有限邊集。
[0019]
計(jì)算該用戶X與該用戶y之間單詞庫 的相似性sim(X,y);集合I表示用戶單詞庫的單詞類別集合,^;1表示用戶X對(duì)單詞類別i的 評(píng)分,&;1表示用戶y對(duì)單詞類別i的評(píng)分。
[0020] 進(jìn)一步的,用戶對(duì)單詞類別i中每個(gè)單詞的記憶次數(shù)相加得到該用戶對(duì)該單詞類 另Iji的評(píng)分。
[0021] 進(jìn)一步的,根據(jù)用戶主動(dòng)查閱單詞次數(shù)與該單詞被推薦次數(shù)相加得到該單詞的記 憶次數(shù)。
[0022] 進(jìn)一步的,將該用戶X的單詞庫中新增單詞的記憶次數(shù)記為1,重復(fù)單詞的記憶次 數(shù)加1。
[0023]
計(jì)算該用戶X與該用戶y之間親密度 ?^(1,7);其中,1^(^7)表示近期設(shè)定時(shí)間長度內(nèi)用戶1用戶7之間的聯(lián)系數(shù)量^\表示 根據(jù)用戶X的個(gè)體中心網(wǎng)得到的用戶X的好友集合。
[0024] 進(jìn)一步的,確定該聯(lián)系數(shù)量的方法為:統(tǒng)計(jì)用戶X發(fā)送給用戶y的消息數(shù)量m、用戶y 發(fā)送給用戶X的消息數(shù)量n,取m、n中的較小值作為用戶X、用戶y之間的聯(lián)系數(shù)量。
[0025] 進(jìn)一步的,根據(jù)公式3(3〇 = &3;[111(1,7)+匕?代(1,7)計(jì)算單詞的評(píng)分值3(30;其中,&、匕 為權(quán)重系數(shù)。
[0026] 與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0027] 通過本方法的實(shí)施,基于用戶在社交網(wǎng)絡(luò)中與其他用戶的關(guān)聯(lián)信息進(jìn)行單詞匹配 時(shí),會(huì)同時(shí)考慮社會(huì)網(wǎng)絡(luò)鄰接用戶間的相似度和親密度。以此方式,推薦給用戶的單詞是用 戶需要的也是其好友正在記憶的單詞,同時(shí)達(dá)到了互動(dòng)的效果,記單詞效率會(huì)有顯著提升。
【附圖說明】
[0028] 圖1為用戶A的個(gè)體中心網(wǎng)的無向圖表示;
[0029] 圖2為鄰接用戶間近期聯(lián)系示意圖;
[0030] 圖3為聯(lián)系不意圖改進(jìn)圖;
[0031]圖4為單詞評(píng)分流程示意圖;
[0032]圖5為系統(tǒng)推薦流程示意圖。
【具體實(shí)施方式】
[0033] 為了清楚準(zhǔn)確的描述該方法的【具體實(shí)施方式】,先對(duì)本發(fā)明中涉及到的術(shù)語進(jìn)行說 明。
[0034] 術(shù)語1:社會(huì)網(wǎng)絡(luò)是指一組行動(dòng)者及連接他們的各種關(guān)系(如友誼、溝通等關(guān)系)的 集合;可以表示為一個(gè)圖結(jié)構(gòu)G,圖G記為二元組形式:G=(V,E),其中V是一個(gè)非空有限頂點(diǎn) 集(即用戶集合),E是一個(gè)有限邊集(即關(guān)系集合),邊連接的兩用戶或頂點(diǎn)是V中頂點(diǎn)的無 序偶對(duì)或有序偶對(duì)。
[0035] 術(shù)語2:個(gè)體中心網(wǎng)是指圍繞某一特定個(gè)體的行動(dòng)者及連接他們的各種關(guān)系的集 合,通過社會(huì)網(wǎng)絡(luò)獲取與個(gè)體相連的其他個(gè)體,以及這些個(gè)體之間的連接關(guān)系即可構(gòu)成該 個(gè)體的個(gè)體中心網(wǎng)。
[0036] 術(shù)語3:社交網(wǎng)站是指基于社會(huì)網(wǎng)絡(luò)把朋友和有共同興趣愛好的用戶通過網(wǎng)絡(luò)這 一載體關(guān)聯(lián)起來的Web站點(diǎn)。
[0037]術(shù)語4:用戶是指在社交網(wǎng)站注冊(cè)并通過認(rèn)證的的人同時(shí)也是社會(huì)網(wǎng)絡(luò)中的行動(dòng) 者。
[0038]術(shù)語5:好友關(guān)系是指社交網(wǎng)站中用戶間的關(guān)系;設(shè)V是用戶集合,VXV的任一子集 E稱為V上的一個(gè)二元關(guān)系,若E中任意元素(x,y)都有X辛y,則E稱為V上的好友關(guān)系,稱X與y 有好友關(guān)系。
[0039] 術(shù)語6:鄰接是指用戶之間存在好友關(guān)系;設(shè)用戶x,y之間存在好友關(guān)系,則稱X和y 鄰接。
[0040] 術(shù)語7:相似度是指社會(huì)網(wǎng)絡(luò)中鄰接用戶之間對(duì)單詞需求的相似程度。
[0041] 術(shù)語8:親密度是指社會(huì)網(wǎng)絡(luò)中鄰接用戶之間聯(lián)系(包括發(fā)送信息,評(píng)論等)的頻繁 程度。
[0042] 術(shù)語9:單詞評(píng)分是指根據(jù)用戶間親密度和相似度綜合得到的單詞分?jǐn)?shù)。
[0043]做為一種單詞匹配推薦方法,系統(tǒng)首先具有詞匯庫,并且按照需求進(jìn)行詞匯分類, 比如可將詞匯按等級(jí)分類為小學(xué)英語詞匯、初中英語詞匯、高中英語詞匯、大學(xué)英語四級(jí)詞 匯、大學(xué)英語六級(jí)詞匯等,亦可將詞匯按照類別分類為汽車、經(jīng)濟(jì)、交通、攝影、物理、農(nóng)業(yè) 等,即系統(tǒng)已經(jīng)將詞匯分類(每個(gè)單詞可屬于多個(gè)類別);并且系統(tǒng)會(huì)記錄每個(gè)用戶的記單 詞情況,包括用戶對(duì)每個(gè)單詞的記憶次數(shù)等,單詞的記憶次數(shù)通過用戶主動(dòng)查閱該單詞次 數(shù)以及該單詞被系統(tǒng)推薦次數(shù)相加得到。
[0044]為了便于理解和實(shí)現(xiàn)本發(fā)明,下面將參考附圖詳細(xì)描述該推薦方法的原理。
[0045] 首先,根據(jù)社會(huì)網(wǎng)絡(luò)可得到任一用戶的個(gè)體中心網(wǎng),圖1是用戶A的個(gè)體中心網(wǎng)的 圖表示,A,B,C,D,E,F(xiàn)為社交網(wǎng)絡(luò)用戶,用戶間的連線表明存在好友關(guān)系(無向關(guān)系),用戶A 的好友(即鄰接用戶)是B、C、D、E、F。下面都是以該個(gè)體中心網(wǎng)為示例來詳述。
[0046] 具體計(jì)算方式如下:
[0047] 1.計(jì)算相似度,即計(jì)算兩個(gè)用戶對(duì)單詞需求的相似性,采用余弦相似性。用戶目前 記憶每類詞匯的記憶次數(shù)作為對(duì)該類詞匯的評(píng)分(通過用戶對(duì)該類詞匯中每個(gè)單詞的記憶 次數(shù)相加得到每類詞匯的記憶次數(shù)),所有η類單詞的評(píng)分被看作η維空間中的一個(gè)向量(如 果用戶沒有記憶某類詞匯,則用戶對(duì)該類詞匯的評(píng)分設(shè)為0)。假設(shè)兩個(gè)用戶X和y的評(píng)分向 量分別為X和y,集合I表示單詞類別集合,r x,dPry>1分別表示用戶X和y對(duì)單詞類別i的評(píng)分, 則余弦相似性為
[0049]其中,0彡 Sim(x,y)彡1。
[0050] 2.計(jì)算親密度,即計(jì)算兩個(gè)用戶聯(lián)系的頻繁程度。如圖3是用戶A的個(gè)體中心網(wǎng)的 聯(lián)系圖,箭頭方向?yàn)橛脩艚诎l(fā)給好友的信息、評(píng)價(jià)等消息,箭頭上的數(shù)字表示近期用戶發(fā) 給好友的消息總數(shù)。一般說來好友之間發(fā)消息越多表示雙方越親近,但是若只有單方面的 消息發(fā)送而沒有回復(fù)則可能是騷擾信息,這個(gè)消息數(shù)量并不能表明兩人的親近程度,所以 這里取雙方之間交互消息數(shù)較小的一個(gè)作為兩人聯(lián)系的數(shù)量,于是將圖3改進(jìn)為圖4。假設(shè) 兩個(gè)用戶X和7,]^8(1,7)表示近期1,7之間聯(lián)系數(shù)量,?\表示用戶1的好友集合即1的個(gè)體中 心網(wǎng)中與X相連接的用戶集合,則聯(lián)系頻繁程度為
[0052] 其中0彡Mes(x,y)彡1。如圖3中用戶A與用戶B的親密度Fre(A,B)=0.43。
[0053] 3.計(jì)算單詞評(píng)分,即計(jì)算相似度和親密度的綜合得分。則單詞綜合得分為
[0054] Sco = aSim(x,y)+bFre(x,y) (3)
[0055] 其中,a+b=l,a和b的值表示相似度和親密度占的權(quán)重,根據(jù)實(shí)際情況設(shè)置;可根 據(jù)實(shí)際情況為相似度和親密度分別設(shè)置相應(yīng)的閾值,計(jì)算只考慮大于閾值的用戶。
[0056]圖4是單詞評(píng)分流程圖,具體步驟如下:
[0057]步驟1:用公式(1)計(jì)算得到相似度;
[0058] 步驟2:判斷相似度是否低于閾值,如果是,則將單詞評(píng)分值設(shè)置為0并結(jié)束評(píng)分;
[0059] 步驟3:用公式(2)計(jì)算得到親密度;
[0060] 步驟4:判斷親密度是否低于閾值,如果是,則將單詞評(píng)分值設(shè)置為0并結(jié)束評(píng)分;
[0061] 步驟5:用公式(3)計(jì)算得到單詞評(píng)分值。
[0062]圖5是系統(tǒng)單詞推薦流程圖,具體步驟如下:
[0063] 步驟1:判斷用戶的好友記過的單詞總數(shù)是否為0,如果是,則結(jié)束推薦。
[0064] 步驟2:根據(jù)單詞評(píng)分流程圖的步驟計(jì)算用戶各好友所記單詞的單詞評(píng)分值,并形 成待推薦詞庫;
[0065] 步驟3:將單詞評(píng)分值為0的單詞直接刪除,并更新待推薦詞庫;
[0066] 步驟4:判斷待推薦詞庫是否為空,如果是,則結(jié)束推薦。
[0067] 步驟5:合并重復(fù)推薦的單詞;因?yàn)樯鐣?huì)圖是有環(huán)圖,好友間很有可能會(huì)將同一個(gè) 單詞重復(fù)推薦,這一步將相同單詞合并為一個(gè),并將該單詞評(píng)分值最高者賦予合并后的單 詞;更新待推薦詞庫;
[0068] 步驟6:根據(jù)每個(gè)單詞的評(píng)分值將待推薦詞庫中的單詞按照大小進(jìn)行排序,得到推 薦單詞表。
[0069] 步驟7:在每天用戶第一次登陸社交網(wǎng)站的時(shí)候?qū)卧~表推薦給用戶。
[0070] 以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,描述較為詳細(xì),但并不能因此 理解為本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出,對(duì)于信息技術(shù)領(lǐng)域的技術(shù)人員來說,在不脫離本 發(fā)明構(gòu)思的前提下,還可以做出不同變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于社會(huì)網(wǎng)絡(luò)的詞庫構(gòu)建方法,其步驟為: 1) 基于社會(huì)網(wǎng)絡(luò)構(gòu)建用戶X的個(gè)體中屯、網(wǎng); 2) 對(duì)于該用戶X的個(gè)體中屯、網(wǎng)中每一用戶y,計(jì)算該用戶X與該用戶y之間單詞庫的相似 性;如果相似性大于設(shè)定闊值H1,則計(jì)算該用戶X、用戶y之間親密度;如果親密度大于設(shè)定 闊值H2,則根據(jù)得到的相似性與親密度確定用戶X、用戶y之間單詞的評(píng)分值;如果評(píng)分值大 于設(shè)定闊值H3,則將該用戶y在時(shí)間段T內(nèi)記憶的單詞發(fā)送給該用戶X; 3) 該用戶X將收到的單詞與該用戶X的當(dāng)前單詞庫進(jìn)行合并并刪除重復(fù)的單詞,得到該 用戶X的單詞庫。2. -種基于社會(huì)網(wǎng)絡(luò)的單詞匹配推薦方法,其步驟為: 1) 基于社會(huì)網(wǎng)絡(luò)構(gòu)建用戶X的個(gè)體中屯、網(wǎng); 2) 對(duì)于該用戶X的個(gè)體中屯、網(wǎng)中每一用戶y,計(jì)算該用戶X與該用戶y之間單詞庫的相似 性;如果相似性大于設(shè)定闊值H1,則計(jì)算該用戶X、用戶y之間親密度;如果親密度大于設(shè)定 闊值H2,則根據(jù)得到的相似性與親密度確定用戶X、用戶y之間單詞的評(píng)分值;如果評(píng)分值大 于設(shè)定闊值H3,則將該用戶y在時(shí)間段T內(nèi)記憶的單詞發(fā)送給該用戶X; 3) 根據(jù)發(fā)送過來的單詞將其按照單詞評(píng)分排序并推薦給該用戶X。3. 如權(quán)利要求1或2所述的方法,其特征在于,構(gòu)建用戶X的個(gè)體中屯、網(wǎng)的方法為:通過 社會(huì)網(wǎng)絡(luò)獲取與該用戶X相連的其他個(gè)體W及運(yùn)些個(gè)體之間的連接關(guān)系,構(gòu)成該用戶X的個(gè) 體中屯、網(wǎng)。4. 如權(quán)利要求3所述的方法,其特征在于,采用一圖結(jié)構(gòu)G表示該社會(huì)網(wǎng)絡(luò);該圖結(jié)構(gòu)G 為二元組形式:G=(V,E);其中,V是一個(gè)非空有限頂點(diǎn)集,每一頂點(diǎn)對(duì)應(yīng)一用戶,E是一個(gè)有 限邊集。5. 如權(quán)利要求1或2所述的方法,其特征在于,采用公式計(jì)算 該用戶X與該用戶y之間單詞庫的相似性sim(x,y);集合I表示用戶單詞庫的單詞類別集合, rx,康示用戶X對(duì)單詞類另Iji的評(píng)分,ry,康示用戶y對(duì)單詞類另Iji的評(píng)分。6. 如權(quán)利要求5所述的方法,其特征在于,用戶對(duì)單詞類別i中每個(gè)單詞的記憶次數(shù)相 加得到該用戶對(duì)該單詞類別i的評(píng)分。7. 如權(quán)利要求6所述的方法,其特征在于,根據(jù)用戶主動(dòng)查閱單詞次數(shù)與該單詞被推薦 次數(shù)相加得到該單詞的記憶次數(shù);將該用戶X的單詞庫中新增單詞的記憶次數(shù)記為1,重復(fù) 單詞的記憶次數(shù)加1。8. 如權(quán)利要求1或2所述的方法,其特征在于,采用公??計(jì)算該 用戶X與該用戶y之間親密度Fre(x,y);其中,Mes(x,y)表示近期設(shè)定時(shí)間長度內(nèi)用戶X、用 戶y之間的聯(lián)系數(shù)量,F(xiàn)x表示根據(jù)用戶X的個(gè)體中屯、網(wǎng)得到的用戶X的好友集合。9. 如權(quán)利要求8所述的方法,其特征在于,確定該聯(lián)系數(shù)量的方法為:統(tǒng)計(jì)用戶X發(fā)送給 用戶y的消息數(shù)量m、用戶y發(fā)送給用戶X的消息數(shù)量n,取m、n中的較小值作為用戶X、用戶y之 間的聯(lián)系數(shù)量。10.如權(quán)利要求1或2所述的方法,其特征在于,根據(jù)公式Sco = aSim(x,y)+bFre(x,y)計(jì) 算單詞的評(píng)分值SCO;其中,a、b為權(quán)重系數(shù)。
【文檔編號(hào)】G06Q50/00GK106097110SQ201610422593
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月15日 公開號(hào)201610422593.X, CN 106097110 A, CN 106097110A, CN 201610422593, CN-A-106097110, CN106097110 A, CN106097110A, CN201610422593, CN201610422593.X
【發(fā)明人】陳彥萍, 張冠男, 郭超, 楊威
【申請(qǐng)人】西安郵電大學(xué)