欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于社交關(guān)系圖譜的垃圾語音識別方法和系統(tǒng)與流程

文檔序號:12829435閱讀:360來源:國知局
一種基于社交關(guān)系圖譜的垃圾語音識別方法和系統(tǒng)與流程

本發(fā)明屬于無線通信技術(shù)領(lǐng)域,更具體地,涉及一種基于社交關(guān)系圖譜的垃圾語音識別方法和系統(tǒng)。



背景技術(shù):

隨著現(xiàn)代社會物質(zhì)生活的越來越豐富,人們的生活水平也越來越高,對手機(jī)通信設(shè)備的需求也越來越大,手機(jī)用戶的數(shù)量也隨之持續(xù)增加,然而伴隨著手機(jī)用戶數(shù)量的增加,垃圾語音、騷擾電話也呈現(xiàn)井噴趨勢,增速明顯。越來越多的公司、團(tuán)體、個人為了實(shí)現(xiàn)其經(jīng)濟(jì)利益或政治目的,通過垃圾語音等方式對其目標(biāo)人群進(jìn)行騷擾,主要表現(xiàn)為電話營銷、反動信息傳播、詐騙等形式。對于普通用戶來說,垃圾語音不僅擾亂了人們的正常生活和工作,還會對受害者造成精神上的傷害或經(jīng)濟(jì)上的損失,用戶對垃圾語音的強(qiáng)烈不滿,引起了社會各界的普遍關(guān)注。對于電信運(yùn)營商來說,垃圾語音對通信網(wǎng)絡(luò)資源的正常使用產(chǎn)生了影響,更加影響了品牌形象。因此對于垃圾語音進(jìn)行識別和攔截的研究,具有重要的現(xiàn)實(shí)意義。

目前廣泛采用的垃圾語音識別方法包括有基于語音識別的垃圾語音識別方法,以及基于通信行為分析的垃圾語音識別方法。前者是通過在電話接通之后分析短時間內(nèi)會話交流的語音關(guān)鍵字來判斷該來電號碼是否是垃圾語音發(fā)起號碼,該方法對于機(jī)器錄音設(shè)備發(fā)起的垃圾語音呼叫具有良好的識別效果,但是對人工發(fā)起的垃圾語音呼叫識別的準(zhǔn)確率不高,并且由于該方法是在電話接通之后進(jìn)行進(jìn)一步分析,導(dǎo)致用戶是在被騷擾以后才識別出垃圾語音騷擾行為,此外,這種識別方法在一定意義上侵犯了用戶的隱私;對于后者而言,它是通過分析用戶的通信行為(包括通話時長、通話頻次等)來識別垃圾語音發(fā)起號碼,其操作過程簡單方便,但是該方法對于那些通信行為不固定的垃圾語音發(fā)起號碼而言,其識別效率不佳。



技術(shù)實(shí)現(xiàn)要素:

針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種基于社交關(guān)系圖譜的垃圾語音識別方法和系統(tǒng),其目的在于,通過提取用戶的通話歷史記錄構(gòu)建用戶層面上的社交關(guān)系圖譜,并基于用戶的全局信任度和局部信任度進(jìn)行垃圾語音識別,從而解決了現(xiàn)有垃圾語音識別方法中存在的對人工發(fā)起的垃圾語音呼叫識別的準(zhǔn)確率不高、會在一定意義上侵犯用戶隱私、對于通信行為不固定的垃圾語音發(fā)起號碼而言識別效率不佳的技術(shù)問題。

為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種基于社交關(guān)系圖譜的垃圾語音識別方法,包括以下步驟:

(1)為用戶建立垃圾語音庫,提取用戶的歷史通話記錄,基于該歷史通話記錄構(gòu)建用戶的社交關(guān)系圖譜;

(2)判斷用戶新接入的主叫號碼是否處于垃圾語音庫中,如果處于該垃圾語音庫,則轉(zhuǎn)入步驟(8),否則轉(zhuǎn)入步驟(3);

(3)根據(jù)建立的社交關(guān)系圖譜判斷用戶新接入的該主叫號碼是否能通過中間節(jié)點(diǎn)與被叫號碼連接起來,如果能夠,則轉(zhuǎn)入步驟(6),否則轉(zhuǎn)入步驟(4);

(4)根據(jù)建立的社交關(guān)系圖譜計算用戶新接入的該主叫號碼的全局信任度;

(5)判斷步驟(4)得到的該主叫號碼的全局信任度是否大于全局信任度閾值t,如果大于全局信任度閾值,則表示該主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,反之則表示該主叫號碼是垃圾語音發(fā)起號碼,然后轉(zhuǎn)入步驟(8);

(6)使用信任度量算法獲取被叫號碼的用戶對主叫號碼用戶的局部信任度;

(7)判斷步驟(6)得到的被叫號碼對主叫號碼的局部信任度是否大于局部信任度閾值,如果大于閾值,則判定主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,否則判定主叫號碼為垃圾語音發(fā)起號碼,然后轉(zhuǎn)入步驟(8);

(8)被叫號碼用戶判斷是否接聽該垃圾語音發(fā)起號碼,并將垃圾語音發(fā)起號碼添加到垃圾語音庫中。

優(yōu)選地,提取的歷史通話記錄是用戶1星期到1個月之間的歷史通話記錄,提取的關(guān)鍵信息包括主叫號碼、被叫號碼、撥號時間、通話時長、是否接聽。

優(yōu)選地,步驟(1)包括以下子步驟:

(1-1)建立垃圾語音庫,并初始化該垃圾語音庫,使該垃圾語音庫中的語音號碼為空;

(1-2)從用戶的歷史通話記錄中提取關(guān)鍵信息;

(1-3)基于提取的關(guān)鍵信息建立用戶的社交關(guān)系圖譜,該社交關(guān)系圖譜包括彼此間存在通話記錄的所有用戶所構(gòu)成的節(jié)點(diǎn)集合、節(jié)點(diǎn)彼此之間存在通話關(guān)系所構(gòu)成的邊、以及每個邊的權(quán)重。

(1-4)根據(jù)建立的社交關(guān)系圖譜計算直接相連的兩個節(jié)點(diǎn)i對j的信任度。

優(yōu)選地,步驟(1-4)的計算過程是通過以下公式:

其中ti,j表示節(jié)點(diǎn)i對與其相連的結(jié)點(diǎn)j的信任度,ni,j表示用戶j主動向用戶i撥打電話的次數(shù),ci,j表示用戶i接聽來自用戶j的電話、且通話時長超過閾值的次數(shù)。

優(yōu)選地,步驟(4)的計算過程是使用以下公式:

其中s(j)為用戶j的全局信任度,n為社交關(guān)系圖譜中所有節(jié)點(diǎn)的數(shù)量,a是0到1之間的數(shù),fu為結(jié)點(diǎn)j所直接連接的節(jié)點(diǎn)的數(shù)量,表示節(jié)點(diǎn)j直接連接的節(jié)點(diǎn)uk對節(jié)點(diǎn)j的信任度,且k為1到n之間的整數(shù)。

優(yōu)選地,步驟(6)中使用的信任度量算法是tidaltrust算法,且采用以下公式獲取局部信任度:

其中ti,k表示被叫號碼用戶i對主叫號碼k的局部信任度,adj(i)表示社交關(guān)系圖譜中用戶i相鄰的所有節(jié)點(diǎn)中用戶i對其信任度大于閾值的節(jié)點(diǎn)集合。

按照本發(fā)明的另一方面,提供了一種基于社交關(guān)系圖譜的垃圾語音識別系統(tǒng),包括:

第一模塊,用于為用戶建立垃圾語音庫,提取用戶的歷史通話記錄,基于該歷史通話記錄構(gòu)建用戶的社交關(guān)系圖譜;

第二模塊,用于判斷用戶新接入的主叫號碼是否處于垃圾語音庫中,如果處于該垃圾語音庫,則轉(zhuǎn)入第八模塊,否則轉(zhuǎn)入第三模塊;

第三模塊,用于根據(jù)建立的社交關(guān)系圖譜判斷用戶新接入的該主叫號碼是否能通過中間節(jié)點(diǎn)與被叫號碼連接起來,如果能夠,則轉(zhuǎn)入第六模塊,否則轉(zhuǎn)入第四模塊;

第四模塊,用于根據(jù)建立的社交關(guān)系圖譜計算用戶新接入的該主叫號碼的全局信任度;

第五模塊,用于判斷第四模塊得到的該主叫號碼的全局信任度是否大于全局信任度閾值t,如果大于全局信任度閾值,則表示該主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,反之則表示該主叫號碼是垃圾語音發(fā)起號碼,然后轉(zhuǎn)入第八模塊;

第六模塊,用于使用信任度量算法獲取被叫號碼的用戶對主叫號碼用戶的局部信任度;

第七模塊,用于判斷第六模塊得到的被叫號碼對主叫號碼的局部信任度是否大于局部信任度閾值,如果大于閾值,則判定主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,否則判定主叫號碼為垃圾語音發(fā)起號碼,然后轉(zhuǎn)入步驟第八模塊;

第八模塊,用于被叫號碼用戶判斷是否接聽該垃圾語音發(fā)起號碼,并將垃圾語音發(fā)起號碼添加到垃圾語音庫中。

總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:

1、本發(fā)明能夠解決現(xiàn)有垃圾語音識別方法中存在的對人工發(fā)起的垃圾語音呼叫識別的準(zhǔn)確率不高的技術(shù)問題:由于采用了步驟(1)構(gòu)建社交關(guān)系圖譜,在后續(xù)語音識別過程中,著重點(diǎn)在于用戶節(jié)點(diǎn)之間的關(guān)系,而不考慮垃圾語音發(fā)起號碼是人工還是機(jī)器,只需考慮發(fā)起號碼的信任度問題,因此對于無論是機(jī)器還是人工發(fā)起的垃圾語音,都能夠達(dá)到良好的識別效果;

2、本發(fā)明能夠解決現(xiàn)有方法會侵犯用戶隱私的技術(shù)問題:由于本發(fā)明是在用戶接聽電話之前就進(jìn)行了垃圾語音的識別和判斷,不需要在用戶接聽來電后對會話進(jìn)行短時間的監(jiān)聽和識別,從而避免了侵犯用戶隱私的問題;

3、本發(fā)明能夠解決現(xiàn)有方法中通信行為不固定的垃圾語音發(fā)起號碼而言識別效率不佳的技術(shù)問題:由于本發(fā)明是通過分析用戶之間的局部信任度以及單個用戶基于整個網(wǎng)絡(luò)的全局信任度來判別垃圾語音發(fā)起號碼,不需要考慮用戶的通信行為,從而對通信行為不固定的垃圾語音發(fā)起號碼也有極好的識別效果;

4、本發(fā)明的方法簡單明了,運(yùn)行效率較高;

5、本發(fā)明的識別方法可動態(tài)適應(yīng)用戶的通信行為變化,并滿足用戶的個性化需求。

附圖說明

圖1是本發(fā)明基于社交關(guān)系圖譜的垃圾語音識別方法的流程圖;

圖2是本發(fā)明方法中創(chuàng)建的社交關(guān)系圖譜的示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。

本發(fā)明提供了一種基于用戶社交關(guān)系圖譜的垃圾語音識別方法,其基于用戶的通話歷史記錄構(gòu)建用戶的社交關(guān)系圖譜,通過計算用戶之間的局部信任度和全局信任度,從而識別垃圾語音。

如圖1所示,本發(fā)明基于社交關(guān)系圖譜的垃圾語音識別方法包括以下步驟:

(1)為用戶建立垃圾語音庫(其用于存放垃圾語音號碼),提取用戶的歷史通話記錄,基于該歷史通話記錄構(gòu)建用戶的社交關(guān)系圖譜;具體而言,提取的歷史通話記錄是用戶1星期到1個月之間的歷史通話記錄;

具體而言,本步驟包括以下子步驟:

(1-1)建立垃圾語音庫,并初始化該垃圾語音庫,使該垃圾語音庫中的語音號碼為空;

(1-2)從用戶的歷史通話記錄中提取關(guān)鍵信息;具體而言,提取的關(guān)鍵信息包括主叫號碼、被叫號碼、撥號時間、通話時長、是否接聽等。

(1-3)基于提取的關(guān)鍵信息建立用戶的社交關(guān)系圖譜,該社交關(guān)系圖譜包括彼此間存在通話記錄的所有用戶所構(gòu)成的節(jié)點(diǎn)集合、節(jié)點(diǎn)彼此之間存在通話關(guān)系所構(gòu)成的邊、以及每個邊的權(quán)重;

如圖2所示,用有向帶權(quán)圖g(n,e,w)表示,其中n為存在通話記錄的所有用戶構(gòu)成的節(jié)點(diǎn)集合,e為圖譜中節(jié)點(diǎn)之間的有向邊,代表用戶之間的通話關(guān)系,w為邊的權(quán)重,表示圖譜中相連用戶之間的認(rèn)同程度,或者說是用戶一方(某個節(jié)點(diǎn))對另外一方(圖譜中相連的另一個節(jié)點(diǎn))的信任度(例如,從節(jié)點(diǎn)g指向節(jié)點(diǎn)j的箭頭,就是表示用戶g對于用戶j的信任度)。

從圖2可以看出,存在邊連接的兩個節(jié)點(diǎn),就是彼此有過通話記錄的兩個用戶,例如用戶a和用戶g,用戶g與用戶j,用戶j與用戶i。

(1-4)根據(jù)建立的社交關(guān)系圖譜計算直接相連的兩個節(jié)點(diǎn)i對j的信任度;具體而言,計算公式如以下公式(1)所示:

其中ti,j表示節(jié)點(diǎn)i對與其相連的結(jié)點(diǎn)j的信任度,ni,j表示用戶j主動向用戶i撥打電話的次數(shù),ci,j表示用戶i接聽來自用戶j的電話、且通話時長超過閾值(其取值范圍是15秒以上)的次數(shù)。

(2)判斷用戶新接入的主叫號碼是否處于垃圾語音庫中,如果處于該垃圾語音庫,則轉(zhuǎn)入步驟(8),否則轉(zhuǎn)入步驟(3);

(3)根據(jù)建立的社交關(guān)系圖譜判斷用戶新接入的該主叫號碼是否能通過中間節(jié)點(diǎn)與被叫號碼連接起來,如果能夠,則轉(zhuǎn)入步驟(6),否則轉(zhuǎn)入步驟(4);具體而言,如果新接入的主叫號碼不能通過圖2中所示的中間節(jié)點(diǎn)與被叫號碼連接,則說明該主叫號碼是一個孤立結(jié)點(diǎn);

(4)根據(jù)建立的社交關(guān)系圖譜計算用戶新接入的該主叫號碼的全局信任度,其中全局信任度是指,整個社交網(wǎng)絡(luò)圖譜中其他用戶對當(dāng)前用戶的整體信任評價;

具體而言,本步驟的計算過程是使用以下公式(2):

其中s(j)為用戶j的全局信任度,n為社交關(guān)系圖譜中所有節(jié)點(diǎn)(包括有孤立節(jié)點(diǎn))的數(shù)量,a為常數(shù),其取值范圍是0到1之間,fu為結(jié)點(diǎn)j所直接連接的節(jié)點(diǎn)的數(shù)量,表示節(jié)點(diǎn)j直接連接的節(jié)點(diǎn)uk對節(jié)點(diǎn)j的信任度,且k為1到n之間的整數(shù)。

(5)判斷步驟(4)得到的該主叫號碼的全局信任度是否大于全局信任度閾值t(其取值范圍是0.3到0.6之間),如果大于全局信任度閾值,則表示該主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,反之則表示該主叫號碼是垃圾語音發(fā)起號碼,然后轉(zhuǎn)入步驟(8);

(6)使用信任度量算法獲取被叫號碼的用戶對主叫號碼用戶的局部信任度;具體而言,本發(fā)明中使用的信任度量算法是tidaltrust算法,本步驟是采用以下公式(3):

其中ti,k表示被叫號碼用戶i對主叫號碼k的局部信任度,adj(i)表示社交關(guān)系圖譜中用戶i相鄰的所有節(jié)點(diǎn)中用戶i對其信任度大于閾值(該閾值的取值范圍是0.3到0.5之間,優(yōu)選為0.35)的節(jié)點(diǎn)集合。

(7)判斷步驟(6)得到的被叫號碼對主叫號碼的局部信任度是否大于局部信任度閾值(該閾值一般等于被叫號碼接聽電話的通話時長超過10秒的次數(shù)占被叫號碼總的接聽電話次數(shù)的比值),如果大于閾值,則判定主叫號碼不是垃圾語音發(fā)起號碼,然后過程結(jié)束,否則判定主叫號碼為垃圾語音發(fā)起號碼,然后轉(zhuǎn)入步驟(8);

(8)被叫號碼用戶判斷是否接聽該垃圾語音發(fā)起號碼,并將垃圾語音發(fā)起號碼添加到垃圾語音庫中。

本發(fā)明構(gòu)建用戶的社交關(guān)系圖譜,基于用戶之間的局部信任度和全局信任度來識別垃圾語音。本發(fā)明不需要系統(tǒng)地分析用戶的通話行為,只需要提取用戶的歷史通話記錄,構(gòu)建社交關(guān)系圖譜,計算相應(yīng)的信任度就可以判定是否為垃圾語音。

本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
高雄县| 平江县| 泽州县| 读书| 天等县| 宜丰县| 陆丰市| 广汉市| 淮阳县| 鄂尔多斯市| 和政县| 安阳县| 阿鲁科尔沁旗| 会东县| 凤台县| 贺州市| 鹰潭市| 永嘉县| 淮安市| 高淳县| 公安县| 星子县| 锦州市| 博乐市| 安福县| 辽阳县| 玉溪市| 梁山县| 定州市| 兴山县| 山阴县| 武威市| 文成县| 潜山县| 涿鹿县| 桑植县| 舞钢市| 左权县| 西安市| 新源县| 田东县|