本技術屬于人工智能,尤其涉及一種風險識別方法、裝置、電子設備及存儲介質(zhì)。
背景技術:
1、目前,一些目標對象(如某品牌、某企業(yè)、某個體或者某群體等)的風險識別方法通常先獲取該目標對象的輿情文本,比如關于目標對象的新聞文本、評價文本、輿論文本、投訴文本或者舉報文本等文本,然后通過人工根據(jù)獲取到的輿情文本識別出該目標對象的風險。由于這種方法需要人工進行識別,故對目標對象進行風險識別的成本較高。
技術實現(xiàn)思路
1、有鑒于此,本技術實施例提供了一種風險識別方法、裝置、電子設備及存儲介質(zhì),以解決現(xiàn)有的對目標對象進行風險識別的成本較高的技術問題。
2、第一方面,本技術實施例提供一種風險識別方法包括:
3、獲取與目標對象對應的原始輿情文本;
4、針對所述原始輿情文本中的每個原始輿情子文本,確定該原始輿情子文本與目標詞庫中的各個負面關鍵詞之間的第一關聯(lián)度;
5、根據(jù)各個所述原始輿情子文本的所述第一關聯(lián)度,確定負面輿情文本;
6、針對所述負面輿情文本中的每個負面輿情子文本,確定該負面輿情子文本與風險標簽詞庫中的各個風險標簽之間的第二關聯(lián)度;
7、根據(jù)各個所述負面輿情子文本的所述第二關聯(lián)度,確定所述目標對象是否存在風險和/或所述目標對象的風險類型。
8、可選的,所述目標詞庫通過以下方式構(gòu)建:
9、獲取輿情訓練文本;
10、針對所述輿情訓練文本中的每個輿情訓練子文本,確定該輿情訓練子文本的各個第一關鍵詞;
11、針對每個所述第一關鍵詞,確定該第一關鍵詞的tf-idf值、該第一關鍵詞在所述輿情訓練文本中的出現(xiàn)頻率以及該第一關鍵詞在對應的輿情訓練子文本的出現(xiàn)次數(shù),并根據(jù)所述tf-idf值、所述出現(xiàn)頻率以及出現(xiàn)次數(shù),確定該第一關鍵詞對所述輿情訓練文本的代表度,若該第一關鍵詞的代表度大于第一預設代表度閾值,則將該第一關鍵詞和該第一關鍵詞的代表度關聯(lián)存儲至所述目標詞庫中。
12、可選的,所述目標詞庫通過以下方式更新:
13、獲取更新后的所述輿情訓練文本,并確定更新后的所述輿情訓練文本中的各個第二關鍵詞;
14、針對每個所述第二關鍵詞,確定該第二關鍵詞與相鄰字符的凝固度,若所述凝固度大于第一預設凝固度閾值,則確定該第二關鍵詞與相鄰字符的自由度,若所述自由度大于第一預設自由度閾值,并且所述目標詞庫中未包括該第二關鍵詞,則將該第二關鍵詞和該第二關鍵詞對應的代表度關聯(lián)存儲至所述目標詞庫中;
15、針對所述目標詞庫中的每個第三關鍵詞,根據(jù)更新后的所述輿情訓練文本,重新計算該第三關鍵詞的代表度,且根據(jù)重新計算得到的代表度,對所述目標詞庫中的所述第三關鍵詞和所述第三關鍵詞的代表度進行更新。
16、可選的,所述確定該原始輿情子文本與目標詞庫中的各個負面關鍵詞之間的第一關聯(lián)度,包括:
17、確定該原始輿情子文本中命中所述目標詞庫的各個第四關鍵詞,并確定各個所述第四關鍵詞在該原始輿情子文本中的出現(xiàn)頻率、各個所述第四關鍵詞分別對應的代表度以及所述第四關鍵詞的數(shù)量;
18、確定該原始輿情子文本的負面情感得分,并確定該原始輿情子文本與其它原始輿情子文本之間的相似度;
19、根據(jù)各個所述第四關鍵詞在該原始輿情子文本中的出現(xiàn)頻率、各個所述第四關鍵詞分別對應的代表度、所述第四關鍵詞的數(shù)量、該原始輿情子文本的負面情感得分以及該原始輿情子文本與其它原始輿情子文本之間的相似度,確定該原始輿情子文本的所述第一關聯(lián)度。
20、可選的,所述風險標簽詞庫通過以下方式構(gòu)建:
21、獲取負面輿情訓練文本;其中,所述負面輿情訓練文本包括若干個標注有風險類型的負面輿情訓練子文本;
22、針對每個所述負面輿情訓練子文本,確定該負面輿情訓練子文本中的第五關鍵詞;
23、針對每個所述第五關鍵詞,確定該第五關鍵詞的tf-idf值、該第五關鍵詞在所述負面輿情訓練文本中的出現(xiàn)頻率以及該第五關鍵詞在對應的負面輿情訓練子文本的出現(xiàn)次數(shù),并根據(jù)所述tf-idf值、所述出現(xiàn)頻率以及所述出現(xiàn)次數(shù),確定該第五關鍵詞對所述負面輿情訓練文本的代表度,若該第五關鍵詞對所述負面輿情訓練文本的代表度大于第二預設代表度閾值,則將該第五關鍵詞、該第五關鍵詞對所述負面輿情訓練文本的代表度、以及該第五關鍵詞對應的風險類型關聯(lián)存儲至所述風險標簽詞庫中。
24、可選的,所述風險標簽詞庫通過以下方式更新:
25、獲取更新后的所述負面輿情訓練文本,并確定更新后的所述負面輿情訓練文本中的第六關鍵詞;
26、針對每個所述第六關鍵詞,確定該第六關鍵詞與相鄰字符的凝固度,若所述凝固度大于第二預設凝固度閾值,確定該第六關鍵詞與相鄰字符的自由度,若所述自由度大于第二預設自由度閾值,并且所述風險標簽詞庫中未包括該第六關鍵詞,則將該第六關鍵詞、該第六關鍵詞對應的代表度以及該第六關鍵詞對應的風險類型關聯(lián)存儲至所述風險標簽詞庫中;
27、針對所述風險標簽詞庫中的每個第七關鍵詞,根據(jù)更新后的所述負面輿情訓練文本,重新計算該第七關鍵詞的代表度,且根據(jù)重新計算得到的代表度,對所述風險標簽詞庫中的所述第七關鍵詞和所述第七關鍵詞的代表度進行更新。
28、可選的,所述確定該負面輿情子文本與風險標簽詞庫中的各個風險標簽之間的第二關聯(lián)度,包括:
29、確定該負面輿情子文本命中所述風險標簽詞庫的各個第八關鍵詞,并確定各個所述第八關鍵詞在該負面輿情子文本中的出現(xiàn)頻率、各個所述第八關鍵詞分別對應的代表度以及所述第八關鍵詞的數(shù)量;
30、根據(jù)各個所述第八關鍵詞在所述負面輿情子文本中的出現(xiàn)頻率、各個所述第八關鍵詞分別對應的代表度以及所述第八關鍵詞的數(shù)量,確定該負面輿情子文本的所述第二關聯(lián)度。
31、第二方面,本技術實施例提供一種風險識別裝置,包括:
32、原始輿情文本獲取單元,用于獲取與目標對象對應的原始輿情文本;
33、第一關聯(lián)度確定單元,用于針對所述原始輿情文本中的每個原始輿情子文本,確定該原始輿情子文本與目標詞庫中的各個負面關鍵詞之間的第一關聯(lián)度;
34、負面輿情文本確定單元,用于根據(jù)各個所述原始輿情子文本的所述第一關聯(lián)度,確定負面輿情文本;
35、第二關聯(lián)度確定單元,用于針對所述負面輿情文本中的每個負面輿情子文本,確定該負面輿情子文本與風險標簽詞庫中的各個風險標簽之間的第二關聯(lián)度;
36、風險確定單元,用于根據(jù)各個所述負面輿情子文本的所述第二關聯(lián)度,確定所述目標對象是否存在風險和/或所述目標對象的風險類型。
37、第三方面,本技術實施例提供一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述第一方面任一項所述的風險識別方法中的各步驟。
38、第四方面,本技術實施例提供一種計算機可讀存儲介質(zhì)所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面任一項所述的風險識別方法中的各步驟。
39、第五方面,本技術實施例提供一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品在電子設備上運行時,使得電子設備執(zhí)行如上述第一方面或第一方面的任一可選方式所述的方法中的各步驟。
40、本技術實施例提供的風險識別方法、裝置、電子設備及存儲介質(zhì)具有以下
41、有益效果:
42、本技術實施例提供的風險識別方法,通過獲取與目標對象對應的原始輿情文本,并針對原始輿情文本中的每個原始輿情子文本,確定該原始輿情子文本與目標詞庫中的各個負面關鍵詞之間的第一關聯(lián)度,再根據(jù)各個原始輿情子文本的第一關聯(lián)度,確定負面輿情文本,然后針對負面輿情文本中的每個負面輿情子文本,確定該負面輿情子文本與風險標簽詞庫中的各個風險標簽之間的第二關聯(lián)度,最后根據(jù)各個負面輿情子文本的第二關聯(lián)度,確定目標對象是否存在風險和/或目標對象的風險類型。通過本方法可以自動對目標對象的風險進行識別,無需人工識別,因此降低了對目標對象進行風險識別的成本。