技術總結
本申請公開了一種文本檢測方法及裝置,該方法涉及網(wǎng)絡技術領域。包括:生成待檢測文本的摘要信息;確定摘要信息集合中是否保存所述摘要信息;若所述摘要信息集合中保存所述摘要信息,則根據(jù)所述摘要信息對應的歷史文本集合檢測所述待檢測文本是否是重復文本;若所述摘要信息集合中未保存所述摘要信息,則根據(jù)文本相似度計算模型檢測所述待檢測文本是否是重復文本。該方案有效縮減了需要計算相似度的待檢測文本的數(shù)量,減少了計算量,降低了對計算資源的要求。
技術研發(fā)人員:王彥鋒
受保護的技術使用者:阿里巴巴集團控股有限公司
文檔號碼:201510587677
技術研發(fā)日:2015.09.15
技術公布日:2017.03.22