1.一種知識(shí)抽取方法,其特征在于,所述方法包括:
獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu);
根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;
抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu)包括:
將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度;
將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度;
根據(jù)所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、各所述第一表格內(nèi)容之間的語(yǔ)義相似度、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、各所述第二表格內(nèi)容之間的語(yǔ)義相似度,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱包括:
根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;
在確定所述初始表頭存在屬性名稱的總分結(jié)構(gòu)時(shí),對(duì)所述初始表頭進(jìn)行屬性合并,確定表頭屬性名稱。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值之前,所述方法還包括:根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容 進(jìn)行合并。
5.一種知識(shí)抽取裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取表格數(shù)據(jù)的語(yǔ)義相似度;
確定模塊,用于根據(jù)所述獲取模塊獲取的所述語(yǔ)義相似度確定表格結(jié)構(gòu);還用于根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;
抽取模塊,用于抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述獲取模塊,具體用于將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度;將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度;
所述確定模塊,具體用于根據(jù)所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、各所述第一表格內(nèi)容之間的語(yǔ)義相似度、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、各所述第二表格內(nèi)容之間的語(yǔ)義相似度,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述確定模塊,具體用于根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;在確定所述初始表頭存在屬性名稱的總分結(jié)構(gòu)時(shí),對(duì)所述表格數(shù)據(jù)的初始表頭進(jìn)行合并,確定表頭屬性名稱。
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括:
對(duì)齊模塊,用于根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并。