本文關(guān)鍵詞:專利,知識圖譜,TISC
一、構(gòu)建領(lǐng)域知識圖譜的目的和意義
在傳統(tǒng)制造企業(yè)中,企業(yè)所擁有的知識包括各類標準、設(shè)計規(guī)范、相關(guān)專利、國際國內(nèi)的法規(guī),設(shè)計方法和技巧,工藝性的評估,設(shè)計案例,圖紙說明等,妥善、合理、高效地利用好企業(yè)所擁有的相關(guān)知識是至關(guān)重要的。研究表明,在機電產(chǎn)品制造和研發(fā)過程中,約80%的產(chǎn)品設(shè)計工作能夠通過重新利用以往的設(shè)計知識滿足當(dāng)前設(shè)計任務(wù)的創(chuàng)新設(shè)計需求,且有數(shù)據(jù)表明,在一次完整的設(shè)計流程中,設(shè)計人員平均花費70%的時間來整理、查找已有的設(shè)計數(shù)據(jù)和知識,而完全投入地用于設(shè)計產(chǎn)品上的時間約占30%。由此可見,知識的合理利用在整個產(chǎn)品開發(fā)過程中起著重要的作用。
制造企業(yè)知識如專利,技術(shù)規(guī)范,設(shè)計經(jīng)驗等多以文本的形式存在,行業(yè)特點決定了這些文本語言高度精煉,概括程度較高,每篇文檔的描述重點也相對專一。在生產(chǎn)實踐中,對這些重要的開發(fā)工程知識的管理過于碎片化,一般都是存儲在數(shù)據(jù)庫中,對知識之間的聯(lián)系缺乏深入挖掘。對設(shè)計人員來講,知識獲取方式較為單一,因為在企業(yè)中,大多數(shù)情況下,文本檢索采用字符串匹配的方法來返回檢索結(jié)果,導(dǎo)致檢索結(jié)果的質(zhì)量參差不齊,需要設(shè)計人員自己再去遴選,這在一定程度上降低了其設(shè)計效率。
知識圖譜由一些相互連接的實體和實體之間的關(guān)系構(gòu)成,這些連接關(guān)系組成一個結(jié)構(gòu)化形式的語義網(wǎng)絡(luò),是一種含有語義信息的特定數(shù)據(jù)結(jié)構(gòu),用來描述事物與事物之間的關(guān)系,將各個事物關(guān)聯(lián)起來。知識圖譜可以將實體間豐富的語義用特定的形式呈現(xiàn)出來,充分地挖掘出實體間的關(guān)聯(lián)。
二、知識圖譜的構(gòu)建流程
知識圖譜的構(gòu)建流程包含了以下五個步驟:
01
定義具體的問題
這是首屈一指的環(huán)節(jié),因為知識圖譜是一個用來解決問題的工具,重要的是根據(jù)問題利用知識圖譜得到該問題的答案。根據(jù)需要解決的問題來判斷需要構(gòu)建的是通用知識圖譜還是領(lǐng)域知識圖譜,確定是針對細分領(lǐng)域的知識圖譜研究,還是覆蓋面廣的知識圖譜。如本文需要解決的是成果專利推薦問題,需要構(gòu)建的是專利領(lǐng)域的知識圖譜,知識圖譜富含豐富的語義關(guān)系可以幫忙提高推薦的精度。總之,需要先把待解決的問題給確定,才能分析構(gòu)建哪個領(lǐng)域的知識圖譜,這樣構(gòu)建的知識圖譜才有意義。
02
數(shù)據(jù)的收集與處理
定義好了具體的問題,就明確了需要構(gòu)建知識圖譜的領(lǐng)域。明確了領(lǐng)域之后就需要考慮數(shù)據(jù)來源的問題,因為構(gòu)建知識圖譜需要大量的數(shù)據(jù),大量的數(shù)據(jù)才能構(gòu)建出能準確表達語義關(guān)系的知識圖譜。同時還需要考慮的是數(shù)據(jù)的處理問題,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),都需要經(jīng)過處理,數(shù)據(jù)的預(yù)處理階段需要對數(shù)據(jù)進行篩選。數(shù)據(jù)的收集與處理是必不可少且十分重要的一個步驟,會影響后續(xù)的知識圖譜的表達。
03
知識圖譜的設(shè)計
這一環(huán)節(jié)需要確定知識圖譜的實體、關(guān)系以及屬性。如專業(yè)領(lǐng)域知識圖譜一般包含了以下實體:專利、用戶、單位、行業(yè)領(lǐng)域、技術(shù)領(lǐng)域、行業(yè)大領(lǐng)域、新技術(shù)領(lǐng)域、產(chǎn)業(yè)鏈等。這些實體都需要人為去定義,落實到具體的實體,代表著具體的事物。關(guān)系的設(shè)計,是根據(jù)所確定的實體來設(shè)計的,通常選取的關(guān)系是指各個實體之間的關(guān)系,如所屬機構(gòu)關(guān)系、應(yīng)用行業(yè)關(guān)系。屬性的確定也是根據(jù)具體的實體而言,不同的實體具有不同的屬性。確定實體、關(guān)系以及屬性需要遵循實際的業(yè)務(wù)邏輯關(guān)系,還需要考慮避免冗余的現(xiàn)象出現(xiàn),輕量化知識圖譜,這樣才能提高知識圖譜的使用效率。
04
數(shù)據(jù)存入知識圖譜
知識圖譜設(shè)計工作完成后,便是從數(shù)據(jù)抽取出所需要的知識,將知識給存入到知識圖譜中,常用的存儲知識圖譜的方式有兩種,一種是以RDF的形式存儲,另一種是存儲在圖數(shù)據(jù)庫。圖數(shù)據(jù)庫存儲是近些年愈發(fā)熱門的知識圖譜存儲方式,圖數(shù)據(jù)庫中使用最為廣泛的是Neo4J圖數(shù)據(jù)庫。Neo4J圖數(shù)據(jù)庫使用的Cypher語句來操作數(shù)據(jù)庫,Cypher語句是專門為了操作Neo4J數(shù)據(jù)庫的一門語言。其開發(fā)借鑒了SQL語句的語法規(guī)則,使得Cypher語句具有SQL語句的簡易操作和靈活。
05
上層應(yīng)用開發(fā)
構(gòu)建好了知識圖譜,有很多業(yè)務(wù)可以用到知識圖譜來提高效率,比如可以用于智能問答、語義搜索、社交網(wǎng)絡(luò)以及垂直行業(yè)應(yīng)用。知識圖譜在很多企業(yè)都有應(yīng)用,如Facebook的核心技術(shù)就是利用知識圖譜將各個用戶相關(guān)聯(lián)起來;Google的搜索引擎功能也是借助構(gòu)建好的知識圖譜,為用戶提供智能化的搜索服務(wù);百度的“小度”語音助手也是依據(jù)知識圖譜來提供智能問答功能。
領(lǐng)域知識圖譜可以挖掘出某專業(yè)領(lǐng)域知識之間潛在的關(guān)聯(lián),并且針對不同的檢索語句將經(jīng)過深入挖掘的、多樣化的、有關(guān)聯(lián)的,相關(guān)程度較高的知識返回給設(shè)計人員,實現(xiàn)企業(yè)專利知識的高效重用。