專利智能全文檢索系統(tǒng)是拓爾思具有自主知識(shí)產(chǎn)權(quán)的智能全文檢索引擎系統(tǒng)。他采用了自然語言處理與智能檢索技術(shù),實(shí)現(xiàn)了結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理、實(shí)時(shí)動(dòng)態(tài)索引、中文字詞混合索引、分布式與負(fù)載均衡和快速返回結(jié)果等,可滿足海量專利和非專利文獻(xiàn)復(fù)雜檢索需求的智能全文檢索引擎系統(tǒng)。
主要特點(diǎn)
1) 全方位檢索手段:提供了多達(dá)40多種檢索運(yùn)算符。包括外部特征與文本內(nèi)容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。
2) 多種檢索入口:屬性字段檢索(如分類檢索)、關(guān)鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進(jìn)檢索)、大小寫敏感檢索、中文簡繁體擴(kuò)展檢索、支持超長檢索表達(dá)式等。
3) 知識(shí)擴(kuò)展檢索:檢索時(shí)能夠應(yīng)用同義詞典、反義詞典和主題詞典進(jìn)行自動(dòng)或函數(shù)式的擴(kuò)展檢索。
4) 基于成本優(yōu)化的查詢算法:高效的索引壓縮技術(shù)、SKIP索引跳躍式掃描技術(shù)、多庫并行檢索技術(shù)、表達(dá)式優(yōu)化技術(shù)、結(jié)果共享技術(shù)、CACHE技術(shù)。CACHE技術(shù)支持更多的并發(fā)用戶訪問,大大提高了綜合查詢速度。
5) 支持對(duì)檢索結(jié)果的各種排序:檢索結(jié)果與檢索詞的相關(guān)度排序;基于字段的排序;后進(jìn)先出的快速排序。同時(shí)對(duì)多庫檢索結(jié)果可以進(jìn)行混排。LIFO(后進(jìn)先出的快速排序)對(duì)實(shí)際運(yùn)行系統(tǒng)的性能提高有很大作用。TOP N排序可通過結(jié)果記錄數(shù)的裁減以減少檢索歷史的存儲(chǔ)來提高檢索速度。
6) 支持檢索結(jié)果的分類統(tǒng)計(jì),支持用正則表達(dá)式來篩選分類統(tǒng)計(jì)的目標(biāo)字段值,并支持抽取部分子串組成新的類別。
7) 支持短語級(jí)別(INCLUDE函數(shù))和詞級(jí)別(LIKE函數(shù))的“相似性”檢索,INCLUDE函數(shù)支持CHAR字段的運(yùn)算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規(guī)則”、“排除規(guī)則”與“選擇規(guī)則”的三種拼寫組合。
8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實(shí)體字段之間的邏輯關(guān)系與排序加權(quán)。
9) 實(shí)現(xiàn) “同字段”的限定運(yùn)算,支持復(fù)雜條件下的檢索需求。
TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統(tǒng),實(shí)現(xiàn)了圖像數(shù)據(jù)的有效管理,提供基于內(nèi)容的圖像檢索功能,實(shí)現(xiàn)基于顏色、紋理、形狀、結(jié)構(gòu)、圖元等底層特征的圖像檢索,同時(shí)結(jié)合SQL檢索,實(shí)現(xiàn)了元數(shù)據(jù)和圖像數(shù)據(jù)的統(tǒng)一管理,結(jié)合了傳統(tǒng)基于文本檢索和目前基于內(nèi)容檢索的優(yōu)勢(shì):
1) 高智能性:多種特征自由組合,適用不同場(chǎng)景;
2) 高命中率:一次檢索范圍內(nèi)90%相同相似圖像出現(xiàn)在結(jié)果集的前15%中;
3) 大數(shù)據(jù)量:單臺(tái)檢索引擎可裝載億級(jí)的圖像數(shù)據(jù);
4) 并行計(jì)算:具有并行計(jì)算能力,充分利用多核CPU資源;
5) 易擴(kuò)展性:具有易擴(kuò)展的體系架構(gòu)設(shè)計(jì),可滿足大數(shù)據(jù)量及用戶的處理
6) 快速響應(yīng):99%的檢索請(qǐng)求都可以在2秒內(nèi)完成;
給定檢索圖像,最理想的檢索結(jié)果是滿足要求的對(duì)比設(shè)計(jì)在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復(fù)雜性,這種理想的結(jié)果往往不能實(shí)現(xiàn),因此,準(zhǔn)確性主要反映在對(duì)比設(shè)計(jì)出現(xiàn)在相似度排序的位置占所有圖像的比例。衡量該比例有兩個(gè)因素,一個(gè)是平均值,另一個(gè)是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩(wěn)定性。另外,由于用戶可以對(duì)部分檢索結(jié)果進(jìn)行正負(fù)樣本標(biāo)定,系統(tǒng)可以根據(jù)標(biāo)定結(jié)果進(jìn)行重排序,重排序后是否能夠?qū)ο到y(tǒng)性能帶來改善也是準(zhǔn)確性的指標(biāo)之一。目前,系統(tǒng)可以保證90%的對(duì)比文件出現(xiàn)在檢索結(jié)果的前15%。
計(jì)算機(jī)在執(zhí)行檢索,實(shí)際上就是圖像特征相似度的計(jì)算。因此圖像特征能否準(zhǔn)確表征圖像,就成為影響圖像檢索準(zhǔn)確性的關(guān)鍵。TRS IRS擁有完善的特征算法庫,包括:
1) 顏色特征可以描述圖像的顏色構(gòu)成及其分布,在所有的特征中具有最優(yōu)的魯棒性;
2) 紋理特征反映圖像中同質(zhì)現(xiàn)象的視覺特征,與物體的位置,走向尺寸和形狀有關(guān);
3) 形狀特征以圖像中物體或區(qū)域的外輪廓為基礎(chǔ),滿足對(duì)旋轉(zhuǎn)和縮放的無關(guān)性;
4) 結(jié)構(gòu)特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關(guān);
5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結(jié)構(gòu)特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細(xì)節(jié)檢索的要求,圖元特征則能很好的解決這一問題。
6) 語義特征由圖像的語義標(biāo)簽生成,也就是以關(guān)鍵詞作為語義特征,它可以充分利用傳統(tǒng)的圖像檢索系統(tǒng)的標(biāo)注信息;
7) 深度特征是基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預(yù)訓(xùn)練的CNN提取的特征可以被廣泛應(yīng)用到各個(gè)領(lǐng)域的各種數(shù)據(jù)集?;诰矸e神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。
TRS深度文本挖掘軟件是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的新一代文本挖掘軟件,集成了開源深度神經(jīng)網(wǎng)絡(luò)框架TensorFlow,通過對(duì)行業(yè)大數(shù)據(jù)的深度學(xué)習(xí),實(shí)現(xiàn)自動(dòng)分類、語義相似度計(jì)算、文本摘要、自動(dòng)校對(duì)、詞典挖掘等功能的優(yōu)化。
DL-CKM使用的深度模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、詞嵌入(Word Embedding)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。
主要特點(diǎn)
1) 融合了自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、深度神經(jīng)網(wǎng)絡(luò)等技術(shù),并持續(xù)追蹤最新的前沿技術(shù),不斷更新產(chǎn)品。
2) 豐富的語言學(xué)知識(shí),包含分詞詞典、多行業(yè)主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。
3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關(guān)系抽取、情感分析、智能問答、機(jī)器新聞寫作、熱點(diǎn)發(fā)現(xiàn)、文種識(shí)別、拼音檢索、相關(guān)短語檢索、(政治)常識(shí)校對(duì) 、數(shù)據(jù)比對(duì)、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標(biāo)題生成等功能。
4) 高效的文本處理速度:對(duì)多數(shù)功能模塊而言,單文本挖掘服務(wù)器平均能達(dá)到每秒幾百條文本的處理能力。
5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯(cuò)的方式進(jìn)行部署和運(yùn)行。
6) 提供國產(chǎn)化介質(zhì),支持Intel、NV、飛騰和龍芯等不同體系結(jié)構(gòu)的國產(chǎn)化硬件環(huán)境。
TRS企業(yè)搜索應(yīng)用適配器(TRS Search Adapter)軟件是一款由TRS自主設(shè)計(jì)研發(fā),具有強(qiáng)大數(shù)據(jù)集成能力的數(shù)據(jù)集成平臺(tái)。TRS Search Adapter能幫助企業(yè)修正數(shù)據(jù)質(zhì)量、匯集多數(shù)據(jù)源、轉(zhuǎn)換數(shù)據(jù)形態(tài),提升數(shù)據(jù)的利用價(jià)值。
主要特點(diǎn)
降低成本
1) 統(tǒng)一數(shù)據(jù)處理框架適應(yīng)任意數(shù)據(jù)處理需求
2) 強(qiáng)大的數(shù)據(jù)處理能力
提高效率
1) 基于圖形化的數(shù)據(jù)流程定義
2) 支持多線程數(shù)據(jù)處理
擴(kuò)展性高
1) 可擴(kuò)展遠(yuǎn)程執(zhí)行引擎實(shí)現(xiàn)多機(jī)部署
2) 插件式數(shù)據(jù)處理節(jié)點(diǎn)可以適應(yīng)多種數(shù)據(jù)集成背景
專利智能全文檢索系統(tǒng)是拓爾思具有自主知識(shí)產(chǎn)權(quán)的智能全文檢索引擎系統(tǒng)。他采用了自然語言處理與智能檢索技術(shù),實(shí)現(xiàn)了結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理、實(shí)時(shí)動(dòng)態(tài)索引、中文字詞混合索引、分布式與負(fù)載均衡和快速返回結(jié)果等,可滿足海量專利和非專利文獻(xiàn)復(fù)雜檢索需求的智能全文檢索引擎系統(tǒng)。
主要特點(diǎn)
1) 全方位檢索手段:提供了多達(dá)40多種檢索運(yùn)算符。包括外部特征與文本內(nèi)容的各種邏輯組合檢索、位置檢索、二次檢索(檢索歷史引用)、詞根檢索、大小寫敏感檢索。
2) 多種檢索入口:屬性字段檢索(如分類檢索)、關(guān)鍵詞檢索、位置檢索(如同段檢索)、多字段“與或非”組合檢索、二次檢索(漸進(jìn)檢索)、大小寫敏感檢索、中文簡繁體擴(kuò)展檢索、支持超長檢索表達(dá)式等。
3) 知識(shí)擴(kuò)展檢索:檢索時(shí)能夠應(yīng)用同義詞典、反義詞典和主題詞典進(jìn)行自動(dòng)或函數(shù)式的擴(kuò)展檢索。
4) 基于成本優(yōu)化的查詢算法:高效的索引壓縮技術(shù)、SKIP索引跳躍式掃描技術(shù)、多庫并行檢索技術(shù)、表達(dá)式優(yōu)化技術(shù)、結(jié)果共享技術(shù)、CACHE技術(shù)。CACHE技術(shù)支持更多的并發(fā)用戶訪問,大大提高了綜合查詢速度。
5) 支持對(duì)檢索結(jié)果的各種排序:檢索結(jié)果與檢索詞的相關(guān)度排序;基于字段的排序;后進(jìn)先出的快速排序。同時(shí)對(duì)多庫檢索結(jié)果可以進(jìn)行混排。LIFO(后進(jìn)先出的快速排序)對(duì)實(shí)際運(yùn)行系統(tǒng)的性能提高有很大作用。TOP N排序可通過結(jié)果記錄數(shù)的裁減以減少檢索歷史的存儲(chǔ)來提高檢索速度。
6) 支持檢索結(jié)果的分類統(tǒng)計(jì),支持用正則表達(dá)式來篩選分類統(tǒng)計(jì)的目標(biāo)字段值,并支持抽取部分子串組成新的類別。
7) 支持短語級(jí)別(INCLUDE函數(shù))和詞級(jí)別(LIKE函數(shù))的“相似性”檢索,INCLUDE函數(shù)支持CHAR字段的運(yùn)算。支持英文的同根詞檢索。在沒有詞根索引的情況下,也能檢索與輸入的詞具有相同詞根的其它詞。支持拼寫組合的檢索,允許基于“連接規(guī)則”、“排除規(guī)則”與“選擇規(guī)則”的三種拼寫組合。
8) 支持基于BIT字段的虛擬邏輯字段的檢索,并支持其實(shí)體字段之間的邏輯關(guān)系與排序加權(quán)。
9) 實(shí)現(xiàn) “同字段”的限定運(yùn)算,支持復(fù)雜條件下的檢索需求。
TRS Image Retrieval System (TRS IRS) 是由拓爾思推出的新一代圖像檢索系統(tǒng),實(shí)現(xiàn)了圖像數(shù)據(jù)的有效管理,提供基于內(nèi)容的圖像檢索功能,實(shí)現(xiàn)基于顏色、紋理、形狀、結(jié)構(gòu)、圖元等底層特征的圖像檢索,同時(shí)結(jié)合SQL檢索,實(shí)現(xiàn)了元數(shù)據(jù)和圖像數(shù)據(jù)的統(tǒng)一管理,結(jié)合了傳統(tǒng)基于文本檢索和目前基于內(nèi)容檢索的優(yōu)勢(shì):
1) 高智能性:多種特征自由組合,適用不同場(chǎng)景;
2) 高命中率:一次檢索范圍內(nèi)90%相同相似圖像出現(xiàn)在結(jié)果集的前15%中;
3) 大數(shù)據(jù)量:單臺(tái)檢索引擎可裝載億級(jí)的圖像數(shù)據(jù);
4) 并行計(jì)算:具有并行計(jì)算能力,充分利用多核CPU資源;
5) 易擴(kuò)展性:具有易擴(kuò)展的體系架構(gòu)設(shè)計(jì),可滿足大數(shù)據(jù)量及用戶的處理
6) 快速響應(yīng):99%的檢索請(qǐng)求都可以在2秒內(nèi)完成;
給定檢索圖像,最理想的檢索結(jié)果是滿足要求的對(duì)比設(shè)計(jì)在所有圖像中與檢索圖像的相似度最高,但是由于圖像屬性的復(fù)雜性,這種理想的結(jié)果往往不能實(shí)現(xiàn),因此,準(zhǔn)確性主要反映在對(duì)比設(shè)計(jì)出現(xiàn)在相似度排序的位置占所有圖像的比例。衡量該比例有兩個(gè)因素,一個(gè)是平均值,另一個(gè)是方差。平均值反映排序的精度,方差反映不同檢索圖像的檢索精度的穩(wěn)定性。另外,由于用戶可以對(duì)部分檢索結(jié)果進(jìn)行正負(fù)樣本標(biāo)定,系統(tǒng)可以根據(jù)標(biāo)定結(jié)果進(jìn)行重排序,重排序后是否能夠?qū)ο到y(tǒng)性能帶來改善也是準(zhǔn)確性的指標(biāo)之一。目前,系統(tǒng)可以保證90%的對(duì)比文件出現(xiàn)在檢索結(jié)果的前15%。
計(jì)算機(jī)在執(zhí)行檢索,實(shí)際上就是圖像特征相似度的計(jì)算。因此圖像特征能否準(zhǔn)確表征圖像,就成為影響圖像檢索準(zhǔn)確性的關(guān)鍵。TRS IRS擁有完善的特征算法庫,包括:
1) 顏色特征可以描述圖像的顏色構(gòu)成及其分布,在所有的特征中具有最優(yōu)的魯棒性;
2) 紋理特征反映圖像中同質(zhì)現(xiàn)象的視覺特征,與物體的位置,走向尺寸和形狀有關(guān);
3) 形狀特征以圖像中物體或區(qū)域的外輪廓為基礎(chǔ),滿足對(duì)旋轉(zhuǎn)和縮放的無關(guān)性;
4) 結(jié)構(gòu)特征反映的是圖像的輪廓分布情況,與輪廓中填充的顏色無關(guān);
5) 圖元特征是一種基于圖像分割思想的圖像描述算法。顏色、紋理、形狀、結(jié)構(gòu)特征屬于圖像的全局特征,基于圖像的整體來描述圖像,無法滿足圖像局部細(xì)節(jié)檢索的要求,圖元特征則能很好的解決這一問題。
6) 語義特征由圖像的語義標(biāo)簽生成,也就是以關(guān)鍵詞作為語義特征,它可以充分利用傳統(tǒng)的圖像檢索系統(tǒng)的標(biāo)注信息;
7) 深度特征是基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練出來的特征,由于CNN具有良好的跨域特性(或通用性),從預(yù)訓(xùn)練的CNN提取的特征可以被廣泛應(yīng)用到各個(gè)領(lǐng)域的各種數(shù)據(jù)集?;诰矸e神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)得到的特征不僅保持了一定的不變性,而且還包含了更多的高層語義信息,可以有效地縮小底層特征與高層語義之間的鴻溝。
TRS深度文本挖掘軟件是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的新一代文本挖掘軟件,集成了開源深度神經(jīng)網(wǎng)絡(luò)框架TensorFlow,通過對(duì)行業(yè)大數(shù)據(jù)的深度學(xué)習(xí),實(shí)現(xiàn)自動(dòng)分類、語義相似度計(jì)算、文本摘要、自動(dòng)校對(duì)、詞典挖掘等功能的優(yōu)化。
DL-CKM使用的深度模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、詞嵌入(Word Embedding)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。
主要特點(diǎn)
1) 融合了自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、深度神經(jīng)網(wǎng)絡(luò)等技術(shù),并持續(xù)追蹤最新的前沿技術(shù),不斷更新產(chǎn)品。
2) 豐富的語言學(xué)知識(shí),包含分詞詞典、多行業(yè)主題詞詞典、語義詞典、多語翻譯詞典等多種詞典。
3) 完備的文本挖掘功能模塊:包括文本分類、文本聚類、文本摘要、相似文本檢索、信息抽取、語義關(guān)系抽取、情感分析、智能問答、機(jī)器新聞寫作、熱點(diǎn)發(fā)現(xiàn)、文種識(shí)別、拼音檢索、相關(guān)短語檢索、(政治)常識(shí)校對(duì) 、數(shù)據(jù)比對(duì)、高速串匹配、跨語言查詢翻譯、語義詞典挖掘、新聞短標(biāo)題生成等功能。
4) 高效的文本處理速度:對(duì)多數(shù)功能模塊而言,單文本挖掘服務(wù)器平均能達(dá)到每秒幾百條文本的處理能力。
5) 支持Kubernetes集群,提供docker部署,保證集群以高可用的、可伸縮和容錯(cuò)的方式進(jìn)行部署和運(yùn)行。
6) 提供國產(chǎn)化介質(zhì),支持Intel、NV、飛騰和龍芯等不同體系結(jié)構(gòu)的國產(chǎn)化硬件環(huán)境。
TRS企業(yè)搜索應(yīng)用適配器(TRS Search Adapter)軟件是一款由TRS自主設(shè)計(jì)研發(fā),具有強(qiáng)大數(shù)據(jù)集成能力的數(shù)據(jù)集成平臺(tái)。TRS Search Adapter能幫助企業(yè)修正數(shù)據(jù)質(zhì)量、匯集多數(shù)據(jù)源、轉(zhuǎn)換數(shù)據(jù)形態(tài),提升數(shù)據(jù)的利用價(jià)值。
主要特點(diǎn)
降低成本
1) 統(tǒng)一數(shù)據(jù)處理框架適應(yīng)任意數(shù)據(jù)處理需求
2) 強(qiáng)大的數(shù)據(jù)處理能力
提高效率
1) 基于圖形化的數(shù)據(jù)流程定義
2) 支持多線程數(shù)據(jù)處理
擴(kuò)展性高
1) 可擴(kuò)展遠(yuǎn)程執(zhí)行引擎實(shí)現(xiàn)多機(jī)部署
2) 插件式數(shù)據(jù)處理節(jié)點(diǎn)可以適應(yīng)多種數(shù)據(jù)集成背景
TRS檢索引擎作為S系統(tǒng)的發(fā)動(dòng)機(jī),提供專利各類數(shù)據(jù)的索引和檢索服務(wù),包括專利分類號(hào)、公告日、申請(qǐng)人、設(shè)計(jì)人等結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)檢索,以及專利名稱、摘要、權(quán)利要求書、說明書等非結(jié)構(gòu)化數(shù)據(jù)的全文檢索。
搜索引擎功能實(shí)現(xiàn)了91個(gè)索引庫、23.1億條索引記錄、超20T的數(shù)據(jù)量,日均訪問量2500萬次,總請(qǐng)求平均響應(yīng)時(shí)間低于60毫秒,記錄讀取平均響應(yīng)時(shí)間低于50毫秒。
特點(diǎn):
支持跨語言檢索
支持?jǐn)?shù)值范圍檢索
提供查詢和統(tǒng)計(jì)分析功能
支持文本搜索,支持機(jī)械附圖搜索
支持關(guān)鍵詞檢索,支持語義檢索
目前,已經(jīng)處理了近大幾百萬件實(shí)用新型申請(qǐng)。其中有10%左右的申請(qǐng)被判定為存在高相似度(四五星)文獻(xiàn),高相似度文獻(xiàn)識(shí)別的準(zhǔn)確率基本是100%。
發(fā)明機(jī)檢報(bào)告系統(tǒng)也已經(jīng)上線,累計(jì)已處理發(fā)明申請(qǐng)幾百萬萬件(含歷史申請(qǐng)),其中有超過10%以上的申請(qǐng)被判定為四五級(jí),即確定為抄襲。四五級(jí)識(shí)別的準(zhǔn)確率基本是100%。
時(shí)間 | 申請(qǐng)件數(shù)(萬件) | 四五星文獻(xiàn)檢出量(件) | 四五星文獻(xiàn)檢出率 |
2013 | 83 | 72464 | 8.7% |
2014 | 101 | 48147 | 4.8% |
2015 | 109 | 121993 | 11% |
2016 | 138 | 247962 | 17% |
2017 | 157 | 118115 | 7.5% |
2018.1~11 | 198 | 275844 | 13.8% |
機(jī)檢報(bào)告系統(tǒng)為專利審查工作提供了強(qiáng)有力的智能支持,降低審查開銷,促進(jìn)審查資源的有效利用,切實(shí)推動(dòng)專利審查質(zhì)量的提升。
D系統(tǒng)基于計(jì)算機(jī)圖形圖像識(shí)別與檢索技術(shù),依據(jù)一定的規(guī)則通過對(duì)外觀設(shè)計(jì)專利的圖形圖像進(jìn)行自動(dòng)識(shí)別和基本判斷,快速做出相同/相近似的初步判斷,準(zhǔn)確過濾無價(jià)值的設(shè)計(jì),將有價(jià)值的檢出對(duì)象框定在最小范圍內(nèi),使審查員對(duì)檢索系統(tǒng)檢出的有限數(shù)目對(duì)象進(jìn)行相同/相近似的人工判斷。
外觀設(shè)計(jì)專利數(shù)據(jù)具有數(shù)據(jù)量大,數(shù)據(jù)類型復(fù)雜、圖像沒有統(tǒng)一標(biāo)準(zhǔn)等特征,因此在外觀設(shè)計(jì)專利數(shù)據(jù)上進(jìn)行圖像檢索有很大的技術(shù)難度。D系統(tǒng)二期雖具備圖形檢索的功能,但存在檢索效率慢、檢索規(guī)模受限和檢索效果欠佳等問題。
拓爾思經(jīng)過多年的研究實(shí)踐,實(shí)現(xiàn)前沿的圖形比對(duì)和圖像檢索技術(shù),通過基于圖形內(nèi)容的檢索,滿足了審查用戶對(duì)檢索效率和準(zhǔn)確率需求;結(jié)合審查員檢索報(bào)告的匯總、分析和總結(jié),形成了新的檢索模式進(jìn)而提高檢索效率;并集成同近義詞擴(kuò)展、跨語言擴(kuò)展等輔助技術(shù),進(jìn)一步提升了檢索體驗(yàn)。目前圖像檢索系統(tǒng)的D系統(tǒng)三期,支持包括中國、美國、日本、韓國、德國、WIPO、中國香港、中國澳門、中國臺(tái)灣等十多個(gè)國家、組織和地區(qū)的外觀設(shè)計(jì)專利數(shù)據(jù)檢索。
圖像檢索系統(tǒng)中在庫專利文獻(xiàn)數(shù)超過900萬件,視圖數(shù)量在4500萬幅以上,數(shù)據(jù)容量達(dá)5T以上,實(shí)現(xiàn)了“90%的圖形檢索任務(wù)都在5秒內(nèi)完成檢索響應(yīng)”的性能指標(biāo),超越了“90%以上的對(duì)比文件出現(xiàn)在檢索結(jié)果的前15%”的準(zhǔn)確率指標(biāo)。
DI Inspiro充分借鑒了國內(nèi)外著名信息檢索系統(tǒng)的先進(jìn)功能,并且針對(duì)國內(nèi)用戶的使用習(xí)慣進(jìn)行了改良性設(shè)計(jì)。具有數(shù)據(jù)全面可靠、功能專業(yè)、檢索效率高、用戶界面友好等特點(diǎn),是企事業(yè)單位研發(fā)工程師、專利管理人員和專利咨詢師等相關(guān)人員進(jìn)行技術(shù)調(diào)研、競爭性分析和法律風(fēng)險(xiǎn)預(yù)警的有力工具。
DI Inspiro提供了快捷檢索、表格檢索、號(hào)單檢索、可視化檢索、化學(xué)結(jié)構(gòu)檢索和生物序列檢索等多種檢索方式。此外,DI Inspiro還配備了功能強(qiáng)大的輔助查詢工具,可實(shí)現(xiàn)IPC、專利權(quán)人、同義詞、國別代碼、省市代碼、號(hào)碼等字段的擴(kuò)展檢索。用戶可以對(duì)檢索結(jié)果進(jìn)行導(dǎo)出、收藏、統(tǒng)計(jì)篩選和在線分析,還可以對(duì)檢索策略和結(jié)果在線自建數(shù)據(jù)庫導(dǎo)航樹,實(shí)現(xiàn)保存和預(yù)警。
系統(tǒng)主要提供如下服務(wù):
近似檢索:在申請(qǐng)商標(biāo)前,檢索被申請(qǐng)商標(biāo)是否有相同近似,避免申請(qǐng)人的時(shí)間和經(jīng)濟(jì)損失;
綜合檢索:用戶檢索商標(biāo)的基本信息及其他業(yè)務(wù)信息;
狀態(tài)檢索:檢索商標(biāo)的業(yè)務(wù)流程;
公告檢索:檢索公告信息;
錯(cuò)誤反饋:如果發(fā)現(xiàn)商標(biāo)信息有誤,可以通過填寫反饋單,商標(biāo)局進(jìn)行核實(shí)后會(huì)進(jìn)行更正。
商標(biāo)網(wǎng)上檢索自動(dòng)化系統(tǒng)提供五種檢索服務(wù)及錯(cuò)誤信息反饋功能,檢索服務(wù)包括:商標(biāo)近似檢索、商標(biāo)綜合信息檢索、商標(biāo)狀態(tài)檢索、商標(biāo)公告檢索和商品/服務(wù)項(xiàng)目檢索。
商標(biāo)網(wǎng)上檢索系統(tǒng)將采用國產(chǎn)化、自主化為主的可擴(kuò)展、動(dòng)態(tài)配置技術(shù)路線。
專利導(dǎo)航分析系統(tǒng)實(shí)現(xiàn)了專利信息資源整合,依據(jù)規(guī)則粗加工和自動(dòng)標(biāo)引,從產(chǎn)業(yè)發(fā)展方向、城市產(chǎn)業(yè)定位、產(chǎn)業(yè)發(fā)展路徑三個(gè)維度提供決策參考。專利導(dǎo)航分析系統(tǒng)主要由數(shù)據(jù)交換系統(tǒng)、智能輔助標(biāo)引系統(tǒng)和導(dǎo)航分析系統(tǒng)構(gòu)成。
數(shù)據(jù)交換系統(tǒng)通過WEB Service接口定期從國家平臺(tái)獲取中外文專利題錄文摘數(shù)據(jù),同時(shí)調(diào)用智能輔助標(biāo)引系統(tǒng)獲取技術(shù)分支,根據(jù)來源EXCEL歷史標(biāo)引數(shù)據(jù)標(biāo)引技術(shù)分支,以及提取城市、發(fā)明人等導(dǎo)航分析關(guān)鍵屬性后,寫入發(fā)布分析庫,完成數(shù)據(jù)交換。
智能輔助標(biāo)引系統(tǒng)在基于規(guī)則(檢索表達(dá)式),完成技術(shù)分支標(biāo)引;
導(dǎo)航分析系統(tǒng)基于現(xiàn)有專利數(shù)據(jù)分析,分析維度為技術(shù)分支表、IPC分類、城市、申請(qǐng)人等相關(guān)屬性。
導(dǎo)航分析分為產(chǎn)業(yè)發(fā)展方向、城市產(chǎn)業(yè)定位、產(chǎn)業(yè)發(fā)展路徑三大模塊。每個(gè)模塊細(xì)分為若干子分析,分別生成圖表及表格。用戶可以對(duì)相應(yīng)的分析進(jìn)行單項(xiàng)及多項(xiàng)下載操作。