拓爾思虛擬人SaaS服務(wù)平臺的定位是開放服務(wù)平臺,也是賦能平臺。平臺技術(shù)架構(gòu)圖如下所示:

最底層是虛擬人的形象技術(shù)支撐,包括形象、語音、視覺中樞,旨在實現(xiàn)本文合成語音,語音驅(qū)動虛擬人口型的同步。當(dāng)然平臺也支持針對虛擬人形象的選擇,包括2D、3D、以及基于真人形象的采集訓(xùn)練還原,同時對虛擬人參數(shù)的各種可配置化功能,比如支持服裝、顏色、姿勢、 聲音、肢體動作等參數(shù)的可配置化。
中間層是虛擬人的“大腦”,也是平臺賦能部分。基于拓爾思自主可控的NLP技術(shù)和在眾多領(lǐng)域落地的經(jīng)驗,虛擬人可以被賦予很多場景應(yīng)用和特定角色,例如,泛行業(yè)垂直領(lǐng)域的智能問答,媒體行業(yè)內(nèi)容自動創(chuàng)作及播報等。
目前虛擬人SaaS服務(wù)平臺已正式上線,且推出了虛擬主播、虛擬直播、直播問答這三種形式的虛擬人服務(wù)。平臺通過虛擬人制作的一站式服務(wù),使得從選“人”到成片成為流程閉環(huán),為用戶的操作提供了最大便捷。

根據(jù)業(yè)務(wù)需要,可以申請定制主播形象。主播形象具有生動、鮮活等特點,提供多套服裝配飾、表情動作、肢體動作、聲音等供用戶選擇,適配不同場景的播報。支持多視頻開窗、圖片開窗、文本開窗、字幕、圖層、背景、LOGO等視頻編輯功能,用戶只需簡單拖入各種素材元素、配置元素的屬性、調(diào)整元素圖層的疊加順序,就可以完成內(nèi)容豐富、樣式多樣的虛擬人內(nèi)容播報。

用戶可以導(dǎo)入所需播報文本,可以對文本進行多音字檢測,根據(jù)播報上下文,對多音字進行讀音矯正,還提供數(shù)字文本的讀音選擇,比如電話號碼、整數(shù)、小數(shù)等讀法,此功能可以提高播報的準(zhǔn)確度。
虛擬主播系統(tǒng)是“一站式虛擬主播視頻生產(chǎn)和編輯服務(wù)”的系統(tǒng),用戶可以根據(jù)不同業(yè)務(wù)場景,添加多個不同鏡頭的虛擬主播視頻段落,每個視頻段落之間可以添加轉(zhuǎn)場過渡,還可以添加片頭、片尾、以及用戶自己上傳的視頻段落,一鍵快速生成多場景視頻段落,適用于不同平臺視頻發(fā)布需求,提高播報類場景的制作效率。

該系統(tǒng)提供視頻管理功能,根據(jù)創(chuàng)建先后順序顯示當(dāng)前用戶已制作視頻,并提供標(biāo)題查詢、標(biāo)簽過濾、時間過濾等多種篩選方式,方便用戶查找視頻,并對已有視頻進行管理和歸檔,形成自己的數(shù)字資產(chǎn)。

該系統(tǒng)提供虛擬直播功能,實時把文本轉(zhuǎn)換成視頻流,在線播報出去,未來可以在24小時不間斷虛擬直播、政務(wù)宣傳和推廣、文旅介紹等場景進行落地。
該系統(tǒng)提供在線交互、實時問答功能,拓爾思憑借NLP領(lǐng)域優(yōu)勢和積累的各場景行業(yè)術(shù)語,賦予虛擬人“實用靈魂”。通過語音識別、語義合成、自然語言處理、知識庫、知識圖譜、圖像處理、口唇驅(qū)動及虛擬人合成等AI核心技術(shù),針對特定行業(yè)客戶,繪制專屬行業(yè)的知識圖譜,提供互動交流、業(yè)務(wù)辦理、問答咨詢、服務(wù)導(dǎo)覽、實現(xiàn)虛擬人與真人的“面對面”實時交互,解決用戶實際業(yè)務(wù)問題的創(chuàng)新性、智能化產(chǎn)品解決方案。從而達到提高服務(wù)效率、提升服務(wù)體驗、降低綜合成本、規(guī)范服務(wù)流程,為客戶創(chuàng)造實際應(yīng)用價值。
根據(jù)業(yè)務(wù)需要,可以申請定制主播形象。主播形象具有生動、鮮活等特點,提供多套服裝配飾、表情動作、肢體動作、聲音等供用戶選擇,適配不同場景的播報。支持多視頻開窗、圖片開窗、文本開窗、字幕、圖層、背景、LOGO等視頻編輯功能,用戶只需簡單拖入各種素材元素、配置元素的屬性、調(diào)整元素圖層的疊加順序,就可以完成內(nèi)容豐富、樣式多樣的虛擬人內(nèi)容播報。

用戶可以導(dǎo)入所需播報文本,可以對文本進行多音字檢測,根據(jù)播報上下文,對多音字進行讀音矯正,還提供數(shù)字文本的讀音選擇,比如電話號碼、整數(shù)、小數(shù)等讀法,此功能可以提高播報的準(zhǔn)確度。
虛擬主播系統(tǒng)是“一站式虛擬主播視頻生產(chǎn)和編輯服務(wù)”的系統(tǒng),用戶可以根據(jù)不同業(yè)務(wù)場景,添加多個不同鏡頭的虛擬主播視頻段落,每個視頻段落之間可以添加轉(zhuǎn)場過渡,還可以添加片頭、片尾、以及用戶自己上傳的視頻段落,一鍵快速生成多場景視頻段落,適用于不同平臺視頻發(fā)布需求,提高播報類場景的制作效率。

該系統(tǒng)提供視頻管理功能,根據(jù)創(chuàng)建先后順序顯示當(dāng)前用戶已制作視頻,并提供標(biāo)題查詢、標(biāo)簽過濾、時間過濾等多種篩選方式,方便用戶查找視頻,并對已有視頻進行管理和歸檔,形成自己的數(shù)字資產(chǎn)。

該系統(tǒng)提供虛擬直播功能,實時把文本轉(zhuǎn)換成視頻流,在線播報出去,未來可以在24小時不間斷虛擬直播、政務(wù)宣傳和推廣、文旅介紹等場景進行落地。
該系統(tǒng)提供在線交互、實時問答功能,拓爾思憑借NLP領(lǐng)域優(yōu)勢和積累的各場景行業(yè)術(shù)語,賦予虛擬人“實用靈魂”。通過語音識別、語義合成、自然語言處理、知識庫、知識圖譜、圖像處理、口唇驅(qū)動及虛擬人合成等AI核心技術(shù),針對特定行業(yè)客戶,繪制專屬行業(yè)的知識圖譜,提供互動交流、業(yè)務(wù)辦理、問答咨詢、服務(wù)導(dǎo)覽、實現(xiàn)虛擬人與真人的“面對面”實時交互,解決用戶實際業(yè)務(wù)問題的創(chuàng)新性、智能化產(chǎn)品解決方案。從而達到提高服務(wù)效率、提升服務(wù)體驗、降低綜合成本、規(guī)范服務(wù)流程,為客戶創(chuàng)造實際應(yīng)用價值。