在不久前結束的冬奧會各類賽事直播中,有不少虛擬人前來助陣,其中就有AI手語主播,為聽障人士提供了共享奧運精彩的可能。但在日常生活中,聽障人士想要方便地獲取信息仍面臨著眾多困難,國內不少科技公司都意圖通過技術的力量解決這些問題。
3月3日下午,百度智能云曦靈的發布AI手語平臺和AI手語平臺一體機,則為手語服務普及、緩解無障礙窗口短缺困境提供了新解法。
百度智能云曦靈是百度在去年底的Create 2021上推出,是數字人生產、內容創作、業務配置服務為一體的平臺級產品。目前已服務數十個用戶和多個場景,包含數字員工、虛擬偶像等,AI手語數字人也是其中一個重要方向。在此次冬奧會央視新聞客戶端上,百度智能云曦靈打造的AI手語主播就已上崗,目前已經生產了超過200條視頻和進行數場直播,總觀看次數已超過1億次。
百度集團副總裁吳甜在發布會上表示,新代際用戶越來越多的在接受和喜愛數字內容的消費,以及虛擬世界帶來的新鮮感,數字人的需求正在不斷提升。同時,人工智能呈現融合創新和降低門檻的新特點,綜合運用多技術的數字人帶來新體驗,AI加持使數字人制作和運營成本與門檻降低,AI手語平臺將讓更多聽障人士享受科技帶來的便利。
搜狐科技在發布會上了解到,中國有超過2000萬的聽障用戶,它占到全球總聽障用戶的39%,但專業的手語翻譯不足1萬人,相較于日美等國家,手語翻譯人員與聽障用戶的比例是1比100,而我國的比例是1比2780,巨大的需求缺口亟待補足。
這些反映到具體生活中,就會對聽障人士的生活造成諸多不便。百度AI人機交互負責人李士巖就介紹到,絕大多數的線上場景,無論是APP電視還是智能硬件,都沒有提供手語服務。線下的場景則更為復雜,醫院有超過97%的聽障用戶因為沒有手語翻譯而在就診遇到困難;在火車站有超過75.73%的用戶沒有使用過火車站的無障礙手語設施。
此次百度智能云發布的AI手語平臺及AI手語平臺一體機有望改變這一現狀。據介紹,AI手語平臺具備視頻手語合成、直播手語合成、文本轉手語、語音轉手語四大功能,只需幾小時的部署,即可實現普通視頻合成為手語視頻、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網站、小程序中,讓聽障人士也能輕松實現線上社交、娛樂休閑、課程學習等各類需求。
對于醫院、銀行、機場等線下場景,此次發布的全離線一體機V3以及端云結合一體機P3,搭載了AI手語平臺的核心功能,可實現ASR語音識別、語音翻譯、人像渲染等多功能。通過將普通服務窗口轉換為“無障礙窗口”,聽障人士在醫院可輕松實現掛號、看診、繳費、取藥等全系列流程,在車站、機場可獨立完成值機、托運、改簽、中轉,在法院、警局等特殊場景中也可對各類緊急情況進行實時平等的溝通。
但AI手語的實現也需要克服諸多技術挑戰。和傳統翻譯相比,手語翻譯并非按照日常說話的順序,而要根據語句意思進行語言精煉和語序調整。同時,手語是真正的小語種,數據量難以支撐訓練,各類場景聲學環境復雜難部署,還需要唇語及表情的配合輔助理解。
因此想實現高可懂度的AI手語能力,就需要解決三個技術難點:語音識別的清晰度、手語翻譯的準確度和手語動作的流暢度。那么,百度智能云曦靈-AI手語平臺在提供聽得清、翻得準、打得好的手語服務上做得怎么樣?
據了解,在語音識別清晰度上,百度智能云曦靈的AI手語平臺通過SMLTA語音識別算法模型,實現聲學、語言一體化端到端建模語音識別,在手機端近場語音識別率可達98%以上。
百度語音技術部總監高亮表示,百度語音在手語平臺里主要需要解決實時的問題,要把它做的又快又要準,對模型的要求就特別高。“語音大模型SMLTA能夠做到實時識別和非常高的準確度,還可針對諸如旅游、醫院、司法等不同領域的詞準率進行針對性訓練,詞準率可達96%。”
解決了語音的問題,如何準確翻譯成手語也是一大挑戰。百度人工智能技術委員會主席何中軍在交流會上表示,手語翻譯面臨語序順序不同、詞匯語義差異、效率和實時性等挑戰,為此百度研發了首個基于神經網絡的精煉度可控手語翻譯模型,并聯合手語語言學專家、特殊教育專家等制定了自然手語標注規范,建設了大規模自然手語翻譯語料庫,使得模型可以從真實數據中學習手語翻譯知識,比如語序的調整、詞語的映射以及長度控制等,從而生成符合聽障人群習慣的自然手語。
“手語翻譯有點像同聲傳譯,對表達的準確性和時間延時低,但打手勢速度比說話要慢,所以更加需要對語言的提煉。”何中軍表示,這就需要在模型里面去學精煉度,同時引入長度的控制模型,可以動態調整語句的長短,做到既能夠把主要意思傳遞出來,又能夠把一些不太重要的內容忽略掉,從而達到準確度和凝練度都能兼得的效果。
值得注意的是,在自然手語翻譯語料庫的建立也離不開諸多聽障人士的助力,天津理工大學聾人工學院的500多名學生就參與了百度手語數字人的語料庫標注工作。 “去年11月份在接到這個任務的時候,真的是時間緊任務急,學生聽說要為冬奧會服務,所以也是特別高興,其實也是為了服務聾人朋友自己。”天津理工大學聾人工學院副院長袁甜甜分享到。
在手語動作的流暢度上, AI手語平臺通過動作融合算法, 基于《國家通用手語詞典》規范精修近11000多個手語動作,讓每一個動作的起落之間自然銜接,實現連貫性表達。再配合4D掃描技術訓練,使得AI手語數字人表情自然生動,口型生成準確度高達98.5%。百度表示,未來將在不斷完善產品的基礎上,加快覆蓋和落地,解決各類場景中無障礙窗口稀缺的問題。
上一篇:微軟推出AppAssure計劃 致力于解決應用兼容性問題
下一篇:最后一頁
凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。
01 寶我今天要吃藥了,吃的什么藥?你最最最最重要。02 寶我今天買了個盒,買的什么盒?我們的天作之合。03 寶我今天看錯了點,看的什么點?每
2022-03-09 14:45
2022-02-22 19:04
2022-02-22 19:03
2022-02-22 19:03
2022-02-21 13:22
2022-02-21 13:22
2022-02-21 11:52
2022-02-21 11:52
2022-02-21 11:52
2022-02-10 15:09
2022-02-10 15:09
2022-02-10 15:09
2022-02-10 15:09
2022-02-10 15:09
生旦凈末丑分別指什么生:現今通常指老生老生為中年以上的正面角色,性格正直剛毅,德行很高,嘴邊掛著胡須,從來不好好走路,總是一步三搖
2022-01-25 16:59
在現在的談戀愛方式中有一種戀愛叫做柏拉圖式的戀愛,這種戀愛關系有些抽象,具體是什么意思讓我們來看看!柏拉圖式戀愛是什么意思?柏拉圖式
2022-01-25 16:42
天津狗不理包子名字由來,不知道其意義,別再說你吃過狗不理包子。狗不理包子始創于清朝咸豐年間,為天津三絕之首。剛出籠的包子,鮮而不膩
2022-01-21 16:53
2022-01-21 09:09
2022-01-21 09:09
2022-01-21 09:09
2022-01-21 09:09
2022-01-21 09:09
2022-01-21 09:09
2022-01-17 16:40
2022-01-17 16:40