數據標注優(yōu)秀案例 | AI手語(yǔ)翻譯數據標注賦能無(wú)障礙信息建設

湖南省人民政府門(mén)戶(hù)網(wǎng)站 emedcarts.com 發(fā)布時(shí)間: 2025-05-21 17:16 【字體:

AI手語(yǔ)翻譯數據標注賦能無(wú)障礙信息建設

  申報單位:長(cháng)沙千博信息技術(shù)有限公司、湖南省馬欄山計算媒體研究院

  推薦單位:湖南省數據局

  一、案例簡(jiǎn)介

  為解決全國2780萬(wàn)聽(tīng)障人群在教育、就業(yè)、辦事等多領(lǐng)域存在的信息獲取障礙,技術(shù)團隊在國家通用手語(yǔ)等相關(guān)標準尚不完善,缺乏漢語(yǔ)、手語(yǔ)雙語(yǔ)翻譯專(zhuān)業(yè)人員的背景下,長(cháng)沙千博信息技術(shù)有限公司等單位采取以點(diǎn)帶面的線(xiàn)上推廣方式組建了超750人標注團隊,并利用數據增強模擬出更多樣化的訓練樣本,有效解決了數據難以獲取的問(wèn)題。通過(guò)自研采集/審核平臺將數據采集成本降低50%,時(shí)間縮短80%。手語(yǔ)翻譯模型落地近千家機構應用,市場(chǎng)占有率達90%。


整體框架

  二、舉措與成效

  一是采用數據增強的技術(shù)手段,解決了人工標注數據短時(shí)間內獲取難的問(wèn)題。在生成式大模型(AIGC)的基礎上,用已有數據引導生成符合訓練標準的視頻和文字數據,彌補了訓練數據50%的缺口,大大減少了模型訓練對人工標注數據的依賴(lài)。

  二是自研標注平臺,不斷迭代標注模式。技術(shù)團隊根據標注需求自研標注平臺系統,并逐步將手語(yǔ)翻譯模型階段性成果引入平臺,使數據為模型訓練服務(wù),模型訓練成果為提升標注效率服務(wù)。相比純人工翻譯標注,提升了150%的標注效率。

  三是針對特殊群體打造個(gè)性化人才隊伍建設模式。針對手語(yǔ)、漢語(yǔ)雙語(yǔ)熟練人才稀缺、分散等問(wèn)題,建立了院校、聾協(xié)等團體為單位統一召集的模式。采取聾人群體更加適應的師徒制,實(shí)現標注人才培訓上崗平均耗時(shí)縮短50%。

  三、特色亮點(diǎn)

  一是基于數據集訓練出的漢語(yǔ)-手語(yǔ)雙向互譯模型應用覆蓋全國絕大部分地區。目前手語(yǔ)播報系統已在全國30個(gè)省超500家融媒體中心應用;公共服務(wù)產(chǎn)品已在上海嘉定等地近百家公共服務(wù)機構應用,網(wǎng)頁(yè)手語(yǔ)已在近百個(gè)政府網(wǎng)站完成示范標桿建設。

  二是漢語(yǔ)手語(yǔ)翻譯支撐數據集種類(lèi)豐富。建成手語(yǔ)詞匯庫、詞素庫,通用手語(yǔ)視頻庫,自然手語(yǔ)(方言)數據庫等。訓練語(yǔ)料已積累漢語(yǔ)到手語(yǔ)翻譯千萬(wàn)字級(句對),手語(yǔ)到漢語(yǔ)識別80萬(wàn)條(視頻),為打造手語(yǔ)AI系列產(chǎn)品奠定堅實(shí)的基礎,也為手語(yǔ)語(yǔ)言學(xué)研究積累了豐富的資料。同時(shí)形成的各類(lèi)手語(yǔ)數據標準,可為健全國家、行業(yè)手語(yǔ)相關(guān)標準提供支撐。

  三是建立專(zhuān)業(yè)手語(yǔ)標注人才庫。在高質(zhì)量聽(tīng)人手語(yǔ)翻譯稀缺,高文化水平、較高漢語(yǔ)理解能力聾人稀少的背景下,技術(shù)團隊集聚了全國各特校、高校、社會(huì )聾人、手語(yǔ)愛(ài)好者等熟悉漢語(yǔ)、手語(yǔ)的采集員超750人。該標注團隊是中國手語(yǔ)語(yǔ)言學(xué)研究的重要力量,也是支持中國手語(yǔ)翻譯技術(shù)出海,進(jìn)行國際化布局的后備力量。

信息來(lái)源: 國家數據局微信公眾號      責任編輯: 朱格林
相關(guān)閱讀

數據標注優(yōu)秀案例 | AI手語(yǔ)翻譯數據標注賦能無(wú)障礙信息建設

33678710

久99视频精品免费观看福利|国产大屁股视频免费区|91无码人妻精品一区二区|亚洲狠狠婷婷综合久久久|亚洲成a人片在线观看中