在人工智能與大數(shù)據(jù)浪潮中,短視頻巨頭快手面臨著前所未有的數(shù)據(jù)處理挑戰(zhàn)。為了支撐其海量的推薦模型、內(nèi)容理解模型及AIGC模型的訓(xùn)練與迭代,快手構(gòu)建了一套高效、可擴(kuò)展的數(shù)據(jù)處理與存儲(chǔ)服務(wù)體系。這一實(shí)踐不僅保障了業(yè)務(wù)的高速發(fā)展,也為行業(yè)提供了寶貴經(jīng)驗(yàn)。
快手面對(duì)的核心挑戰(zhàn)是數(shù)據(jù)規(guī)模巨大、來(lái)源復(fù)雜且實(shí)時(shí)性要求高。每天,平臺(tái)產(chǎn)生數(shù)以PB計(jì)的原始日志、視頻流、用戶交互及多媒體內(nèi)容。這些數(shù)據(jù)需要經(jīng)過(guò)清洗、標(biāo)注、特征提取與融合,才能轉(zhuǎn)化為可供模型訓(xùn)練的優(yōu)質(zhì)燃料。為此,快手設(shè)計(jì)了一套分層處理架構(gòu):在接入層,通過(guò)自研的高吞吐消息隊(duì)列與流處理引擎,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)采集與初步過(guò)濾;在計(jì)算層,結(jié)合批處理與流處理框架,對(duì)數(shù)據(jù)進(jìn)行分布式處理與特征工程;在服務(wù)層,則將處理后的特征與樣本以低延遲、高可用的方式提供給模型訓(xùn)練與在線推理系統(tǒng)。
在數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)——數(shù)據(jù)標(biāo)注與質(zhì)量管控上,快手采用了“人機(jī)協(xié)同”的智能化策略。通過(guò)預(yù)訓(xùn)練模型進(jìn)行自動(dòng)初篩與標(biāo)注,再結(jié)合眾包平臺(tái)與專業(yè)團(tuán)隊(duì)進(jìn)行精細(xì)化校驗(yàn)與修正,大幅提升了標(biāo)注效率與一致性。建立了覆蓋全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控體系,實(shí)時(shí)檢測(cè)數(shù)據(jù)分布漂移、異常值及缺失問(wèn)題,確保輸入模型的數(shù)據(jù)始終處于健康狀態(tài)。
存儲(chǔ)服務(wù)是海量模型數(shù)據(jù)的基石。快手采用了混合存儲(chǔ)策略,針對(duì)熱數(shù)據(jù)、溫?cái)?shù)據(jù)與冷數(shù)據(jù)的不同訪問(wèn)模式與成本考量,分別選用高性能分布式數(shù)據(jù)庫(kù)、對(duì)象存儲(chǔ)及歸檔存儲(chǔ)系統(tǒng)。特別地,為應(yīng)對(duì)特征數(shù)據(jù)的頻繁讀取與快速迭代需求,快手開發(fā)了專用的特征存儲(chǔ)平臺(tái),支持高并發(fā)點(diǎn)查、范圍查詢及實(shí)時(shí)更新,并實(shí)現(xiàn)了特征版本管理與回溯能力,為模型的實(shí)驗(yàn)與回滾提供了堅(jiān)實(shí)支撐。
快手高度重視數(shù)據(jù)治理與安全合規(guī)。通過(guò)元數(shù)據(jù)管理、數(shù)據(jù)血緣追蹤與訪問(wèn)權(quán)限控制,實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的可視化與規(guī)范化使用。在隱私保護(hù)方面,積極應(yīng)用差分隱私、聯(lián)邦學(xué)習(xí)等技術(shù),在保障用戶數(shù)據(jù)安全的前提下,充分挖掘數(shù)據(jù)價(jià)值。
快手在海量模型數(shù)據(jù)處理與存儲(chǔ)上的實(shí)踐,體現(xiàn)了一種以業(yè)務(wù)為導(dǎo)向、技術(shù)為驅(qū)動(dòng)、效率與質(zhì)量并重的系統(tǒng)工程思維。這套體系不僅高效支撐了當(dāng)下各類模型的迭代需求,其靈活可擴(kuò)展的架構(gòu)也為應(yīng)對(duì)未來(lái)更大規(guī)模、更復(fù)雜的人工智能應(yīng)用場(chǎng)景做好了準(zhǔn)備。這一實(shí)踐為業(yè)界處理超大規(guī)模AI數(shù)據(jù)提供了可借鑒的藍(lán)圖,展現(xiàn)了數(shù)據(jù)基礎(chǔ)設(shè)施在智能化競(jìng)爭(zhēng)中的核心價(jià)值。