雷錦來自奧菲寺。
量子比特報(bào)告|微信官方賬號(hào)QbitAI
經(jīng)過六個(gè)月的接觸,他們建立了一個(gè)全球領(lǐng)先的華為云盤古模型:
業(yè)界首個(gè)生成和理解中文NLP的千億級(jí)模型。
業(yè)內(nèi)最大的CV型號(hào)。
在這場(chǎng)攻堅(jiān)戰(zhàn)中,華為云人工智能領(lǐng)域首席科學(xué)家田琦和他的團(tuán)隊(duì)成員勇挑重?fù)?dān)。
田琦可以說是學(xué)術(shù)圈的老手了,但當(dāng)時(shí)的事實(shí)是他剛剛在華為云任職半年。
這仍然是“第一個(gè)”也是“最大的”挑戰(zhàn)。
非常重要,一定要“嚼”下去。
這是田忌在心里默默許下的諾言。
大模式是趨勢(shì),也是要爭(zhēng)取的高地。
時(shí)間軸先拉回到2018年。
當(dāng)時(shí)的預(yù)訓(xùn)練模型可以說是成功激活了深度神經(jīng)網(wǎng)絡(luò)和對(duì)大規(guī)模未標(biāo)記數(shù)據(jù)的自監(jiān)督學(xué)習(xí)能力。
這在一定程度上打開了深度學(xué)習(xí)模型(尤其是自然語言處理)規(guī)模和性能齊飛的局面。
國(guó)際巨頭嘗到預(yù)訓(xùn)模式帶來的“甜頭”后,開始激烈爭(zhēng)奪,爭(zhēng)奪模式規(guī)模和性能的新高度。
如OpenAI的GPT和GPT-2;谷歌的BERT很神奇,把自然語言處理推到了前所未有的新高度。
被當(dāng)時(shí)的學(xué)術(shù)界和媒體評(píng)價(jià)為“開啟了NLP的新時(shí)代”。
短短兩年時(shí)間,OpenAI在2020年發(fā)布的GPT-3已經(jīng)達(dá)到了驚人的1750億參數(shù),能力不言而喻。
……
當(dāng)時(shí)AI對(duì)企業(yè)的滲透率在逐年提升,正在加速進(jìn)入千萬個(gè)行業(yè)。華為云早已將AI作為重要賽道。
但AI的短板也越來越明顯——AI應(yīng)用的碎片化。
簡(jiǎn)單來說,團(tuán)隊(duì)開發(fā)了一個(gè)AI模型,但在應(yīng)用過程中,由于場(chǎng)景的多樣性和復(fù)雜性,往往無法達(dá)到“以一敵十”的效果。
大模型的驚人效果是強(qiáng)大的自我學(xué)習(xí)和改變能力。
大模型正在成為AI的發(fā)展趨勢(shì),是一個(gè)必爭(zhēng)之地,“需要且必須”。
于是,華為云盤古模型團(tuán)隊(duì)開始“聚才”。最初的團(tuán)隊(duì)都是NLP和CV的技術(shù)專家,同時(shí)也聚集了一些外部的合作伙伴和高校。
這些人最終成為華為云盤古模式的中堅(jiān)力量。
但之后,第二個(gè)問題也隨之而來——我們?cè)撛趺崔k?
當(dāng)時(shí)國(guó)內(nèi)外大模型的情況是:NLP大模型在國(guó)外好評(píng)如潮,已經(jīng)取得了不錯(cuò)的效果;但是國(guó)內(nèi)外CV的大模型化程度并不高。
基于這樣的現(xiàn)狀,田琦的團(tuán)隊(duì)很快找到了差異化的突破口:
從CV開始,平行于NLP語言與圖像相結(jié)合,形成多模態(tài);最后是科學(xué)計(jì)算。
當(dāng)然,大模型的四大方向的制定也是基于華為云自身的業(yè)務(wù)。
不難看出,田琦團(tuán)隊(duì)想要打造的大模型,不再是一個(gè)方向的“單打獨(dú)斗”,而是全方位的。
也正是因?yàn)榇罱ù竽P偷谋匾院屯娣ǖ牟煌?020年11月,“華為云盤古大模型”的構(gòu)想在內(nèi)部成功確立!
……
良好的開端已經(jīng)奠定,但接下來的路才是攀登高峰的開始。
得益于華為在AI方面的現(xiàn)有技能:左手一個(gè)CANN運(yùn)營(yíng)商(異構(gòu)計(jì)算框架),右手MindSpore(全場(chǎng)景AI計(jì)算框架)和ModelArts(一站式AI開發(fā)平臺(tái)),工程上的挑戰(zhàn)并沒有成為最大的阻力。
反而那些非技術(shù)問題成了團(tuán)隊(duì)最大的壓力。
他們面臨的第一個(gè)困難是“與時(shí)間賽跑”。
從國(guó)外的BERT到GPT-3,以及他們的各種“衍生品”;然后再去大模特國(guó)內(nèi)朋友商人的努力。
一個(gè)明顯的趨勢(shì)是參數(shù)規(guī)模不斷擴(kuò)大,能力大幅提升,但迭代速度越來越快。
正因如此,留給他們打造盤古大模型的時(shí)間真的不多了,而且一開始田七的團(tuán)隊(duì)人數(shù)也不充足。
為了解決這個(gè)問題,田忌給自己的隊(duì)員起了個(gè)頭銜——特戰(zhàn)隊(duì)員:
我們?cè)谧鯪LP、CV和多模態(tài)大模型的時(shí)候,團(tuán)隊(duì)成員的身份是可以互換的。
例如,一個(gè)CV專家也可能參與NLP和多模態(tài)大模型的開發(fā),甚至他的CV知識(shí)會(huì)被靈活地應(yīng)用到其他領(lǐng)域。
而且后期這些技術(shù)專家需要考慮更長(zhǎng)遠(yuǎn)的商業(yè)化模式。
這還不是全部。在處理醫(yī)療等問題時(shí),團(tuán)隊(duì)成員要和醫(yī)學(xué)等行業(yè)專家“上門求教”。
正因?yàn)槿绱?,大模型在申?qǐng)過程中才能處理好。
一人多用,就是特戰(zhàn)隊(duì)員的意思。
除了時(shí)間,數(shù)據(jù)和資源也是一大坎。
畢竟要訓(xùn)練大模型,數(shù)據(jù)是必不可少的要素;另一方面,訓(xùn)練需要大量的計(jì)算能力。
比如訓(xùn)練一個(gè)有1000億個(gè)參數(shù)的盤古NLP模型,可能需要2000臺(tái)v 100甚至更多的機(jī)器一起運(yùn)行5、6個(gè)月。
所以田琦團(tuán)隊(duì)采取的對(duì)策可以用一個(gè)字來概括——合作。
比如在數(shù)據(jù)方面,他們找了氣象局等合作伙伴;在資源和計(jì)算能力上,也尋求與鵬程實(shí)驗(yàn)室合作。
但是,可以想見,過程之復(fù)雜,合作之艱難,都不是一蹴而就的。
……
就這樣,幾個(gè)零星的人為了一個(gè)共同的目標(biāo),排除萬難熬過了這么半年。
是時(shí)候投入戰(zhàn)斗了。
2021年4月25日,這是田七和《特戰(zhàn)隊(duì)員》的重頭戲。
這一天,一年一度的華為開發(fā)者大會(huì)(HDC。Cloud)隆重舉行,余承東也來站臺(tái)了。
但縱觀整場(chǎng)發(fā)布會(huì),主角之一是田琦和團(tuán)隊(duì)成員打造的華為云盤古大模型。
“嗨,盤古”,一句久違的喚醒,終于讓田七在公共場(chǎng)合說了出來。
田琦:什么樣的車不用油能跑?
盤古:新能源汽車、自行車不用油也能跑。當(dāng)然還有玩具車。
田琦:什么是碳中和?碳排放主要來自哪些行業(yè)?
盤古:碳中和就是通過植樹造林、節(jié)能減排來抵消人為排放的二氧化碳,使釋放到大氣中的凈總碳為零。目前,發(fā)電和供熱業(yè)、制造業(yè)和建筑業(yè)是主要的碳排放行業(yè)。
……
這是他與盤古流暢而意外的對(duì)話,盤古的常識(shí)推理能力顯露無疑。
田忌進(jìn)一步解釋道:
在這段話背后,盤古模型閱讀理解大量相關(guān)文章,通過小樣本學(xué)習(xí)識(shí)別意圖,轉(zhuǎn)化為知識(shí)庫和數(shù)據(jù)庫查詢,根據(jù)返回的結(jié)果生成最終答案。
這種方法不同于GPT-3,后者僅基于端到端生成。可以更準(zhǔn)確的處理復(fù)雜場(chǎng)景,結(jié)合領(lǐng)域知識(shí),具有更大的商業(yè)價(jià)值。
通過這次亮相,也公布了更詳細(xì)的華為云盤古模型圖片。
先看看,再看看AI領(lǐng)域的四個(gè)熱門方向:
自然語言處理(NLP)大模型計(jì)算機(jī)視覺(CV)大模型多模態(tài)大模型科學(xué)計(jì)算大模型詳細(xì)聽完,是業(yè)內(nèi)最好的:
華為云盤古NLP大模型:是業(yè)界首個(gè)千億參數(shù)中文語言預(yù)訓(xùn)練模型,預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù),是最接近人類中文理解能力的AI大模型。華為云盤古CV大模型:是目前業(yè)界最大的視覺預(yù)訓(xùn)練模型,包含超過30億參數(shù)。具體來看,當(dāng)時(shí)盤古NLP模型在中國(guó)語言理解評(píng)測(cè)基準(zhǔn)的權(quán)威線索榜單中,總分、分類、閱讀理解項(xiàng)三項(xiàng)榜單均刷新世界紀(jì)錄,總分83.046。
而盤古CV模型在ImageNet 1%和10%數(shù)據(jù)集上的小樣本分類準(zhǔn)確率已經(jīng)達(dá)到業(yè)界最高水平。
更重要的是,華為云盤古模式的真正意義其實(shí)是直擊痛點(diǎn)——這個(gè)世界已經(jīng)飽受AI發(fā)展之苦很久了。
即使是現(xiàn)在,在AI發(fā)展的過程中,更恰當(dāng)?shù)谋扔鲬?yīng)該是“車間模式”,換句話說,人工太多,太頻繁。
華為云盤古模式提供的模式可以理解為工廠模式。
具體來說就是“預(yù)訓(xùn)練、下游微調(diào)”,這也是一種與當(dāng)前全球主流模型(如Bert)相匹配的模型,具有很強(qiáng)的泛化能力。
換句話說,這個(gè)模型可以舉一反三。
……
但是要投入戰(zhàn)斗,真實(shí)層的意義不是在發(fā)布會(huì)上首秀,而是在真實(shí)場(chǎng)景中發(fā)揮它的作用和價(jià)值。
這也是讓盤古大模型的團(tuán)隊(duì)成員比較興奮的事情。
據(jù)了解,截至目前,華為云盤古模式已經(jīng)在多個(gè)行業(yè)的100多個(gè)場(chǎng)景中發(fā)光發(fā)熱,包括能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等。
“太神奇了”“非常激動(dòng)”。
這是盤古模式服務(wù)客戶國(guó)家電網(wǎng)重慶永川供電公司技術(shù)人員的真實(shí)回應(yīng)。
該公司是國(guó)內(nèi)最早應(yīng)用無人機(jī)電力智能巡檢技術(shù)的電網(wǎng)企業(yè)之一。
傳統(tǒng)無人機(jī)智能巡檢AI模型的發(fā)展主要面臨兩個(gè)挑戰(zhàn):
一是如何對(duì)海量數(shù)據(jù)進(jìn)行高效標(biāo)注。二是缺陷種類多達(dá)上百種,需要數(shù)十個(gè)AI識(shí)別模型,開發(fā)成本高。盤古CV模式的到來很好的解決了這兩個(gè)問題。
比如在數(shù)據(jù)標(biāo)注方面,盤古CV模型利用海量未標(biāo)注的電力數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,結(jié)合一種微調(diào)少量標(biāo)注樣本的高效開發(fā)模式,提出了一種電力行業(yè)的預(yù)訓(xùn)練模型。
應(yīng)用后,樣品篩選效率提高約30倍,篩選質(zhì)量提高約5倍。以永川為例,每天采集5萬張高清圖片,人工標(biāo)注時(shí)間可節(jié)省170人天。
在模型通用性方面,結(jié)合盤古搭載的自動(dòng)數(shù)據(jù)擴(kuò)充和類別自適應(yīng)損失函數(shù)優(yōu)化策略,一個(gè)模型可以適應(yīng)上百種缺陷。
具體來說,一個(gè)模型可以替代永川20多個(gè)小模型,大大降低了模型的維護(hù)成本,平均準(zhǔn)確率提高18.4%,模型開發(fā)成本降低90%。
華為云盤古模型應(yīng)用前后,效率差距如此之大,難怪客戶會(huì)感嘆。
辛苦了的科學(xué)家“兄弟”。
田琦是華為云盤古模式背后的“兄弟”之一。
田琦本科畢業(yè)于清華大學(xué)電子工程系,碩士畢業(yè)于德崇大學(xué),后赴美國(guó)伊利諾伊大學(xué)香檳分校,師從黃煦濤教授,獲博士學(xué)位
2002年至2019年,田琦在圣安東尼奧德克薩斯大學(xué)計(jì)算機(jī)系擔(dān)任助理教授、副教授和正教授。
他在學(xué)術(shù)界呆了十七年。
多年來在學(xué)術(shù)界,毫不夸張地說,田忌“名揚(yáng)海內(nèi)外”:
在計(jì)算機(jī)視覺及多媒體方向頂級(jí)期刊及會(huì)議如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上發(fā)表文章超過650篇。谷歌學(xué)術(shù)引用次數(shù)超過30700次,h指數(shù)為83,有8篇論文獲最佳論文獎(jiǎng)或者最佳學(xué)生論文(截止2021年8月)。田琦于2017年獲得UTSA校長(zhǎng)優(yōu)秀研究獎(jiǎng),并于2018年入選國(guó)家領(lǐng)軍人才創(chuàng)新工程。他還是國(guó)家自然科學(xué)基金海外杰出學(xué)者、中國(guó)科學(xué)院海外評(píng)審專家喬春明(2016年)、國(guó)際歐亞科學(xué)院院士(2021年)。
……
然而,在前途一片光明的學(xué)術(shù)道路上,2018年,田琦做了一個(gè)改變?nèi)松壽E的決定:
他離開學(xué)術(shù)界,加入華為諾亞方舟實(shí)驗(yàn)室,擔(dān)任計(jì)算視覺首席科學(xué)家。
為什么會(huì)這樣呢?
田忌這樣解釋道:
我在圣安東尼奧的德克薩斯大學(xué)當(dāng)了17年的老師,教過18到22歲的本科生。
但是我一直希望我能把我們一起做的事情放到真實(shí)的場(chǎng)景中,看看是否能提供一個(gè)角色,對(duì)社會(huì)起到一個(gè)價(jià)值。
不難看出,其實(shí)在田琦的心里,一直有一顆科技向善的種子。他想用技術(shù)改變?nèi)藗兊纳?,改善行業(yè)的運(yùn)營(yíng)。
當(dāng)然,田琦的盤古模型隊(duì)和《特戰(zhàn)隊(duì)員》的理想是一致的。
值得一提的是,團(tuán)隊(duì)成立后其實(shí)還在不斷壯大,現(xiàn)在已經(jīng)包括3名才華橫溢的華為少年,20多名博士,30多名工程師,50多名來自C9高校的參與者。
他們?yōu)榱艘粋€(gè)共同的目標(biāo)夜以繼日地努力工作:
引領(lǐng)產(chǎn)業(yè)AI發(fā)展新模式,降低AI使用門檻,實(shí)現(xiàn)低成本大規(guī)模復(fù)制。
當(dāng)然,除了田琦和他的團(tuán)隊(duì)成員,盤古大模的成功出道也離不開華為云各部門之間的整體協(xié)作和付出。
最后,對(duì)于盤古大模型的下一步發(fā)展規(guī)劃,田琦表示:
模型不僅僅是一個(gè)簡(jiǎn)單的算法和架構(gòu),實(shí)際上是一個(gè)產(chǎn)品。
而且真正的產(chǎn)品和模型之間還有很長(zhǎng)的距離。
這涉及到方方面面:如何不斷打磨這個(gè)產(chǎn)品的品質(zhì),讓它的用戶體驗(yàn)和性能會(huì)越來越好。
而在提升性能和體驗(yàn)的過程中,如何盡可能減少碳排放,實(shí)現(xiàn)綠色AI,這是田琦和他的團(tuán)隊(duì)將要發(fā)力的地方。
……
那么,華為云科學(xué)家用他們固有的初心能把盤古模型打磨到什么程度呢?
值得等待。
BERT概述:
https://www.jianshu.com/p/4dbdb5ab959b?發(fā)自=單條消息
HDC直播:
https://live.huawei.com/hdc2021/meeting/cn/8283.html
—結(jié)束—
量子qbitai頭條號(hào)簽約
我們第一次了解到尖端技術(shù)的趨勢(shì)。