有個著名咨詢公司曾經預測過:未來只有兩種公司,有人工智能的和不賺錢的。
(資料圖片)
它可能沒想到,還有第三種——不賺錢的AI公司。
去年我們報道過“正在消失的機器視覺公司”,昔日的“AI四小龍”( 商湯、曠視、云從、依圖),在商業化盈利上各有各的不順。不過,隨著GPT系列產品又掀起一股“大煉模型”的熱潮,這些AI公司又支棱起來了。
商湯科技此前曾披露,下一步的發展戰略是通用人工智能(AGI),繼續推進“大裝置+大模型”,并發布了1800億參數的中文語言大模型 “商量”。
曠視科技也表態,會堅定投入生成式大模型的研發,保持核心技術能力長期領先。
云從科技公開的定增預案中,為云從“行業精靈”大模型研發項目,募集資金不超過36.35億元。
依圖科技沒有公開消息,但在此前的融資中曾因AI大模型和國產芯片等被看好。
無論是上一輪,以BERT、GPT-3為代表的“預訓練+精調”大模型,還是此刻正紅火的,以ChatGPT、GPT-4、文心一言等為代表的“預訓練+精調+提示+RLHF(人類反饋)”的大語言模型,已經成為各大頭部科技公司“秀肌肉”、相互競爭的重要工具。
谷歌、百度等大廠跑著入場,各路大模型“神仙斗法”。這場狂歡派對,成了機器視覺公司不得不玩、又玩不起的游戲。
尷尬的“長衫”
最近,CV公司參與到大模型這局游戲中,出現了這樣的畫風:語氣一會兒大,一會兒慫。
在公開信息中,都表示自己會加大投入,去解決基礎技術、基礎問題。云從的管理者說要“投一二十億解決算力問題”“我們是技術公司,研發投入不會低”;商湯的有關人士稱,要做“統一化標準化的大模型”“加速構建通用人工智能的核心能力”;曠視也對標OpenAI,要“做影響物理世界的 AI 技術創新”。
談到大模型技術和產品本身,底氣又不足了。
這個說“基礎大模型要有長期布局,NLP難點很多,短期內與境外領先企業會存在較大差距”,那個說“中國AI公司有商業化的壓力,不能像OpenAI那樣不計代價的創新”。
“預期管理”算是被你們玩明白了。
年輕人流行說自己是“脫不下長衫的孔乙己”,CV公司對于大模型這種不尷不尬的處境,其實也和“孔乙己”有相似之處。
CV公司在底層技術、基礎設施、人才、資金、生態等領域的積累,不如頭部科技企業優勢顯著。所以,自然也不可能真的跟谷歌、OpenAI、BATH(百度、阿里、騰訊、華為)正面打擂臺,燒錢去做通用的基礎大模型(foundation model)。
新一輪大語言模型,完整技術棧、工程實現能力、算力成本、數據積累等都有極高的門檻,AI公司自研大語言模型的難度前所未有。 OpenAI 在2022年就花掉了5.44億美元,收入只有3600萬美元,這是國內CV公司不具備的家底兒。
當然,外界也不應該過度放大CV公司的責任,非要將巨頭才能承擔的創新壓力放在CV公司身上。
但是,CV公司又有著“AI-native原生企業”的光環,也確實積累了很多技術儲備, 所以也不能直接躺平,像ISV集成商、軟件公司一樣依附大廠,歡欣鼓舞地等著集成或調用API就好。
昔日的“AI四小龍”還是要撐起“技術自立”的架子,努力融入這波煉大模型的熱潮里,于是,又將模型數量和參數規模的比拼,拉升到了新的競爭水平。
比如云從有NLP、視覺領域的預訓練模型,商湯在“AI大裝置SenseCore”的基礎上,構建的日日新大模型體系就包含了通用視覺模型、中文語言模型、圖片生成模型……其中,僅“商量”大模型的參數規模,就和GPT-3差不多。
今天大家都感慨,孔乙己脫下長衫不容易,換個角度,“大模型”這件長衫,CV公司是不是有必要穿上呢?
玩不起的游戲
從2018年的預訓練大模型到2023年的大語言模型,大模型走過了一個從萌芽到繁榮的小周期,種類、功能也豐富起來,我們已經見過很多AI企業、高校和科研機構、行業公司所打造的各種各樣的大模型。
問題來了:
第一,大模型的“智能涌現”,需要在超大規模的數據和充分的訓練才能出現,只有不計投入的基礎模型能做到。
很多面向行業的預訓練大模型,由于數據和訓練不足,無法達到“智能涌現”的臨界點,這也是為什么此前預訓練大模型那么多,卻只有ChatGPT的到來,才證實了“通用人工智能”的可行性。
在基礎模型的魯棒性、泛化性極大提升的今天,一味盲目地“訓大模型”,結果就是“大小班同上”,基礎大模型和行業大模型一起,消耗本就不充沛的算力,進一步推高計算成本,讓AI企業背上更重的負擔。
第二,大模型的商業化路徑,標準化API是比較基礎的一種,而基礎模型API有虹吸效應。
簡單來說,通過API接入AI能力,技術是決定性因素,基礎模型的能力強、受眾廣泛,很容易通過API經濟完成商業化,而行業大模型面對的領域較窄,很難通過“規模效應”來攤薄研發成本。
隨著一個又一個大模型被推向市場,大家恍然發現:原來我們并不缺大模型,缺的是商業化路徑。
目前,大模型的商業化還比較有限,C端通用產品貼成本定價,B端盈利前景不明朗,根據 A16Z 對美國 LLM 創業調研,純模型廠商只能拿走0-10%的價值,并且要長期對標OpenAI的定價策略,會面臨很大的商業化壓力。
通用基礎模型和行業大模型一起面向市場和客戶,結果就是,在商業價值分配上產生博弈。AI巨頭“神仙斗法”,打造出的通用基礎大模型會吸引產業和用戶的最多關注。
而大量行業大模型,要么在訓完后無人問津,浪費了前期投入;要么無法滿足產業需求,商業化前景受限;或者跟通用基礎大模型的能力有沖突,導致商業化達不到預期。
同為AI創業型公司的出門問問創始人李志飛,就在一次采訪中直言:“不是所有人都要去做通用大模型,貿然進入,難度很大,商業競爭很激烈,想不清商業模式到最后會很痛苦?!?/p>
所以,大煉模型,可能是CV公司目前玩不起的一局游戲。
輕裝上陣的路
你可能會問,現在大模型這么火,不訓大模型怎么能吃到這波紅利,在新一輪AI熱潮里建立優勢呢?
CV公司要輕裝上陣,可能要嘗試這樣幾條路,去探索大模型熱潮中的機會:
1.跟基礎大模型平臺建立更緊密地聯系。
自己開發大模型難度太大,訓練成本、存算成本過高,社區生態支持也不夠充足。可以站在巨人的肩膀上,接入基礎模型的能力打造小模型,與基礎模型的商業模式形成差異。
此前CV公司盈利難的一個挑戰是:機器視覺要進入腰尾市場,存在著海量的碎片化需求,客戶體量比較小、數量多,項目規模不大,這對CV公司的開發效率提出了很高的要求。
通用的成熟型算法,無法滿足細分需求,但全靠算法工程師來定制開發不現實,也不夠經濟劃算?;A大模型,將算法開發推進到工業化階段,減少了編程工作量,提高了開發效率,定制化算法的性價比提高,也就更容易為企業所接受。
對于CV公司來說,算法進入工業化大生產階段,將碎片化需求全面覆蓋、規?;瘡陀茫w營收能力自然也就上來了。
2.深入到具體行業中去,構筑能產生差異化的應用產品。
基礎模型要走向產業,必須進一步精調,CV公司就有相應的優勢。
很多高度專業化或復雜的工作,比如金融、建筑設計、編程、辦公、客服等,需要精準的垂類知識;一些特定領域,比如醫療、司法,非結構化數據比較稀缺。沒有足夠的語料來“投喂”,基礎模型在這些場景就會欠缺一些“常識”,比如GPT-4就寫不好中文詩。
據說,GPT-3.5的訓練數據集全部為私有數據集,其中關鍵的SFT訓練集,有89.3%的數據是定制的。
CV公司大多有自己聚焦的垂直領域,比如依圖的智能醫療,曠視的物聯網,云從的智慧園區,商湯的智慧城市、智慧出行等,可以結合在相關領域沉淀的差異化數據集,利用精調或prompt的方式,打造出更加精確、可靠的小模型,更容易部署,為AI應用加速AI的快速落地。
3.建立更具韌性的生態合作護城河。
CV公司在大模型技術上的積累,就會變成AI 2.0時代的底牌,也可以作為與AI巨頭、算力提供商的生態合作籌碼。
比如這一輪大模型,對提示學習、人類反饋的強化學習RLHF等提出了很高的要求,讓模型在人類的引導下,發現知識的使用方式,理解人類的偏好,這在國內都屬于很新的領域,提示師、專業標注師很少。有媒體報道,OpenAI的標注員,本科學歷52.6%,碩士學歷36.8%,這就不能全部靠眾包模式來進行數據標注,必須擁有自己的垂直領域的標注團隊。
比如醫療領域,醫學圖像還沒有建立起自然圖像那么大級別的數據庫,而對醫學圖像的標注是很難的,不像自然圖像標注,普通人一看就知道是什么,醫學圖像的數據標注涉及到器官、癌變等專業知識,就需要針對性地積累。
這樣的高水平技術人員,恰恰是CV公司這種AI-native原生企業的重要資源,可以與產業鏈上下游開展更緊密地合作,從而保障產品和服務的競爭力和可持續性,吸引客戶更多地將數據放入自己的產品中,形成馬太效應。
大模型開辟了一條蘊藏著極大價值和可能性的新路,被寄托了太多期待和野心。要有大模型能力,不代表要自己訓大模型。
重復建設的熱潮終會褪去,屆時,大模型商業化的考驗才剛剛開始。
對于CV公司來說,脫下“大模型”的長衫,是為了留住商業化的“底褲”。集體弄潮只是只是一時熱鬧,保存實力才能在AI江湖中走得更遠。
標簽:
凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。
原標題:國內外名家齊聚“五月音樂節”北京日報訊(記者高倩)昨天,國家大劇院舉行“五月音樂節”發布會,介紹了今年的演出策劃和亮點。5月1
2023-04-15 14:40
原標題:感受國潮昨天,城市副中心宋莊“新國潮”藝術大展在上上國際美術館舉行。展品多達1000余件,來自于近200位國內藝術家及海外華僑藝術家
2023-04-15 14:41
原標題:石峁遺址考古發掘持續開展中“華夏第一門”已面向游客開放4月18日是國際古跡遺址日。國家文物局將在湖北武漢就“國家考古遺址公園”高
2023-04-15 10:35
原標題:2023北京書市開幕工人日報-中工網記者王偉偉攝4月14日,2023北京書市開幕,書市以朝陽公園為主展場,北京市“16+1”區、北京圖書大廈
2023-04-15 10:56
原標題:《深海危機》15日上映(引題)黃建新:真正反恐片在中國電影中較少見(主題)文 北京青年報記者肖揚4月15日,中國首部海上反恐題材影
2023-04-14 16:56
原標題:電視劇《無間》《薄冰》熒屏熱播(引題)諜戰“風起”,成色幾何?(主題)天津日報記者張帆近日,電視劇《無間》《薄冰》熒屏熱播,
2023-04-14 16:41
原標題:梅花大獎得主裴艷玲津門會知音暢聊難忘天津情緣(圖)天津日報訊(記者劉莉莉攝影姚文生)昨日,梅花大獎得主裴艷玲見面會在津舉行。
2023-04-14 16:34
原標題:“這是我這輩子最重要的一份‘作業’”(主題)——十卷本《王水照文集》在滬出版(副題)光明日報記者顏維琦“這部《文集》是我這輩
2023-04-14 15:33
原標題:2023北京書市今天開幕!參展書品種創歷年最高北京日報客戶端記者路艷霞程功4月14日,展期11天的2023北京書市開幕,書市以朝陽公園為主
2023-04-14 14:34
原標題:兩代刑警追溯十三年懸案(主題)陳建斌、陳曉合演《塵封十三載》雙線糾纏打造新懸疑效果(副題)北京晚報記者邱偉由陳建斌、陳曉主演
2023-04-14 14:33
原標題:《超能一家人》延續開心麻花喜劇風北京晚報訊(記者袁云兒)“老實人”艾倫大戰“大反派”沈騰,開心麻花奇幻喜劇電影《超能一家人》7
2023-04-14 14:38
原標題:2022年度人民文學獎在瀘州頒獎光明日報記者劉江偉光明日報瀘州4月13日電(記者劉江偉)2022年度人民文學獎頒獎典禮13日在四川瀘州舉行
2023-04-14 14:54
原標題:《青春之城》聚焦大灣區創業故事北京晚報訊(記者李夏至)回首歌頌拼搏者,聚焦大灣區創業故事,描繪大灣區奮斗者“創業圖鑒”的電視
2023-04-14 14:38
原標題:北京豐臺將書展開到社區工人日報-中工網記者賴志凱通訊員鮑豐鑫新書簽售、閱讀沙龍、名家講堂 芳菲四月,書香正濃,4月14日至4月
2023-04-14 11:54
原標題:當AI開始歌唱,人類的歌聲還能否被聽到?中新網北京4月14日電(記者王詩堯)“每一個音符,每一個呼吸都由AI演唱。”AI唱歌雖然已經不是
2023-04-14 09:42
原標題:文化和旅游部擬對未成年人參與劇本娛樂活動設置保護條款文化和旅游部4月13日發布公告,就《劇本娛樂管理暫行規定(征求意見稿)》公開
2023-04-14 09:49
原標題:同一APP換個端口收聽得重新交費會員收聽一些專輯還得再充值(引題)視聽類App能否“只收一次費”?(主題)法治日報記者文麗娟用手機
2023-04-14 09:45
原標題:青色,解讀中華傳統文化的重要色彩密碼包巖青色,是春天的顏色。無論是“苔痕上階綠,草色入簾青”,還是“裊裊城邊柳,青青陌上桑”
2023-04-14 08:41
原標題:青年電影人將鏡頭對準人間煙火(主題)帶著大銀幕上的中國故事“揚帆遠航”(副題)中青報·中青網記者蔣肖斌《萬里歸途》《刺殺小說
2023-04-14 08:36
原標題:類型拓展表達創新(引題)海上反恐題材影片《深海危機》在京首映(主題)人民日報海外版電(記者徐嘉偉)海上反恐題材影片《深海危機
2023-04-14 08:35
原標題:《無間》最大的看點是演員(主題)首次當導演的奇道對“實力派”贊不絕口(副題)北京晚報記者邱偉由靳東、王麗坤、張志堅、王志文主
2023-04-13 22:37
原標題:第十四屆魯迅青少年文學獎香港賽區征文正式啟動第十四屆魯迅青少年文學獎香港賽區征文11日正式啟動。即日起,香港大中小學生及35歲以
2023-04-13 15:54
原標題:海派皮影戲亮相首屆全國小劇場戲劇展演(引題)?《花木蘭》捧起“紫金杯”(主題)新民晚報訊(記者趙玥)4月2日至4月12日,首屆全國
2023-04-13 15:53
原標題:現代京劇《東方大港》展現中國創新故事北京晚報訊(記者韓軒)伴隨著舒緩的回憶曲,舞臺紗幕上播放的泛黃的青島港老照片,昨晚,青島
2023-04-13 15:49
原標題:舞劇《歌唱祖國》再現經典誕生歷程北京晚報訊(記者韓軒)4月16、17日,由無錫市歌舞劇院創作演出的現實題材舞劇作品《歌唱祖國》在國
2023-04-13 15:45