首頁>數(shù)據(jù)>資訊
并非越大越好,模型選擇要結合需求
【AI世界】
8月底,微軟和英偉達相繼發(fā)布小型語言模型,引發(fā)業(yè)界熱議。兩家公司均稱,新發(fā)布的小模型能在算力資源消耗和功能表現(xiàn)之間取得平衡,甚至可以在某些方面媲美大模型。不僅如此,蘋果、美國開放人工智能研究中心(OpenAI)等也發(fā)布了參數(shù)規(guī)模更小、性能更強的小型語言模型。
小模型通常指參數(shù)少、占用算力資源少、反應速度快、可以本地化運行的小型語言模型。在大模型競爭日趨激烈的今天,多家人工智能企業(yè)及研發(fā)機構為何另辟蹊徑,加碼小模型賽道?
大模型訓練成本高
大模型賽道太“卷”了——這是部分業(yè)界人士對當下大模型產(chǎn)業(yè)發(fā)展的評價。隨著各家人工智能廠商在大模型領域不斷加大投入,如今百億級甚至千億級參數(shù)的大模型已不再稀缺,大模型產(chǎn)品同質化趨勢也愈發(fā)明顯。
但模型真的越大越好嗎?模型越大,意味著消耗的資源越多,成本越高。今年4月,OpenAI首席執(zhí)行官薩姆·奧爾特曼在麻省理工學院演講時提到,“我認為我們正處于巨型模型時代的結尾”。在他看來,未來人工智能新的進步并非來自于越來越大的模型。
且不論運行所需費用,僅在訓練階段,大模型就要花費巨額成本。OpenAI前研究副總裁、人工智能初創(chuàng)公司Anthropic首席執(zhí)行官達里奧·阿莫迪曾提到,目前像GPT-4o這樣的模型訓練成本約為1億美元,而當下正在開發(fā)的人工智能大模型訓練成本則可能高達10億美元。他預計,未來3年內,人工智能大模型的訓練成本將上升至100億美元甚至1000億美元。
對于國內大模型產(chǎn)品而言,成本同樣居高不下。百川智能創(chuàng)始人兼首席執(zhí)行官王小川曾提到,大模型每1億參數(shù)對應訓練成本在1.5萬到3萬元人民幣之間。一個千億級參數(shù)的大模型,單次訓練成本在3000萬至5000萬元人民幣之間。
高端算力短缺等因素也是困擾國內大模型發(fā)展的難題。2023年,科大訊飛與華為聯(lián)合發(fā)布首個全國產(chǎn)算力平臺“飛星一號”,以此為基礎訓練出的訊飛星火大模型已實現(xiàn)自主可控。但整體來看,相比國際先進水平,國內大模型產(chǎn)品仍有較大提升空間。
此外,在應用端,端側部署是目前人工智能大模型發(fā)展的熱門方向,但由于所需算力資源過于龐大,大模型幾乎無法在手機、人形機器人等小型終端上本地部署,限制了大模型的應用場景。例如,在目前發(fā)布且有實際演示的模型中,10億參數(shù)量模型尚可在手機上運行,一旦模型參數(shù)級別躍升至百億級,在手機端運行就變得非常吃力,幾乎無法正常使用。在許多場景下,模型規(guī)模越大并不一定能給用戶帶來更好的使用體驗,這也給小模型留下了更多發(fā)展空間。
小模型有多重優(yōu)勢
大多數(shù)小模型參數(shù)量在幾百萬至數(shù)千萬,結構也更簡單。參數(shù)量縮小帶來的明顯改變是對功耗以及算力需求的降低。
目前主流旗艦手機的芯片算力可以達到40—50TOPS(1TOPS代表處理器每秒鐘可進行1萬億次操作)。若再疊加專門開發(fā)的功耗控制策略,許多智能手機都能輕松“駕馭”小模型。
模型雖小,但在部分專門領域,其功能表現(xiàn)并不輸大模型。例如OpenAI推出的輕量化模型GPT-4o mini在常見的多輪對話等功能上,與GPT-4o表現(xiàn)不相上下。
針對當下大模型存在的“幻覺”問題,即機器可能輸出“無中生有”的內容,小模型通過專注于學習某個細分領域的精華數(shù)據(jù),可降低不相關、意外或不一致的輸出風險,顯著降低“幻覺”現(xiàn)象出現(xiàn)概率。
此外,相比部署在云上的大模型,小模型具有個性化程度高、響應速度快等特點,這使其更貼近用戶端需求。同時,小模型的本地化部署也能更大程度保障用戶的數(shù)據(jù)控制權和隱私權。
大小模型協(xié)同發(fā)展
當然,對于實現(xiàn)通用人工智能這一終極目標而言,小模型遠遠不夠。小模型在當下的快速發(fā)展,更多是企業(yè)出自平衡成本與用戶需求后的理性選擇。
科大訊飛副總裁、研究院院長劉聰認為,不能泛泛談大模型與小模型孰優(yōu)孰劣,必須結合具體使用場景來評估。他舉例說,如果只是讓人工智能寫一個具體行業(yè)的文案,或是只對具體行業(yè)的文字進行翻譯、潤色等處理,一個中小規(guī)模的模型就完全夠用。但如果是在開放信息環(huán)境中,對不特定的內容進行提取、識別、分析等操作,大模型的表現(xiàn)毫無疑問將更好。
在劉聰看來,大、小模型相結合或將成為未來人工智能發(fā)展的重要方向,確定某一任務是使用大模型還是小模型更好,取決于其泛化性和效率要求?!皻w根結底要圍繞具體需求展開,這兩者不是非此即彼的關系。”他說。
具體在研發(fā)層面,大、小模型之間的關系更多是協(xié)作而非競爭。當下,許多科技巨頭的做法是先訓練出通用能力足夠強的大模型,再借助大模型對數(shù)據(jù)進行初步篩選處理。站在大模型“肩膀”上的小模型,可以用質量更高、數(shù)量更少的數(shù)據(jù)完成訓練,以更低成本實現(xiàn)不輸大模型的效果?!按竽P偷哪繕耸钦业叫阅艿奶旎ò?。以此為基礎再優(yōu)化小模型,和從零起步做一個小模型相比,效果完全不同。”劉聰說。(記者 都芃)
編輯:廖昕朔