谷歌 PaLM 2訓練所用文本數據量是初代的近5倍

5月17日消息,谷歌上周在2023年I/O開發者大會上推出最新大型語言模型PaLM 2。公司內部文件顯示,自2022年起訓練新模型所使用的文本數據量幾乎是前一代的5倍。

據悉,谷歌最新發佈的PaLM 2能夠執行更高級的編程、運算和創意寫作任務。內部文件透露,用於訓練PaLM 2的token數量有3.6萬億個。

所謂的token就是字符串,人們會將訓練模型所用文本中的句子、段落進行切分,其中的每個字符串通常被稱為token。這是訓練大型語言模型的重要組成部分,能教會模型預測序列中接下來會出現哪個單詞。

谷歌於2022年發佈的上一代大型語言模型PaLM在訓練中使用了7800億個token。

儘管谷歌一直熱衷於展示其在人工智能技術領域的實力,說明如何將人工智能嵌入到搜索引擎、電子郵件、文字處理和電子錶格中,但一直不願公佈訓練數據的規模或其他細節。微軟支持的OpenAI也對最新發佈的GPT-4大型語言模型細節保密。

兩家公司都表示,不披露這些信息的原因是人工智能行業存在激烈競爭。谷歌和OpenAI都想要吸引那些希望使用聊天機器人而不是傳統搜索引擎搜索信息的用戶。

但隨著人工智能領域競爭的白熱化,研究界要求提高透明度。

自推出PaLM 2以來,谷歌一直表示,新模型比之前的大型語言模型更小,這意味著該公司技術在完成更複雜任務時能變得更高效。參數(parameters)通常用於說明語言模型的複雜性。根據內部文件,PaLM 2接受了3400億個參數的訓練,初代的PaLM接受了5400億個參數的訓練。

谷歌沒有立即發表評論。

谷歌在一篇關於PaLM 2的博客文章中表示,新模型使用了一種名為“計算最優縮放”(compute-optimal scaling)的“新技術”,能使得PaLM 2“更高效,整體性能更好,比如推理更快、服務參數更少,服務成本也更低。”

在發佈PaLM 2時,谷歌透露新模型接受了100種語言的訓練,並能勝任各種各樣的任務。包括谷歌試驗性聊天機器人Bard在內的25項功能和產品用的都是PaLM 2。PaLM 2按參數規模有四個不同的版本,從小到大依次是Gecko(壁虎)、Otter(水獺)、Bison(野牛)和Unicorn(獨角獸)。

根據谷歌公開披露的信息,PaLM 2比任何現有模型都更強大。Facebook在今年2月份宣佈推出名為LLaMA的大型語言模型,其在訓練中用了1.4萬億個token。OpenAI發佈GPT-3時披露了相關訓練規模,當時公司表示,這一模型接受了3000億個token的訓練。今年3月份,OpenAI發佈新模型GPT-4,並表示在許多專業測試中表現出“人類水平”。

根據最新文件,谷歌兩年前推出的語言模型接受了1.5萬億個token的訓練。

隨著新的生成式人工智能應用迅速成為科技行業主流,圍繞底層技術的爭議也越來越激烈。

今年2月份,谷歌研究部門高級科學家埃爾·馬赫迪·埃爾·馬哈迪(El Mahdi El Mhamdi)因公司缺乏透明度而辭職。周二,OpenAI首席執行官薩姆·奧爾特曼(Sam Altman)在美國參議院司法小組委員會關於隱私和技術的聽證會上出庭作證,也同意用新系統來應對人工智能。

“對於一項非常新的技術,我們需要一個新的框架,”奧爾特曼說,“當然,像我們這種公司對自己推出的工具負有很大責任。”(辰辰)