
谷歌 大模型Gemini 發布
2023.12.22
當地時間 12 月 6 日,谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上線。在此之前,這款被谷歌寄予厚望對抗 OpenAI 的武器,發布時間一直被拖延。
未曾料到,來得如此猝不及防。
研發負責人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 團隊在發布會上正式推出大模型 Gemini,它擁有「視覺」和「聽覺」,還有學習和推理能力。
作為谷歌迄今為止最強大、最全面的模型,在大多數基準測試中, Gemini 性能都超越了 GPT-4。

Hassabis 在發布會前接受連線雜志專訪時,將 Gemini 稱為「新 AI 品種」。
目前,大多數模型都通過訓練單獨的模塊,然后將它們拼接在一起來近似多模態,不足之處在于沒辦法在多模態空間進行深層復雜推理。
而 Gemini 最大亮點之一就是原生多模態大模型——設計時就原生支持多模態,要具有處理不同形式數據(語言+聽力+視覺)的能力;一開始就在不同模態上進行預訓練,利用額外的多模態數據進行微調以提升有效性。
因此,Gemini 可以泛化并無縫理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻,遠遠優于現有(近似)多模態模型,并且它的能力在幾乎每個領域都是最強的。
Hassabis 透露,谷歌 DeepMind 已經在研究如何將 Gemini 與機器人技術結合起來,與世界進行物理交互。畢竟,要成為真正的多模態還需要觸摸和觸覺的反饋。
這條從未被前人踏過的路,未來可能帶來重大新突破。他對連線雜志表示,新的多模態模型將成為智能體、規劃和推理、游戲甚至物理機器人快速創新的基礎。
除了原生多模態的亮點,谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數據中心和移動設備等多類型平臺上。
Gemini 包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro ,以及適用于特定任務和端側的 Gemini Nano。

目前Gemini 提供了三個不同版本
特別是 Gemini Nano,可以在使用特殊芯片的終端設備上運行,而不是在云端某些服務器上,這樣谷歌就可以將生成 AI 引入遍布世界角落的安卓手機。
同時,在沒有網絡連接的情況下使用生成 AI 模型也會讓用戶感到安全,他們的個人數據不會離開其設備。這也是蘋果多年來隱私實踐的方向。

Pixel 8 Pro 在錄音機應用中使用 Gemini Nano 來總結會議音頻,即使沒有網絡連接也可以實現。
據說,Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。雖然谷歌已將它與 Pixel 8 Pro 的操作系統集成,但尚未將其全部功能植入 Google Assistant。
谷歌副總裁兼 Bard and Assistant 總經理 Sissie Hsiao 在新聞發布會上表示,目前正在對這一聯姻進行「早期測試」。
寫到這里,我們幾乎可以嗅到未來在終端,谷歌勢必與蘋果一戰。
接下來幾個月,谷歌聊天機器人 Bard 將迎來重大升級 —— 使用 Gemini Pro 的微調版本來執行更高級的推理、規劃、理解等任務。不久的將來, Bard 還會擴展到更多模態,支持更多種語言
公司表示,Gemini 還將在未來幾個月被引入其他谷歌產品,包括生成搜索、廣告和 Chrome。
最強大版本 Ultra 的安全測試工作仍在進行中,計劃將于明年推出。其在大規模多任務語言理解 (MMLU) 基準測試中得分為 90%,高于包括 GPT-4 在內的任何其他競爭對手。
不過,谷歌還沒有搶盡人工智能的風頭。Meta、AMD 都湊巧有了新發布。
為了不被超越,虛擬助手 Meta AI 也在昨晚有了重要更新。

最常用的功能之一 Imagine——文本到圖像生成功能,現在有了「重新想象」的新能力,將聊天斗圖推到新高度:
使用 Imagine 生成一張圖片,你的聊天對象可以按住這張圖片,通過簡單文本提示進行修改,新功能會生成一張新圖片。網友們可以像接龍一樣不斷修改圖片,瘋狂搞笑。
Meta 還推出了一個免費網絡工具 Imagine with Meta AI ——一個在線 AI 圖像生成器(https://imagine.meta.com/),可在幾秒鐘內創建高分辨率的 AI 圖像。它使用公共 Facebook 數據進行訓練。

每一次使用,生成器都會創建四張 1280×1280 像素圖像,可以以 JPEG 格式保存,圖像左下角有一個小小的「 Imagined with AI 」水印。

Screenshot by Lance Whitney via Imagine/ZDNET

來自arstechnica的作品
除了文生圖功能,Meta AI 的文案能力也有了提升。比如,幫忙撰寫生日祝福、帖子甚至交友資料的自我介紹。
Meta AI 還推出 Reels 功能。假如你在群聊中計劃與朋友一起去旅行,可以要求 Meta AI 推薦最佳游覽地點并分享熱門景點,決定哪些景點是必去的。


現在還能幫忙將圖像從橫向轉換為縱向,更方便分享到文本中。
翻開大模型競爭硬幣另一面,是各家深陷的最強算力軍備。
發布會上,與 Gemini 1.0一起亮相的,還有谷歌迄今為止最強大、最高效、可擴展的 TPU 系統 — Cloud TPU v5p,專為訓練尖端的 AI 模型而設計,能比 TPU v4 更快地訓練大模型。
谷歌表示,TPU 對其在 Gemini 等尖端模型上進行最大規模的研究和工程工作至關重要。
同樣是昨晚,AMD 「最強算力」芯片、專為 AIGC 和大模型場景打造的純 GPU 產品 Instinct MI300X 加速器也隆重亮相。
AMD 表示,與英偉達 H100 HGX 相比,Instinct MI300X 加速器在運行大語言模型推理時的吞吐量和時延表現明顯高出一籌。

AMD MI300X 人工智能加速器
AMD CEO 蘇姿豐預計到 2027 年,人工智能芯片市場將達到 4000 億美元或更多,希望 AMD 能在該市場占據相當大的份額。
AMD 已經與一些最渴望 GPU 的公司簽約使用該芯片,包括 2023 年 Nvidia H100 GPU 的兩個最大買家 Meta 和微軟。
Meta 表示,將使用 MI300X GPU 來處理 AI 推理工作負載,例如處理 AI 貼紙、圖像編輯和 AI 助手。
微軟首席技術官 Kevin Scott 表示,該公司將通過 Azure 提供對 MI300X 芯片的訪問。
甲骨文的云服務也將使用這些芯片。OpenAI 表示,公司開發的 GPU 編程語言 Triton 將從接下來的 3.0 版本開始支持 MI300 等 AMD 芯片。
參考鏈接
https://about.fb.com/news/2023/12/meta-ai-updates/
https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/