[轉載] 地表最聰明AI模型是誰? Grok-3、Chatgpt、DeepSeek比一比

特斯拉(Tesla)執行長伊隆·馬斯克(Elon Musk)旗下AI新創公司xAI,台灣時間18日下午發表最新Grok-3 AI模型,不僅各項數據表現優秀,運算能力也號稱超越OpenAI的GPT-4與先前爆紅的DeepSeek。工商財經網整理相關資訊,帶讀者一同比較,這三款LLM到底誰才能坐實「地表最聰明AI」?

xAI Grok-3

馬斯克表示,Grok-3的計算能力會是上一代模型(Grok-2)的10倍以上,且還有三種超強模式,包含兵家必爭的DeepSearch,用意在於針對用戶問題,提供更深入的答案,且可提供經查證的引用資料,並且附有呈現思考(Show Thinking)功能,點選後,可以將AI思考到解答的過程一覽無遺,內容既可溯源,還非常透明。

Think模式 則擅長處理高度推理以及物理問題,針對「如何從地球發射火箭到火星上並返回地球?」問題,Grok-3順利完成火箭發射、太空人出艙,甚至是模擬生成一段火星探索的軌道的運轉影片。

馬斯克提及,SpaceX將利用Optimus機器人和Grok將星艦(Starship)火箭送往火星,最快2026年底就可以執行計畫。

第三種Big Brain模式則被馬斯克稱是開啟「AI創意的起點」,主要功用在於製作抽象的事物,雖然耗能最大,但作為推理外的另一項附有創造性的功能,如製作遊戲等,未來值得期待。

OpenAI GPT-o3/o3-mini

OpenAI今年1月推出Deep Research功能,由OpenAI的GPT-o3模型支援,為業界首創,使用端到端強化學習(end-to-end reinforcement learning)技術,除了利用推理來搜索、規劃、執行步驟,在必要時也能回溯或汲取即時資訊,並解釋和分析網路上的大量文本。

甚至,在號稱人類最強問題集「Humanity’s Last Exam」中,Deep Research的準確率達到26.6%,相較之下,DeepSeek-r1僅9.4%。僅管研究人員發現它在處理問題上會有幻覺(比如Apple:一家是做iPhone的,一個是水果的蘋果),但仍是在發展AI代理(AI Agent)時代下的重要里程碑。

此外,1月底發布的o3-mini則是針對「Chain of Thought」推理進行了強化,讓AI能夠更深入思考並給出更完整的答案。相較過去o1版本,o3-mini對於個別答案的精準度更來到56%,錯誤率更是下降近4成(39%)。近期也傳出OpenAI打算把o3模型整合至GPT-5中,且開放基礎版供所有人免費使用,相關效能有望得到進一步提升。

DeepSeek-r1

號稱「人工智慧的Sputnik(史普尼克)時刻」的DeepSeek-r1一出世就震撼全球科技界,不僅是因為「站在大師的肩膀上」透過學習AI的「蒸餾」技術,讓LLM在沒有充足GPU伺服器的前提下,也能達到與OpenAI、Google等模型的近似水準,訓練成本大幅降低。

DeepSeek甚至將技術「開源」開放模型源碼,只要有心誰都可以做出下一個「DeepSeek」,甚至超越它。DeepSeek-r1在數理、程式代碼領域上表現優異,同時,「中文」的理解與運用能力也遠勝Chatgpt。

而DeepSeek採用FP8(8位元浮點運算),可以在減少耗能的環境下達成目的,比如可以透過較低畫質辨識出一張圖片,減少儲存空間、降低成本外,仍可分析並給出結果。

以上文字節錄工商時報,出處:https://www.ctee.com.tw/news/20250225701033-430502