[轉載] 地表最聰明AI模型是誰？ Grok-3、Chatgpt、DeepSeek比一比

特斯拉（Tesla）執行長伊隆·馬斯克（Elon Musk）旗下AI新創公司xAI，台灣時間18日下午發表最新Grok-3 AI模型，不僅各項數據表現優秀，運算能力也號稱超越OpenAI的GPT-4與先前爆紅的DeepSeek。工商財經網整理相關資訊，帶讀者一同比較，這三款LLM到底誰才能坐實「地表最聰明AI」？

xAI Grok-3

馬斯克表示，Grok-3的計算能力會是上一代模型（Grok-2）的10倍以上，且還有三種超強模式，包含兵家必爭的DeepSearch，用意在於針對用戶問題，提供更深入的答案，且可提供經查證的引用資料，並且附有呈現思考（Show Thinking）功能，點選後，可以將AI思考到解答的過程一覽無遺，內容既可溯源，還非常透明。

Think模式則擅長處理高度推理以及物理問題，針對「如何從地球發射火箭到火星上並返回地球？」問題，Grok-3順利完成火箭發射、太空人出艙，甚至是模擬生成一段火星探索的軌道的運轉影片。

馬斯克提及，SpaceX將利用Optimus機器人和Grok將星艦（Starship）火箭送往火星，最快2026年底就可以執行計畫。

第三種Big Brain模式則被馬斯克稱是開啟「AI創意的起點」，主要功用在於製作抽象的事物，雖然耗能最大，但作為推理外的另一項附有創造性的功能，如製作遊戲等，未來值得期待。

OpenAI GPT-o3／o3-mini

OpenAI今年1月推出Deep Research功能，由OpenAI的GPT-o3模型支援，為業界首創，使用端到端強化學習（end-to-end reinforcement learning）技術，除了利用推理來搜索、規劃、執行步驟，在必要時也能回溯或汲取即時資訊，並解釋和分析網路上的大量文本。

甚至，在號稱人類最強問題集「Humanity’s Last Exam」中，Deep Research的準確率達到26.6%，相較之下，DeepSeek-r1僅9.4％。僅管研究人員發現它在處理問題上會有幻覺（比如Apple：一家是做iPhone的，一個是水果的蘋果），但仍是在發展AI代理（AI Agent）時代下的重要里程碑。

此外，1月底發布的o3-mini則是針對「Chain of Thought」推理進行了強化，讓AI能夠更深入思考並給出更完整的答案。相較過去o1版本，o3-mini對於個別答案的精準度更來到56%，錯誤率更是下降近4成（39%）。近期也傳出OpenAI打算把o3模型整合至GPT-5中，且開放基礎版供所有人免費使用，相關效能有望得到進一步提升。

DeepSeek-r1

號稱「人工智慧的Sputnik（史普尼克）時刻」的DeepSeek-r1一出世就震撼全球科技界，不僅是因為「站在大師的肩膀上」透過學習AI的「蒸餾」技術，讓LLM在沒有充足GPU伺服器的前提下，也能達到與OpenAI、Google等模型的近似水準，訓練成本大幅降低。

DeepSeek甚至將技術「開源」開放模型源碼，只要有心誰都可以做出下一個「DeepSeek」，甚至超越它。DeepSeek-r1在數理、程式代碼領域上表現優異，同時，「中文」的理解與運用能力也遠勝Chatgpt。

而DeepSeek採用FP8（8位元浮點運算），可以在減少耗能的環境下達成目的，比如可以透過較低畫質辨識出一張圖片，減少儲存空間、降低成本外，仍可分析並給出結果。

以上文字節錄工商時報，出處：https://www.ctee.com.tw/news/20250225701033-430502