AI/大數據 MIT開發新技術讓GPT-4能像人一樣「自我反思」，思考後能力大增測試表現提升 30%(轉載)

OpenAI 最新的語言模型 GPT-4 不僅能夠像人類一樣生成各種文字，還能夠設計和執行測試來評估和改進自己的表現。這種「反思」技術讓 GPT-4 在多項難度較高的測試中，都取得了顯著的進步，測試表現提升 30%。

GPT-4 是繼 GPT、GPT-2 和 GPT-3 之後，OpenAI 推出的最先進的系統，也是目前最大的多模態模型（可以接受圖像和文字輸入，輸出文字）。其利用深度學習技術，使用人工神經網路來模仿人類的寫作。

MIT研究人員諾亞・辛恩（Noah Shinn）和阿什溫・戈平納特（Ashwin Gopinath）在論文中寫道：「我們開發了一種新穎的技術，讓 AI 代理能夠模擬人類的自我反思，並評估自己的表現。GPT-4 在完成各種測試的時候，會增加一些額外的步驟，讓它能夠自己設計測試來檢查自己的答案，找出錯誤和不足之處，然後根據發現來修改自己的解決方案。」

研究團隊使用這種技術對 GPT-4 進行了幾種不同的性能測試。在 HumanEval 測試中，GPT-4 需要解決 164 個從未見過的 Python 程式問題，原本精準率為 67%，使用反思技術後，精準率提升到了 88%。

在 Alfworld 測試中，AI 需要在各種不同的互動環境中，通過執行一些允許的操作，來做出決策和解決多步任務。使用反思技術後，GPT-4 的精準率從 73% 提高到了 97%，只有 4 個任務失敗。

在 HotPotQA 測試中，GPT-4 可以訪問維基百科，並回答 100 個需要從多個支援文件中解析內容和推理的問題，原本精準率為 34%，使用反思技術後，精準率提高到了 54%。

這項研究表明，AI 問題的解決方案有時候是依賴 AI 本身。IT之家發現，這有點像生成對抗網路，這是一種讓兩個 AI 互相提高技能的方法，比如一個 AI 試圖生成一些看起來像真實圖片的圖片，另一個 AI 試圖分辨哪些是假的，哪些是真的。但在這種情況下，GPT 既是寫作者又是編輯，通過自我反思來改進自己的輸出品質。

文章出處：https://www.techbang.com/posts/105182-gpt-4-increased-ability-after-self-reflection-and-improved