OpenAI 發布 o3-pro 推理模型,基於 o3 系列所打造,針對編碼、數學、科學、視覺感知等領域的發展,適合需要多方面分析且答案可能不是立即顯而易見的複雜查詢,在分析圖像、圖表和圖形等視覺任務中表現尤為出色,在困難的現實任務中比 OpenAI o1 犯的重大錯誤少 20%,但因其分析嚴謹性和推理能力,思考時間比 o1-pro、o3 更長。
優點
- 全面推理能力最強:在程式、數學、科學、圖像等領域達到多項新 SOTA(如 Codeforces、SWE-bench、MMMU)。
- 錯誤率低 20%(對比 o1),尤其擅長 business/consulting、程式和創意構思任務。
- 多模態理解:可 "think with images",包含模糊、鏡像等影像處理功能,並結合 Python 進行圖表等分析。
技術研發與安全強化
- 計算規模提升:推理能力隨 RL 算力與推理時間增加而提升,即便延遲與成本和 o1 相當,o3 性能仍穩定提升。
- 安全強化:採用新訓練資料與拒絕提示(防生物風險、惡意程式、越獄類),並使用 reasoning LLM 監控模型進行安全規範執行,對 biorisk 敏感狀況成功識別率近 99%。
- 系統層級強化:透過最新測試框架(生物、化學、網安、自我提升三大領域)評估,兩款模型均未達「High」門檻。

留言
張貼留言