Openai的O3和O4-Mini幻覺比以前的型號高

Openai不知道為什麼。信用：Didem Mente / Anadolu / Getty圖像

經過自己的測試，最新的- 米尼，幻覺明顯高於O1。

首先報導TechCrunch，Openai的系統卡詳細介紹了PersonQA評估結果，旨在測試幻覺。從該評估的結果來看，O3的幻覺率為33％，O4-Mini的幻覺率為48％，幾乎是一半的時間。相比之下，O1的幻覺率為16％，這意味著O3幻覺的頻率約為兩倍。

該系統卡指出，O3“傾向於總體上提出更多索賠，從而導致更準確的索賠以及更多不准確/幻覺的索賠。”但是Openai不知道根本的原因，只是說：“需要更多的研究來了解這一結果的原因。”

OpenAI的推理模型的計費比GPT-4O和GPT-4.5（例如GPT-4O和GPT-4.5）更準確，因為他們使用更多的計算來“花更多的時間在回應之前花費更多的時間”，如描述在O1公告中。 O系列模型並沒有在很大程度上依靠隨機方法來提供答案，而是經過培訓以“完善他們的思維過程，嘗試不同的策略並認識到他們的錯誤”。

但是，系統卡為了2月份發布的，顯示PersonQA評估的幻覺率為19％。同一張卡也將其與GPT-4O進行了比較，GPT-4O的幻覺率為30％。

可混合的輕速速度

評估基準很棘手。它們可以是主觀的，尤其是在內部開發的情況下，並且研究在其數據集中發現缺陷，甚至如何評估模型。

另外，有些人依靠不同的基準和方法來測試準確性和幻覺。擁抱面的幻覺基準評估大約1,000個公共文件中“生成摘要中幻覺的發生”模型，並發現市場上主要模型的全面幻覺率要低得多，而不是Openai的評估。 GPT-4O的得分為1.5％，GPT-4.5預覽1.2％和O3米尼高，推理得分為0.8％。值得注意的是，當前排行榜中未包含O3和O4-Mini。

這就是要說的；甚至行業標準的基準也使評估幻覺率很難。

然後，在利用Web搜索以獲取其答案時，模型的額外複雜性往往更準確。但是為了使用chatgpt搜索，OpenAi共享數據對於第三方搜索提供商和內部使用OpenAI模型的企業客戶，可能不願意向此提示。

無論如何，如果Openai說他們的全新O3和O4-Mini車型幻覺高於其非調理模型，那可能是其用戶的問題。 Mashable與Openai伸出援手，並將通過回應更新這個故事。

Cecily是Mashable的技術記者，涵蓋了AI，Apple和新興技術趨勢。在哥倫比亞新聞學院獲得碩士學位之前，她花了數年的時間與不合理的集團和B實驗室的初創企業和社會影響業務合作。在此之前，她共同創立了一家針對南美，歐洲和亞洲新興企業家樞紐的初創諮詢業務。你可以在x上找到她@cecily_mauran。

這些新聞通訊可能包含廣告，交易或會員鏈接。通過單擊訂閱，您確認自己是16歲，並同意我們的使用條款和隱私政策。