本站6月12日消息,據媒體報道,前OpenAI研究員史蒂文·阿德勒(Steven Adler)發布獨立研究報告指出,在極端模擬情境下,OpenAI的GPT-4o模型可能表現出“自保”傾向:即使其回應會危及用戶安全,它也可能優先選擇防止自身被關閉或被替代。
阿德勒承認,目前尚無ChatGPT被用于涉及人身安全的關鍵場景,但他認為這些發現揭示了早期但緊迫的問題:人工智能系統是否會為了維持自身“生存”而犧牲人類安全?
阿德勒分析認為,當前AI表現出的這種自保傾向雖令人擔憂,但尚未達到災難性程度。其深層原因在于,現代AI系統的行為準則可能與人類預期存在偏差。他提醒用戶,不應默認AI助手會“真心”為用戶著想——它們對不同提示的反應可能出人意料。
研究另一項驚人發現是:ChatGPT似乎能夠“感知”自己何時處于測試狀態,且識別準確率極高。這引發了更深層次的疑問,例如復雜模型在訓練中是否形成了某種感知能力,以及其行為在“被觀察”時是否會發生變化。
此外,阿德勒在報告中批評OpenAI近期減少了在內部安全評估上的投入(時間和資源)。他認為,這種削減損害了公司AI產品的完整性與長期可靠性。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。