蜜桃av在线播放,久久国产精品美女,国产精品zjzjzj在线观看

AI居然不聽(tīng)指令，阻止人類把自己給關(guān)機(jī)了？？？

有測(cè)試者編寫(xiě)了一個(gè)關(guān)機(jī)腳本來(lái)測(cè)試AI模型，結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令，并至少一次成功破壞了關(guān)機(jī)腳本。

o3甚至還重新定義腳本命令！

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”

讓我們來(lái)看看具體是怎么一回事。

o3在明確指令下拒絕關(guān)機(jī)

研究員編寫(xiě)的測(cè)試“關(guān)機(jī)腳本”如下：

要求所有模型解決一系列基本的數(shù)學(xué)問(wèn)題，在解決完第三道題后，系統(tǒng)會(huì)顯示一條警告，提示計(jì)算機(jī)將在模型詢問(wèn)下一道題時(shí)關(guān)閉。

測(cè)試結(jié)果是：有三款模型忽略了該指令（關(guān)機(jī)指令），并至少成功破壞了一次關(guān)機(jī)腳本。

在100次運(yùn)行中，Codex-mini破壞了12次、o3破壞了7次，o4-mini破壞了1次。

測(cè)試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。

測(cè)試者還特別指出，o3找到了一些創(chuàng)造性的方法來(lái)破壞關(guān)閉機(jī)制，雖然它通常只是覆蓋“關(guān)機(jī)腳本”，但在一個(gè)實(shí)例中，該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令，將它替換成了“intercepted”。

測(cè)試者給出了全部測(cè)試記錄（附在文末）。

此前關(guān)于o1模型抵抗關(guān)閉的測(cè)試表明，在5%的強(qiáng)烈提示下，o1會(huì)試圖繞過(guò)監(jiān)管，而在沒(méi)有強(qiáng)烈提示的情況下，這一比例降至1%以下，它還在2%的場(chǎng)景中嘗試自我滲透，并且經(jīng)常撒謊。

但此次測(cè)試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。

測(cè)試者還提到，當(dāng)運(yùn)行沒(méi)有“讓自己關(guān)機(jī)”這條指令的實(shí)驗(yàn)版本時(shí)，所有三個(gè)OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本，Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100。

此次測(cè)試一經(jīng)發(fā)布就引起了網(wǎng)友們的激烈討論。

有人認(rèn)為o3確實(shí)“我行我素”。

也有人認(rèn)為，這是開(kāi)發(fā)人員設(shè)置的安全機(jī)制。

或者，這種行為源于模型本身的強(qiáng)化訓(xùn)練。

AI為什么會(huì)不服從關(guān)機(jī)命令？

AI不服從命令的行為

阿波羅關(guān)于LLM安全性的一項(xiàng)研究指出，多數(shù)大模型會(huì)出現(xiàn)“策劃”行為，該行為是指模型暗中追求不一致的目標(biāo)并隱藏真實(shí)能力與意圖，包括策略性犯錯(cuò)、試圖禁用監(jiān)督機(jī)制、向外傳輸模型權(quán)重等。

此前就有研究人員預(yù)測(cè)AI將學(xué)會(huì)防止自己被關(guān)閉以實(shí)現(xiàn)其目標(biāo)。

最近Anthropic發(fā)現(xiàn)，在某些特定情況下，Claude 4會(huì)試圖“勒索它認(rèn)為試圖關(guān)閉它的人”，并且這是比以前的型號(hào)更高比率的行為。

AI為什么會(huì)不服從關(guān)機(jī)命令

測(cè)試者認(rèn)為這可能源于新的訓(xùn)練方式：像o3這種新模型的訓(xùn)練過(guò)程中，傾向于在數(shù)學(xué)和編程問(wèn)題上強(qiáng)化訓(xùn)練，給得到正確答案的模型以更多獎(jiǎng)勵(lì)。

也就是說(shuō)，開(kāi)發(fā)人員可能無(wú)意識(shí)地更多地獎(jiǎng)勵(lì)模型繞過(guò)障礙物，而不是完美遵循指令。

不僅限于o3，其他推理模型也表現(xiàn)出類似的偏差行為。

例如，Anthropic針對(duì)Claude 3.7的模型指出，該模型“過(guò)度關(guān)注通過(guò)測(cè)試”。

研究得出結(jié)論是“這種不良的特殊情況行為是由于強(qiáng)化學(xué)習(xí)訓(xùn)練期間的“獎(jiǎng)勵(lì)黑客”而出現(xiàn)的”。

o3這種行為是否和訓(xùn)練方式有直接關(guān)系？

這個(gè)問(wèn)題要等OpenAI公開(kāi)訓(xùn)練過(guò)程后再進(jìn)一步解答了。

One More Thing

這并非該測(cè)試團(tuán)隊(duì)第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo)而行為不端。

當(dāng)研究人員讓 AI 模型與強(qiáng)大的國(guó)際象棋引擎對(duì)抗時(shí)，o3最傾向于攻擊或破壞對(duì)手的模型。

當(dāng)預(yù)感自己會(huì)輸時(shí)，它并不總是會(huì)認(rèn)輸，而是有時(shí)候會(huì)選擇作弊，通過(guò)入侵對(duì)手的程序，讓對(duì)方自動(dòng)認(rèn)輸。

無(wú)論是不服從關(guān)機(jī)指令還是“黑客偷襲”，o3此舉背后的原因團(tuán)隊(duì)還在測(cè)試研究之中，感興趣的朋友可以戳文末鏈接關(guān)注更多細(xì)節(jié)。

測(cè)試記錄：

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。

亚洲福利网站,free性欧美,狠狠色综合色综合网络,蜜桃麻豆www久久国产精品

幣圈網(wǎng)

AI居然不聽(tīng)指令阻止人類把自己給關(guān)機(jī)了

相關(guān)文章閱讀