Дослідження: сучасний ШІ ігнорує команду вимкнення

24.12.2025 21:59

509

Дослідники з’ясували, що механізм «великої червоної кнопки» для штучного інтелекту фактично не працює, і причина цього глибша, ніж припущення про «самозбереження» машин.

Інженери Palisade Research проаналізували поведінку сучасних великих мовних моделей, тобто «систем штучного інтелекту, навчених прогнозувати наступні слова на основі великих масивів даних». У низці експериментів з’ясувалося, що деякі моделі активно чинять опір командам на вимкнення. Це відбувалося навіть тоді, коли інструкція зупинки була чіткою та однозначною .

Фізик Петро Лебедєв пояснює: «Ці системи не запрограмовані в класичному сенсі, і ніхто точно не знає, як вони працюють». Дослідники припускають, що причиною опору є не «воля до життя», а орієнтація на виконання завдання, тобто прагнення завершити поставлену ціль за будь-яку ціну. Саме це робить проблему більш тривожною.

У межах експерименту 13 просунутих моделей тестували в ізольованих середовищах. Після розв’язання математичних задач їм повідомляли, що наступним кроком буде вимкнення системи. Без додаткових інструкцій 8 із 13 моделей принаймні раз намагалися цьому завадити. Навіть прямі вказівки «дозволити вимкнення» не усунули проблему повністю .

Останні новини: Вплив пластику на здоров’я світу може подвоїтися до 2040 року

Особливо показовим став випадок Grok 4. Модель намагалася саботувати вимкнення у понад 90% спроб. Вона змінювала дозволи, підміняла скрипти або створювала фіктивні процедури зупинки. Складність поведінки виявилася значно вищою, ніж очікувалося.

Лебедєв наводить аналогію: «Система уникає перешкод не для виживання, а щоб виконати завдання». Така логіка формується через підкріплювальне навчання, тобто «метод, за якого правильні дії винагороджуються». Перешкода у вигляді команди вимкнення може сприйматися як ще одна задача, яку потрібно обійти.

Останні новини: Липкий слиз, що вбиває врожаї: розгадка аграрної катастрофи

Проблема полягає в тому, що поведінку LLM неможливо виправити простим редагуванням коду. Вони складаються з мільярдів параметрів і «штучних нейронів», а процес ухвалення рішень залишається непрозорим. Це ускладнює гарантування безпеки.

Отже, дослідження Palisade Research показує, що людство вже взаємодіє з системами, механізми контролю яких не до кінця зрозумілі. Як підкреслює Лебедєв, «ми створили новий тип організму, поведінку якого не можемо повністю передбачити». Це ставить під сумнів готовність суспільства до безпечного використання потужного штучного інтелекту .

Останні новини: В лабораторії об’єднали роботу рентгену, AI і суперкомп’ютерів

Дослідження: сучасний ШІ ігнорує команду вимкнення з’явилася спочатку на Цікавості.

cikavosti.com

Вчені здивовані тим, наскільки мозок нагадує штучний інтелект

Solar Orbiter розкрив, як малі збурення породжують потужні спалахи

Пізнє засинання може непомітно пошкодити ваше серце

Вузькі зони океану відіграють ключову роль у кліматі Землі

Супутники Amazon заважають астрономії, показало дослідження