ШІ провалює прості задачі, які легко вирішують люди

27.03.2025   14:30    224

Фонд ARC Prize Foundation розробив новий ускладнений тест для моделей штучного інтелекту, який виявився надзвичайно складним навіть для найпередовіших систем. Жодна з наявних ШІ-систем не змогла набрати більше однозначного балу зі 100 на тесті ARC-AGI-2, хоча кожне завдання було розв’язане щонайменше двома людьми менш ніж за дві спроби. Цей новий бенчмарк оцінює не лише ефективність, але й вартість роботи ШІ-систем.

by @freepik

Тест ARC-AGI-2 є наступником попереднього бенчмарка ARC-AGI-1, на якому деякі ШІ-системи показали високі результати. Наприклад, у грудні минулого року OpenAI заявила, що її модель o3 отримала високі бали в тому тесті, що викликало дискусії про наближення до штучного загального інтелекту (AGI).

Штучний загальний інтелект зазвичай визначається як ШІ, здатний виконувати будь-яке когнітивне завдання на рівні людини. Проте новий тест показав, що навіть передові моделі ще далекі від цієї мети.

Останні новини:  Вчені пояснили, чому рослини не всюди ростуть

Вимірювання адаптивності та ефективності

Президент ARC Грег Камрадт пояснив необхідність створення нового бенчмарка: “Щоб подолати його, ви повинні продемонструвати як високий рівень адаптивності, так і високу ефективність”. Бенчмарк ARC-AGI-2 фокусується на здатності ШІ виконувати прості завдання, які потребують складного мислення і взаємодії.

Модель o3-low від OpenAI, яка набрала 75,7% на ARC-AGI-1, отримала лише 4% на новому тесті. Це свідчить про значну різницю в типі задач між двома бенчмарками та виявляє обмеження сучасних моделей ШІ.

Важливою інновацією нового тесту є врахування вартості виконання завдань. Якщо ARC платила тестувальникам-людям $17 за завдання, то використання o3-low, за оцінками, коштує OpenAI приблизно $200 за ту саму роботу. Ця увага до ефективності відображає зростаюче занепокоєння щодо ресурсоємності великих ШІ-моделей.

Останні новини:  Астрономи довели, що потужний вибух наднової спричинив два масові вимирання на Землі

Реакція експертної спільноти

Джозеф Імперіал з Університету Бата вважає новий підхід значним прогресом:

“Це ознака того, що ми відходимо від одновимірних оціночних тестів, які зосереджуються виключно на продуктивності, але також враховують меншу обчислювальну потужність”.

На його думку, модель, яка зможе пройти ARC-AGI-2, повинна бути не лише компетентною, але й ефективною.




Проте не всі експерти поділяють оптимізм щодо нового тесту. Кетрін Флік з Університету Стаффордширу висловлює скептицизм: “Уся ця ситуація з тестуванням інтелекту є неправильною”. Вона вважає, що такі бенчмарки лише оцінюють здатність ШІ виконувати конкретні завдання, і це не слід екстраполювати на загальні здібності.

Останні новини:  Вчені відкрили екстремально холодну молекулярну хмару у центрі Чумацького Шляху

Флік також критикує медійне висвітлення цих тестів:

“Ви бачите, як ЗМІ підхоплюють інформацію про те, що ці моделі проходять тести на рівень інтелекту людини, хоча насправді це не так”.

На її думку, моделі просто точно реагують на конкретні запити, а не демонструють справжній інтелект.

Якщо якась модель все ж пройде ARC-AGI-2, це, ймовірно, приведе до розробки ще складнішого тесту. Імператор припускає, що ARC-AGI-3 міг би додати ще один вимір оцінювання – мінімальну кількість людей, необхідну для вирішення завдань, на додаток до продуктивності та ефективності.

Новий бенчмарк демонструє еволюцію в оцінюванні ШІ-систем, підкреслюючи важливість балансу між можливостями та ресурсоефективністю, що стає все актуальнішим у світі зростаючих обчислювальних потреб штучного інтелекту.


cikavosti.com