ІІ не може вирішити ці головоломки, на які у людей йдуть лічені секунди.

(Зображення надане Флавіо Коельо через Getty Images)

Існує безліч способів перевірити інтелект штучного інтелекту – від здатності до розмови, розуміння прочитаного до неймовірно складних фізичних завдань. Але деякі тести, які найчастіше ставлять ІІ в глухий кут, — це ті, які люди вважають відносно легкими, навіть захоплюючими. Хоча ІІ все частіше процвітають у завданнях, які потребують високого рівня людських знань, це не означає, що вони близькі до досягнення рівня загального штучного інтелекту (ОІІ). ОІІ вимагає, щоб ІІ міг приймати дуже невелику кількість інформації та використовувати її для узагальнення та адаптації до абсолютно нових ситуацій. Ця здатність, що лежить в основі людського навчання, залишається складною для ІІ.

Одним із тестів, призначених для оцінки здатності ІІ до узагальнення, є Корпус абстракції та міркування (ARC): набір невеликих головоломок з кольоровими сітками, в яких вирішувачу пропонується вивести приховане правило і застосувати його до нової сітки. Розроблений дослідником ІІ Франсуа Шолле у 2019 році він став основою фонду ARC Prize Foundation, некомерційної програми, яка проводить цей тест. Тепер він став галузевим стандартом, який використовується всіма основними моделями ІІ. Організація також розробляє нові тести та регулярно використовує два з них (ARC-AGI-1 та його складніший наступник ARC-AGI-2). Цього тижня фонд запускає ARC-AGI-3, спеціально розроблений для тестування агентів ІІ, заснований на відеоіграх.

Журнал Scientific American поговорив з президентом Фонду премії ARC Prize, дослідником у галузі штучного інтелекту та підприємцем Грегом Камрадтом, щоб дізнатися, як ці тести оцінюють ІІ, що вони говорять нам про потенціал штучного інтелекту і чому вони часто представляють складність для моделей глибокого навчання, хоча багатьом людям вони здаються відносно простими. Посилання для участі у тестах наведено наприкінці статті.

Вам може сподобатися

  • ІІ перехитрив 30 провідних математиків світу на секретній зустрічі у Каліфорнії

  • Дослідження показало, що передові моделі штучного інтелекту OpenAI та DeepSeek зазнають «повного краху», коли завдання стають надто складними.

  • Вчені щойно розробили новий ІІ, змодельований на зразок людського мозку. Він перевершує LLM, такі як ChatGPT, у завданнях на міркування.

[Нижче наводиться відредагована стенограма інтерв’ю.]

Яке визначення інтелекту вимірює ARC-AGI-1?

Наше визначення інтелекту це ваша здатність вчитися новому. Ми вже знаємо, що ІІ може вигравати у шахи. Ми знаємо, що вони можуть обіграти го. Але ці моделі не можуть узагальнювати нові області; вони не можуть піти та вивчити англійську мову. Тому Франсуа Шолле створив тест під назвою ARC-AGI – він навчає вас міні-навичку в питанні, а потім просить вас продемонструвати цю міні-навичку. По суті, ми чомусь навчаємо і просимо вас повторити навичку, яку ви щойно вивчили. Таким чином, тест вимірює здатність моделі вчитися у вузькій області. Але ми стверджуємо, що він не вимірює AGI, тому що він все ще знаходиться в обмеженій області [у якій навчання застосовується лише до обмеженої області]. Він вимірює, що ІІ може узагальнювати, але ми не стверджуємо, що це AGI.

Як ви визначаєте AGI?

Я дивлюся на це двома способами. Перший — технологічніший: «Чи може штучна система зрівнятися з ефективністю навчання людини?». Я маю на увазі, що після народження люди багато чому навчаються поза рамками навчальних даних. Насправді, вони фактично немає навчальних даних, крім кількох апріорних еволюційних даних. Тому ми вчимося говорити англійською, керувати автомобілем і кататися на велосипеді — все це поза рамками навчальних даних. Це називається узагальненням. Коли ви можете робити щось, крім того, чого вас навчали зараз, ми визначаємо це як інтелект. Альтернативне визначення ІІ, яке ми використовуємо, полягає в тому, що ми більше не можемо розв’язувати завдання, які можуть вирішувати люди, а ІІ — ні, — тоді ми маємо ІІ. Це визначення ґрунтується на спостереженнях. Зворотний бік медалі також вірний: поки премія ARC або людство в цілому все ще можуть знаходити завдання, які можуть вирішувати люди, але не може ІІ, у нас немає ІІ. Один з ключових факторів бенчмарку Франсуа Шолле полягає в тому, що ми тестуємо людей на них, і середньостатистична людина може впоратися з цими завданнями та проблемами, але ІІ все ще зазнає серйозних труднощів. Цікаво те, що деякі просунуті ІІ, такі як Грок, можуть скласти будь-який іспит на рівні випускника або робити всі ці шалені речі, але це вже гостросюжетний інтелект. Він все ще не має здатності до узагальнення, як людина. І саме це показує цей бенчмарк.

Чим ваші контрольні показники відрізняються від показників інших організацій?

Однією з наших відмінностей є те, що ми вимагаємо, щоб наш тест був вирішуваним людьми. Це відрізняє нас від інших тестів, де вирішуються завдання рівня «докторського ступеня плюс плюс». Мені не потрібно пояснювати, що ІІ розумніші за мене — я й так знаю, що o3 від OpenAI може робити багато краще за мене, але в нього немає людської здатності до узагальнення. Саме це ми й вимірюємо, тож нам потрібно тестувати людей. Ми фактично протестували 400 людей на ARC-AGI-2. Ми зібрали їх в одній кімнаті, дали їм комп’ютери, провели демографічний скринінг, а потім запропонували пройти тест. Середній бал з ARC-AGI-2 становив 66%. Однак у сукупності агреговані відповіді від п’яти до десяти осіб матимуть правильні відповіді на всі питання ARC2.

Що робить цей тест складним для ІІ та відносно простим для людей?

Є два моменти. Люди неймовірно ефективно навчаються на основі вибірок, тобто вони можуть взяти завдання, лише на одному-двох прикладах освоїти міні-навичку або перетворення і відразу ж приступити до його реалізації. Алгоритм, що працює в голові людини, на порядок кращий і ефективніший за те, що ми бачимо зараз в ІІ.

У чому різниця між ARC-AGI-1 та ARC-AGI-2?

Отже, ARC-AGI-1 Франсуа Шолле сам створив його. Там було близько 1000 завдань. Це було у 2019 році. Він, по суті, створив мінімально життєздатну версію, щоб виміряти узагальнення, і вона протрималася п’ять років, бо глибоке навчання не могло порівнятися з цим. Це навіть близько не пасувало. Потім моделі міркувань, що з’явилися в 2024 році компанією OpenAI, почали просуватися в цьому напрямку, що показало покрокову зміну можливостей ІІ. Потім, коли ми перейшли до ARC-AGI-2, ми трохи заглибилися у питання про те, що можуть робити люди, а що ні. Це потребує трохи більше планування для кожного завдання. Таким чином, замість того, щоб вирішувати її за п’ять секунд, люди можуть впоратися з нею за хвилину чи дві. Правила складніші, а сітки більші, тому відповідь має бути точнішою, але концепція приблизно та сама… Зараз ми запускаємо ознайомлювальну версію для розробників ARC-AGI-3, і це повністю відрізняється від цього формату. Новий формат буде фактично інтерактивним. Так що сприймайте його як бенчмарк для агентів.

Чим відрізнятимуться випробування агентів у рамках ARC-AGI-3 порівняно з попередніми випробуваннями?

Якщо замислитися про повсякденне життя, то рідкість — це рішення приймається без урахування стану. Коли я говорю «без урахування стану», я маю на увазі просто питання і відповідь. Зараз всі тести більш-менш без урахування стану. Якщо запитати мовну модель, вона дасть вам одну відповідь. Багато що неможливо перевірити за допомогою тесту без урахування стану. Не можна перевірити планування. Не можна перевірити дослідження. Не можна перевірити інтуїцію щодо навколишнього середовища чи цілей, які з нею пов’язані. Тому ми створюємо 100 нових відеоігор, які використовуватимемо для тестування людей, щоб переконатися, що люди можуть їх виконати, тому що це основа нашого тесту. А потім ми запустимо ІІ в ці відеоігри і подивимося, чи зможуть вони зрозуміти це середовище, яке вони ніколи раніше не бачили. На сьогоднішній день, завдяки нашому внутрішньому тестуванню, у нас не було жодного ІІ, який міг би пройти хоча б один рівень жодної з ігор.

Чи можете ви описати подані тут відеоігри?

Кожна «середовище», або відеогра, є двовимірною піксельною головоломкою. Ці ігри структуровані як окремі рівні, кожен з яких призначений для навчання гравця (людини або ІІ) певному міні-навичці. Щоб успішно пройти рівень, гравець має продемонструвати майстерне володіння цією навичкою, виконуючи заплановану послідовність дій.

Чим використання відеоігор для тестування AGI відрізняється від способів, якими відеоігри раніше застосовувалися для тестування систем ІІ?

Відеоігри давно використовуються як бенчмарки в дослідженнях ІІ, і ігри Atari – популярний приклад. Проте традиційні бенчмарки для відеоігор стикаються із низкою обмежень. Популярні ігри мають великі загальнодоступні дані для навчання, не мають стандартизованих метрик оцінки продуктивності та допускають методи прямого перебору, що включають мільярди симуляцій. Крім того, розробники, які створюють ІІ-агенти, зазвичай вже мають уявлення про ці ігри, що ненавмисно вбудовує власні ідеї на рішення.

Спробуйте ARC-AGI-1, ARC-AGI-2 та ARC-AGI-3.

Ця стаття вперше опублікована у журналі Scientific American. © ScientificAmerican.com. Усі права захищені. Підписуйтесь на TikTok та Instagram, X та Facebook.

Дені Елліс БешарНауковий журналіст

Дені Елліс Бешар – старший технологічний репортер журналу Scientific American. Він автор 10 книг та лауреат Премії письменників Співдружності, Книжкової премії Середнього Заходу та Книжкової премії Nautilus за журналістські розслідування. Він має два ступені магістра літератури, а також ступінь магістра біології Гарвардського університету. Його останній роман «Ми — сни у вічній машині» досліджує, як штучний інтелект може перетворити людство.

Перед коментуванням необхідно підтвердити своє публічно відображене ім’я.

Будь ласка, вийдіть із системи та увійдіть знову. Потім вам буде запропоновано ввести ім’я, що відображається.

Вийти Читати далі

ІІ перехитрив 30 провідних математиків світу на секретній зустрічі у Каліфорнії

Дослідження показало, що передові моделі штучного інтелекту OpenAI та DeepSeek зазнають «повного краху», коли завдання стають надто складними.

Вчені щойно розробили новий ІІ, змодельований на зразок людського мозку. Він перевершує LLM, такі як ChatGPT, у завданнях на міркування.

«У кращому разі безрозсудно, а в гіршому — оманливо і небезпечно»: не вірте галасу — ось чому штучний інтелект — це не те, що вам кажуть мільярдери

ІІ постійно «галюцинує», але є рішення

Чим більш просунутими стають моделі штучного інтелекту, тим краще вони дурять нас — вони навіть знають, коли їх тестують. Останні новини про штучний інтелект

Чи довіряєте ви штучному інтелекту?

За словами вчених, існує 32 різних способи, якими ІІ може вийти з-під контролю: від галюцинаторних відповідей до повного розходження з людством.

Вчені щойно розробили новий ІІ, змодельований на зразок людського мозку. Він перевершує LLM, такі як ChatGPT, у завданнях на міркування.

IBM і NASA створюють перший свого роду штучний інтелект, здатний точно передбачати потужні сонячні спалахи

Агент OpenAI ChatGPT може керувати вашим ПК, виконуючи завдання від вашого імені, але як це працює і в чому сенс?

Як штучний інтелект-помічник змінює поведінку підлітків дивовижним та зловісним чином. Остання в інтерв’ю.

ІІ не може вирішити ці головоломки, на які у людей йдуть лічені секунди.

Ми знаємо, що люди з’явилися в Африці, але археологія тільки-но починає розкривати секрети ранніх цивілізацій цього континенту.

«Ці рішення були абсолютно безрозсудними»: скорочення фінансування мРНК-вакцин зробить Америку вразливішою до пандемій.

“Уявляю, як би я відреагував, побачивши справжнього гігантського динозавра”: що думає про фільм науковий консультант “Світу Юрського періоду: Відродження”

«Відторгнення вакцини існує стільки ж, скільки й самі вакцини»: історик науки Томас Левенсон про історію мікробної теорії та її заперечників

«Відносини, які могли б жахнути Дарвіна»: Мінді Вайсбергер про лякаючу реальність зомбування комах ОСТАННІ СТАТТІ

  • Археологи стверджують, що у «дивній» гробниці в Перу знаходяться скелети людей із мотузками на шиї та пов’язаними за спиною руками.

  • 2Цього тижня зійде повний «Кукурудзяний Місяць», який принесе «кривавий місяць» – місячне затемнення в більшості країн світу.
  • 3Вчені стверджують, що існує 32 різних способи, якими ІІ може вийти з-під контролю: від галюцинаторних відповідей до повного розходження з людством.
  • 4Перший у світі знімок Землі з Місяця, зроблений 59 років тому — космічне фото тижня
  • 5У якої тварини найкращий слух?
  • Журнал Live Science входить до складу Future US Inc., міжнародної медіагрупи та провідного цифрового видавця. Завітайте на наш корпоративний сайт.

    • Про нас
    • передзвоніть експертам Future
    • Умови та положення
    • Політика конфіденційності
    • Політика використання файлів cookie
    • Заява про доступність
    • Рекламуйте у нас
    • Веб-сповіщення
    • Кар’єра
    • Редакційні стандарти
    • Як уявити нам історію

    © Future US, Inc. Повний 7 поверх, 130 West 42nd Street, Нью-Йорк, штат Нью-Йорк 10036.

    var dfp_config = { “site_platform”: “vanilla”, “keywords”: “type_interview,type-crosspost,exclude-from-syndication,serversidehawk,videoarticle,van-enable-adviser-

    Sourse: www.livescience.com

    No votes yet.
    Please wait…

    No votes yet.
    Please wait...

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *