Дослідники розкривають приховані складові креативності ІІ

(Зображення надано Адріаном Асторгано для журналу Quanta)

Колись нам обіцяли безпілотні автомобілі та роботів-покоївок. Натомість ми спостерігаємо розвиток систем штучного інтелекту, які можуть обігравати нас у шахи, аналізувати величезні обсяги тексту та складати сонети. Це стало одним із найбільших сюрпризів сучасної епохи: фізичні завдання, які легко виконати людям, виявляються дуже складними для роботів, тоді як алгоритми все частіше імітують наш інтелект.

Ще одним сюрпризом, який довгий час спантеличував дослідників, стала здатність цих алгоритмів до власного, дивного виду творчості.

Моделі дифузії, що становлять основу таких інструментів генерації зображень, як DALL E, Imagen і Stable Diffusion, призначені для створення точних копій зображень, на яких вони були навчені. Однак на практиці вони, мабуть, імпровізують, змішуючи елементи всередині зображень, створюючи щось нове — не просто безглузді плями кольорів, а цілісні зображення з семантичним значенням. У цьому й полягає «парадокс» моделей дифузії, вважає Джуліо Біролі, дослідник штучного інтелекту та фізик із Вищої нормальної школи в Парижі: «Якби вони працювали ідеально, вони мали б просто запам’ятовувати», — сказав він. “Але вони цього не роблять – вони насправді здатні створювати нові зразки”.

Вам може сподобатися

  • Чи не позбавить нас можливості мислити самостійно передачі всіх завдань на аутсорсинг штучному інтелекту?

  • Чому рішення OpenAI проти галюцинацій ІІ завтра вб’є ChatGPT

  • ІІ не може вирішити ці головоломки, на які у людей йдуть лічені секунди.

Для створення зображень моделі дифузії використовують процес відомий як шумозаглушення. Вони перетворюють зображення на цифровий шум (безладний набір пікселів), а потім збирають його заново. Це схоже на багаторазове проходження картини через шредер, поки не залишиться лише купа дрібного пилу, а потім склеювання фрагментів. Роками дослідники запитували: якщо моделі просто збирають зображення заново, то як у них з’являється новизна? Це схоже на складання зрізаної картини в зовсім новий витвір мистецтва.

Тепер два фізики зробили разючу заяву: саме технічні недосконалості самого процесу шумоподавлення призводять до креативності дифузійних моделей. У доповіді, яка буде представлена на Міжнародній конференції з машинного навчання 2025 року, дует розробив математичну модель навчених дифузійних моделей, щоб показати, що їхня так звана креативність насправді є детермінованим процесом — прямим і неминучим наслідком їхньої архітектури.

Проливаючи світло на «чорну скриньку» моделей дифузії, нове дослідження може вплинути на майбутні дослідження штучного інтелекту — і, можливо, навіть на наше розуміння людської креативності. «Справжня сила цієї роботи в тому, що вона дає дуже точні прогнози щодо чогось нетривіального», — сказав Лука Амброджіоні, фахівець з інформатики з Університету Радбауда в Нідерландах.

Мейсон Кемб, аспірант, який вивчає прикладну фізику в Стенфордському університеті і провідний автор нової статті, давно цікавиться морфогенезом: процесами, за допомогою яких живі системи самоорганізуються.

Один із способів зрозуміти розвиток ембріонів людини та інших тварин – це розглянути так званий шаблон Тьюринга, названий на честь математика XX століття Алана Тьюринга. Шаблони Тьюринга пояснюють, як групи клітин можуть організовуватися в окремі органи та кінцівки. Важливо, що це координація відбувається на локальному рівні. Немає генерального директора, який контролює трильйони клітин, щоб переконатися, що всі вони відповідають остаточному плану тіла. Іншими словами, окремі клітини не мають якогось готового креслення тіла, на якому можна було б засновувати свою роботу. Вони просто діють та вносять корективи у відповідь на сигнали від своїх сусідів. Ця висхідна система зазвичай працює гладко, але іноді вона дає збій – наприклад, в результаті утворюються руки з додатковими пальцями.

Коли в інтернеті почали з’являтися перші зображення, згенеровані ІІ, багато хто з них нагадував сюрреалістичні картини, що зображують людей з додатковими пальцями. Це відразу навело Камба на думку про морфогенез: «Це було схоже на провал, якого можна було б очікувати від [системи, що працює знизу вгору]», – сказав він.

На той момент дослідники штучного інтелекту вже знали, що дифузійні моделі використовують кілька технічних хитрощів при генерації зображень. Перше їх відоме як локальність: вони враховують лише одну групу, чи «ділянка», пікселів за раз. Друге полягає в тому, що вони дотримуються суворого правила при генерації зображень: наприклад, якщо зрушити вхідне зображення всього на пару пікселів у будь-якому напрямку, система автоматично підлаштовується, щоб внести ті ж зміни в зображення, що генерується. Ця особливість, яка називається трансляційною еквіваріантністю, дозволяє моделі зберігати цілісну структуру; без неї створювати реалістичні зображення набагато складніше.

Вам може сподобатися

  • Чи не позбавить нас можливості мислити самостійно передачі всіх завдань на аутсорсинг штучному інтелекту?

  • Чому рішення OpenAI проти галюцинацій ІІ завтра вб’є ChatGPT

  • ІІ не може вирішити ці головоломки, на які у людей йдуть лічені секунди.

Почасти через ці особливості дифузійні моделі не звертають уваги те що, де саме конкретний фрагмент розташовуватиметься на кінцевому зображенні. Вони просто генерують один фрагмент за раз, а потім автоматично розміщують їх на місці, використовуючи математичну модель, відому як функцію оцінки, яку можна подати як цифровий шаблон Тьюринга.

Дослідники довгий час вважали локальність і еквіваріантність лише обмеженнями процесу шумоподавлення, технічними особливостями, що заважають дифузійним моделям створювати ідеальні копії зображень. Вони пов’язували їх із креативністю, яка вважалася явищем вищого порядку.

На них чекав ще один сюрприз.

Зроблено локально

Камб розпочав свою аспірантську роботу у 2022 році в лабораторії Сур’ї Гангулі, фізика зі Стенфорда, який також працює в галузі нейробіології та електротехніки. У тому ж році OpenAI випустила ChatGPT, викликавши сплеск інтересу до області, що нині відома як генеративний ІІ. Поки розробники працювали над створенням більш потужних моделей, багато вчених продовжували прагнути зрозуміти внутрішню роботу цих систем.

Мейсон Камб (ліворуч) та Сурья Гангулі виявили, що креативність у моделях дифузії є наслідком їхньої архітектури.

З цією метою Камб зрештою розробив гіпотезу про те, що локальність та еквіваріантність призводять до творчості. Це відкрило привабливу експериментальну можливість: якби він зміг розробити систему, яка б займалася тільки оптимізацією локальності та еквіваріантності, вона поводилася б подібно до дифузійної моделі. Цей експеримент ліг в основу нової статті, написаної спільно з Гангулі.

Камб та Гангулі називають свою систему машиною еквіваріантної локальної оцінки (ELS). Це не навчена модель дифузії, а набір рівнянь, що дозволяє аналітично пророкувати склад зображень, очищених від шуму, виключно на основі механізмів локальності та еквіваріантності. Потім вони взяли серію зображень, перетворених на цифровий шум, і пропустили їх як через машину ELS, так і через низку потужних моделей дифузії, включаючи ResNets і UNets.

Гангулі сказав, що результати виявилися “шокуючими”: за всіма напрямками машина ELS змогла ідентично зіставити результати навчених моделей дифузії із середньою точністю 90%. За словами Гангулі, це «нечуваний результат у машинному навчанні».

Результати, мабуть, підтверджують гіпотезу Камба. «Щойно ви вводите локальність, [творчість] стає автоматичним; воно цілком природно випадає з динаміки», — сказав він. Він виявив, що ті самі механізми, які обмежували вікно уваги дифузійних моделей у процесі шумоподавлення, змушуючи їх фокусуватися на окремих ділянках, незалежно від того, яке місце вони зрештою займуть у кінцевому продукті, є тими самими, які забезпечують їхню креативність. Феномен додаткових пальців, що спостерігається в дифузійних моделях, є прямим побічним продуктом гіперфіксації моделі на генерації локальних ділянок пікселів без будь-якого більш широкого контексту.

Експерти, опитані для цієї статті, загалом погодилися з тим, що хоча робота Камба і Гангулі проливає світло на механізми креативності в моделях дифузії, багато залишається незрозумілим. Наприклад, великі мовні моделі та інші системи штучного інтелекту, мабуть, також виявляють креативність, але вони не використовують локальність та еквіваріантність.

“Я думаю, що це дуже важлива частина історії, – сказав Біролі, – але це не вся історія”.

Створення творчості

Вперше дослідники продемонстрували, що креативність дифузійних моделей можна розглядати як побічний продукт самого процесу шумоподавлення, який можна формалізувати математично і передбачити безпрецедентно високою точністю. Це схоже на те, якби нейробіологи помістили групу художників в апарат МРТ і виявили загальний нейронний механізм, що лежить в основі їхньої творчості, який можна було б записати у вигляді набору рівнянь.

ЗВ’ЯЗАНІ ІСТОРІЇ

– Чому чат-боти на основі штучного інтелекту споживають так багато енергії?

— Штучний інтелект набирає обертів — як це впливає на те, як ми користуємось Інтернетом?

— Вчені щойно розробили новий ІІ, змодельований на зразок людського мозку. Він перевершує програми LLM, такі як ChatGPT, у завданнях на міркування.

Порівняння з нейронаукою може вийти за рамки простої метафори: робота Камба та Гангулі може також пролити світло на «чорну скриньку» людського розуму. “Людська та ІІ-креативність, можливо, не так сильно відрізняється”, – сказав Бенджамін Гувер, дослідник машинного навчання з Технологічного інституту Джорджії і дослідницького центру IBM, що вивчає моделі дифузії. «Ми збираємо речі, ґрунтуючись на своєму досвіді, мріях, баченні, слуху чи бажаннях. ІІ також просто збирає будівельні блоки з того, що він бачить, і з того, що йому доручено робити». Відповідно до цієї точки зору, як людська, так і штучна креативність можуть бути докорінно зумовлені неповним розумінням світу: ми всі робимо все можливе, щоб заповнити прогалини в наших знаннях, і час від часу створюємо щось нове та цінне. Можливо, це є те, що ми називаємо креативністю.

Оригінальна історія передрукована з дозволу Quanta Magazine, редакційно-незалежного видання, який підтримує Фонд Саймонса.

Вебб РайтЖурналіст

Вебб Райт — журналіст із Брукліна, Нью-Йорк, який пише про технології та розум. Він випускник Вищої школи журналістики Колумбійського університету та колишній стипендіат програми «Психоделічна журналістика» Університету Ферріса в Берклі.

Перед коментуванням необхідно підтвердити своє публічно відображене ім’я.

Будь ласка, вийдіть із системи та увійдіть знову. Потім вам буде запропоновано ввести ім’я, що відображається.

Вийти Читати далі

Чи не позбавить нас можливості мислити самостійно передачі всіх завдань на аутсорсинг штучному інтелекту?

Чому рішення OpenAI проти галюцинацій ІІ завтра вб’є ChatGPT

ІІ не може вирішити ці головоломки, на які у людей йдуть лічені секунди.

Вчені попросили ChatGPT вирішити математичне завдання, яке виникло понад 2000 років тому, і відповідь програми їх здивувала.

Нове тривожне дослідження передбачає, що ІІ може використовувати онлайн-зображення як спосіб проникнення у ваш комп’ютер

ІІ перехитрив 30 провідних математиків світу на секретній зустрічі у Каліфорнії
Останні новини штучного інтелекту

Чому рішення OpenAI проти галюцинацій ІІ завтра вб’є ChatGPT

Вчені попросили ChatGPT вирішити математичне завдання, яке виникло понад 2000 років тому, і відповідь програми їх здивувала.

«Неможливо загнати джина назад у пляшку»: читачі вважають, що вже надто пізно зупиняти розвиток штучного інтелекту

Нове тривожне дослідження передбачає, що ІІ може використовувати онлайн-зображення як спосіб проникнення у ваш комп’ютер

Чому чат-боти на основі штучного інтелекту споживають так багато енергії?

Зростання популярності штучного інтелекту — як це впливає на те, як ми користуємось Інтернетом?
Останні новини

Чи безпечний ацетамінофен під час вагітності? Ось що каже наука.

Вчені стверджують, що таємничий космічний вибух неможливо пояснити

Новини науки цього тижня: проривні ліки від хвороби Хантінгтона і чорна діра, що швидко росте, яка порушує закони фізики

Дерева тропічних лісів Амазонки опираються зміні клімату, стаючи товстішими через CO2 в атмосфері.

Вчені представили перший у світі квантовий комп’ютер, побудований на звичайних кремнієвих чіпах

«Якщо йде космічна гонка, Китай у ній вже перемагає»: НАСА навряд чи доставить зразки марсіанського ґрунту на Землю раніше за Китай, вважають експерти.
ОСТАННІ СТАТТІ

  • 1Історія науки: Розетський камінь розшифрований, відкриваючи вікно в давньоєгипетську цивілізацію – 27 вересня 1822 р.

  • 2Вчені попросили ChatGPT вирішити математичне завдання, яке виникло понад 2000 років тому. Відповідь програми їх здивувала.
  • 3. Новини науки цього тижня: проривні ліки від хвороби Хантінгтона і чорна діра, що швидко росте, яка порушує закони фізики.
  • 4Офіційно: люди виявили 6000 планет за межами нашої Сонячної системи.
  • 5Чому ліки неприємні на смак?
  • Журнал Live Science входить до складу Future US Inc., міжнародної медіагрупи та провідного цифрового видавця. Завітайте на наш корпоративний сайт.

    • Про нас
    • передзвоніть експертам Future
    • Умови та положення
    • Політика конфіденційності
    • Політика використання файлів cookie
    • Заява про доступність
    • Рекламуйте у нас
    • Веб-сповіщення
    • Кар’єра
    • Редакційні стандарти
    • Як уявити нам історію

    © Future US, Inc. Повний 7 поверх, 130 West 42nd Street, Нью-Йорк, штат Нью-Йорк 10036.

    var dfp_config = { “site_platform”: “vanilla”, “keywords”: “type-news-daily,type-crosspost,exclude-from-syndication,serversidehawk,videoarticle,van-enable-adviser-

    Sourse: www.livescience.com

    No votes yet.
    Please wait…

    No votes yet.
    Please wait...

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *