Google розробив квантовий алгоритм, що зменшує потребу ШІ в пам'яті у 6 разів

Здається, загроза дефіциту ресурсів пам’яті для систем штучного інтелекту відступає. Команда Google Research представила інноваційний алгоритм стиснення під назвою TurboQuant. Його ключова перевага — здатність суттєво зменшувати обсяг пам’яті, необхідний для функціонування великих мовних моделей (LLM), одночасно прискорюючи їхню роботу та зберігаючи високу точність і якість результатів.

Оптимізація кешу “ключ-значення”

Основною мішенню TurboQuant є кеш “ключ-значення” (key-value cache). Google порівнює цей компонент зі своєрідною “цифровою шпаргалкою”, яка містить важливу інформацію, щоб уникнути її повторних обчислень. Ця “шпаргалка” є критично важливою, адже LLM самі по собі не володіють знаннями у традиційному розумінні. Вони імітують розуміння через вектори, що відображають семантичне значення токенізованого тексту. Схожість двох векторів свідчить про їхню концептуальну близькість. Багатовимірні вектори, які можуть містити сотні чи тисячі елементів (вкладень), використовуються для опису складної інформації, такої як пікселі зображення або великі масиви даних. Однак, ці вектори потребують значного обсягу пам’яті, що призводить до роздування кешу “ключ-значення” і стає критичним вузьким місцем для продуктивності.

Google розробив квантовий алгоритм, що зменшує потребу ШІ в пам'яті у 6 разів 5

Подвійний удар: ефективність та точність

Розробники систем штучного інтелекту часто застосовують техніки квантування (quantization) для зниження вимог до обчислювальної потужності шляхом роботи з даними нижчої точності. Однак, традиційне квантування нерідко призводить до погіршення якості результатів, оскільки знижується точність оцінки токенів. Згідно з попередніми даними Google, TurboQuant демонструє вражаючі результати: у деяких тестових сценаріях він забезпечує 8-кратне прискорення роботи та 6-кратне скорочення споживання пам’яті, при цьому не жертвуючи якістю.

Революційний підхід: PolarQuant та QJL

Впровадження TurboQuant у модель штучного інтелекту відбувається у два етапи. Для досягнення максимально ефективного стиснення Google розробив систему під назвою PolarQuant. Зазвичай, вектори в моделях ШІ кодуються за допомогою стандартних декартових координат (XYZ). PolarQuant трансформує ці вектори у полярні координати в межах декартової системи. На цій круговій сітці вектори спрощуються до двох основних компонентів: радіуса (що відображає “силу” базових даних) та напрямку (що вказує на “значення” цих даних). PolarQuant виступає як високопродуктивний міст для стиснення, конвертуючи декартові вхідні дані в компактне полярне “скорочення” для зберігання та обробки.

Google розробив квантовий алгоритм, що зменшує потребу ШІ в пам'яті у 6 разів 6

Google наводить цікаву аналогію з реального життя. Уявіть, що координати вектора — це вказівки маршруту. Традиційне кодування могло б звучати як “Пройдіть 3 квартали на схід, потім 4 квартали на північ”. Натомість, у декартових координатах це було б просто “Пройдіть 5 кварталів під кутом 37 градусів”. Такий підхід вимагає менше місця і позбавляє систему від обтяжливих кроків нормалізації даних.

Хоча PolarQuant виконує значну частину стиснення, другий етап спрямований на усунення можливих похибок. Незважаючи на ефективність PolarQuant, він може призводити до невеликих спотворень. Для їхнього згладжування Google пропонує техніку Quantized Johnson-Lindenstrauss (QJL). Вона передбачає застосування 1-бітного шару корекції похибок до моделі, зводячи кожен вектор до одного біта (+1 або −1), але при цьому зберігаючи ключові векторні дані, які описують взаємозв’язки. Результатом цього процесу є точніша оцінка механізму уваги (attention), який є фундаментальним процесом, що дозволяє нейронним мережам визначати важливість окремих частин даних.

Думка UA Новини: Розробка TurboQuant від Google свідчить про значний крок уперед у оптимізації роботи штучного інтелекту, що може зробити передові технології ШІ доступнішими для ширшого кола користувачів та пристроїв. Це відкриває нові можливості для розвитку складних застосунків, які раніше були обмежені через високі вимоги до апаратного забезпечення.

За матеріалами: itc.ua

No votes yet.

Please wait...

Google розробив квантовий алгоритм, що зменшує потребу ШІ в пам’яті у 6 разів

Оптимізація кешу “ключ-значення”

Подвійний удар: ефективність та точність

Революційний підхід: PolarQuant та QJL

Залишити відповідьСкасувати відповідь