Perceiver AR на DeepMind: стъпка към по-голяма ефективност на AI

deepmind-2022-perceiver-ar-architecture

Архитектурата Perceiver AR на DeepMind и Google Brain намалява задачата за изчисляване на комбинаторния характер на входовете и изходите в латентно пространство, но с обрат, че латентното пространство има „причинно маскиране“, за да добави авторегресивния ред на типичен трансформатор.

DeepMind/Google Brain

Един от тревожните аспекти на невероятно популярния сегмент на дълбокото обучение на изкуствения интелект е все по-големият размер на програмите. Експерти в областта казват, че изчислителните задачи са обречени да стават все по-големи и по-големи, защото мащабът има значение.

Такива все по-големи и по-големи програми отнемат ресурси и това е важен въпрос в етиката на задълбоченото обучение за обществото, дилема, която привлече вниманието на масови научни списания като Nature.

Ето защо е интересно всеки път да се споменава терминът ефективност, както в, Можем ли да направим тази AI програма по-ефективна?

Учените от DeepMind и отдела за мозъка на Google наскоро адаптираха невронна мрежа представен миналата година, Perceiverза да стане по-ефективен по отношение на изискването за компютърна мощност.

Новата програма, Perceiver AR, е кръстена на “авторегресивния” аспект на нарастващ брой програми за дълбоко обучение. Авторегресията е техника, чрез която една машина използва своите изходи като нови входове към програмата, рекурсивна операция, която формира карта на вниманието за това как множество елементи се отнасят един към друг.

Също: Супермоделът на Google: DeepMind Perceiver е стъпка по пътя към AI машина, която може да обработва всичко и всичко

Transformer, изключително популярната невронна мрежа, която Google представи през 2017 г., има този авторегресивен аспект. И много модели от тогава, вкл GPT-3 и първата версия на Perceiver.

Perceiver AR следва втора версия на Perceiver, наречена Perceiver IO, представена през март, и оригиналния Perceiver преди година този месец.

Иновацията на оригиналния възприемател беше да вземе трансформатора и да го настрои, за да му позволи да консумира всички видове входвключително текстов звук и изображения, в гъвкава форма, вместо да се ограничава до конкретен вид вход, за който обикновено се разработват отделни видове невронни мрежи.

Perceiver е една от нарастващия брой програми, които използват механизми за автоматично регресивно внимание, за да смесват различни модалности на въвеждане и различни области на задачи. Други примери включват Pathways на Google, DeepMind Гатои на Мета date2vec.

Също: „Gato“ на DeepMind е посредствен, така че защо са го създали?

След това, през март, същият екип от Andrew Jaegle и колегите, които създадоха Perceiver, представи версията “IO”.което засили на изход на Perceiver, за да поеме повече от просто класификация, постигайки множество изходи с всякакъв вид структура, варираща от извеждане на текстов език до полета на оптичен поток до аудиовизуални последователности до символни неподредени набори. Може дори да произвежда движение в играта StarCraft II.

Сега, във вестника, Авторегресивно моделиране с общо предназначение с дълъг контекст с Perceiver ARJaegle и екипът се изправят пред въпроса как трябва да се мащабират моделите, тъй като стават все по-амбициозни в тези мултимодални входни и изходни задачи.

Проблемът е, че авторегресивното качество на Transformer и всяка друга програма, която изгражда карта на вниманието от вход към изход, е, че изисква огромен мащаб по отношение на разпределение върху стотици хиляди елементи.

Това е ахилесовата пета на вниманието, необходимостта, точно, да се обърне внимание на всичко и всичко, за да се състави разпределението на вероятностите, което прави картата на вниманието.

Също: „data2vec“ на Meta е стъпка към една невронна мрежа, която да управлява всички тях

Както казват Jaegle и екипът, това се превръща в кошмар за мащабиране в компютърна гледна точка, тъй като броят на нещата, които трябва да се сравняват едно с друго във входа, се увеличава:

Има напрежение между този вид дълга форма, контекстуална структура и изчислителните свойства на Transformers. Трансформаторите многократно прилагат операция за самонасочване към своите входове: това води до изчислителни изисквания, които едновременно нарастват квадратично с дължината на входа и линейно с дълбочината на модела. Тъй като входните данни стават по-дълги, са необходими повече входни токени, за да се наблюдават, и тъй като моделите във входните данни стават по-фини и сложни, е необходима повече дълбочина за моделиране на моделите, които се получават. Изчислителните ограничения принуждават потребителите на Transformers или да съкращават входовете към модела (не позволявайки му да наблюдава много видове дългообхватни модели), или да ограничават дълбочината на модела (лишавайки го от изразителната сила, необходима за моделиране на сложни модели).

Оригиналният Perceiver всъщност донесе подобрена ефективност спрямо Transformers, като насочи вниманието към латентно представяне на входа, вместо директно. Това имаше ефект на “[decoupling] изчислителните изисквания за обработка на голям входен масив от тези, необходими за създаване на много дълбока мрежа.”

perceiver-ar-graphic-comparison-to-transformer

Сравнение на Perceiver AR със стандартна дълбока мрежа на Transformer и подобрения Transformer XL.

DeepMind/Google Brain

Латентната част, където представянето на входа се компресира, се превръща в един вид по-ефективен двигател за внимание, така че „за дълбоките мрежи стекът за самонасочване е мястото, където се извършва по-голямата част от изчисленията“, вместо да работи върху безброй входове.

Но предизвикателството остава, че възприемателят не може да генерира резултати по начина, по който го прави трансформаторът, защото латентното представяне няма усещане за ред, а редът е от съществено значение при авторегресията. Предполага се, че всеки изход е продукт на това, което е дошло преди то, а не след това.

Също: Google разкрива „Pathways“, AI от следващо поколение, който може да бъде обучен да извършва много задачи

„Въпреки това, тъй като всеки латентен модел се грижи за всички входове, независимо от позицията, Perceivers не могат да се използват директно за генериране на авторегресия, което изисква всеки изход на модела да зависи само от входове, които го предхождат в последователност“, пишат те.

С Perceiver AR екипът отива по-далеч и вмъква поръчка във Възприемателя, за да го направи способен на тази авторегресивна функция.

Ключът е това, което се нарича “каузално маскиране” както на входа, където се извършва “кръстосано внимание, така и на латентното представяне, за да принуди програмата да обърне внимание само на неща, предхождащи даден символ. Този подход възстановява качеството на посоката на Трансформатор, но с много по-малко изчисления.

Резултатът е възможност да се прави това, което Transformer прави при много повече входове, но със значително подобрена производителност.

„Perceiver AR може да се научи да разпознава перфектно шаблони с дълъг контекст на разстояния от най-малко 100 000 токена при задача за синтетично копиране“, пишат те, срещу твърдо ограничение от 2048 токена за Transformer, където повече токени се равняват на по-дълъг контекст, който трябва да е равен повече сложност в изхода на програмата.

Също: AI за шестдесет секунди

И Perceiver AR го прави с „подобрена ефективност в сравнение с широко използваните архитектури Transformer и Transformer-XL само за декодер и способността да се променя изчислението, използвано по време на теста, за да съответства на целевия бюджет“.

По-конкретно, времето на стенния часовник за изчисляване на Perceiver AR, пишат те, е драматично намалено за същото количество внимание и възможност за получаване на много по-голям контекст – повече входни символи – при същия изчислителен бюджет:

Transformer е ограничен до дължина на контекста от 2048 токена, дори и само с 6 слоя – по-големите модели и по-голямата дължина на контекста изискват твърде много памет. Използвайки същата 6-слойна конфигурация, можем да мащабираме паметта на Transformer-XL до обща дължина на контекста от 8192. Perceiver AR се мащабира до 65k дължина на контекста и може да бъде мащабиран до над 100k контекст с допълнителна оптимизация.

Всичко това означава гъвкавост на изчисленията: „Това ни дава повече контрол върху това колко изчисления се използват за даден модел по време на тестване и ни позволява плавно да обменяме скорост срещу производителност.“

Подходът, пишат Jaegle и колеги, може да се използва за всеки тип вход, не само за символи на думи, например пиксели на изображение:

Същата процедура може да се приложи към всеки вход, който може да бъде поръчан, стига да се приложи маскиране. Например, RGB каналите на изображението могат да бъдат подредени в ред на растерно сканиране, чрез декодиране на R, G и B цветни канали за всеки пиксел в последователността или дори при различни пермутации.

Също: Етика на AI: Ползи и рискове от изкуствения интелект

Авторите виждат голям потенциал за Perceiver да отиде на места, като пишат, че “Perceiver AR е добър кандидат за авторегресивен модел с общо предназначение с дълъг контекст.”

Има обаче допълнителна вълна в коефициента на ефективност на компютъра. Някои скорошни усилия, отбелязват авторите, се опитаха да намалят изчислителния бюджет за автоматично регресивно внимание чрез използване на “разредност”, процесът на ограничаване на кои входни елементи се придава значение.

perceiver-ar-graphic-wall-clock-time-comparation

В същото време на стенен часовник Perceiver AR може да изпълнява повече символи от входа през същия брой слоеве или да изпълнява същия брой входни символи, като същевременно изисква по-малко време за изчисление – гъвкавост, която авторите смятат, че може да бъде общ подход към по-голяма ефективност в големи мрежи.

DeepMind/Google Brain

Това има някои недостатъци, главно че е твърде твърдо. „Недостатъкът на методите, които използват рядкост, е, че тази рядкост трябва да бъде настроена ръчно или създадена с евристики, които често са специфични за домейн и могат да бъдат трудни за настройка“, пишат те. Това включва усилия като OpenAI и Nvidia 2019 “Разреден трансформатор.”

„За разлика от това, нашата работа не налага ръчно изработен модел на рядкост върху слоевете на вниманието, а по-скоро позволява на мрежата да научи на кои входове с дълъг контекст да обърне внимание и да ги разпространява през мрежата“, пишат те.

„Първоначалната операция за кръстосано присъствие, която намалява броя на позициите в последователността, може да се разглежда като форма на научена рядкост“, добавят те.

Възможно е научената рядкост по този начин сама по себе си да бъде мощен инструмент в инструментариума на моделите за дълбоко обучение през следващите години.

Leave a Comment