С(Ц)ИЕСТА СО АНДРЕЈ РИСТЕСКИ: Длабокото учење е алхемија што мораме да ја разбереме
Андреј Ристески е професор на Универзитетот Карнеги Мелон (CMU) во Питсбург, Пенсилванија. По потекло од Прилеп, Андреј уште додека е во гимназија интензивно се занимава со математика и информатика. На додипломски заминува на Универзитетот Принстон, каде што останува и на докторски студии. Студира компјутерски науки, со фокус повторно на математика и информатика. Потоа оди на постдокторски студии на МИТ Универзитетот, по што доаѓа во CMU. Тука во моментов работи како професор на одделот за машинско учење, кој е прв и сè уште единствен оддел за машинско учење на светот. Меѓу основоположниците на одделот е Том Мичел, еден од гигантите на машинското учење.
Андреј беше гостин на последната С(ц)иеста минатата среда, која предизвика голем интерес меѓу членовите на групата, а особено од колегите што се занимаваат со машинско учење.
Машинско учење за (не)почетници
Генерално гледано, идејата на машинското учење е тренирање на алгоритам да извршува одредена задача. Во алгоритмот влегуваат одредени примери за тренирање, а начинот на кој алгоритмот се тренира да ја изврши задачата е преку нагодување на неговите параметри. Невронските мрежи се мрежи од вештачки неврони кои би требало да функционираат како биолошките неврони. Секој неврон е како јазол кој добива пораки од соседите, при што невронот некои од пораките ги смета за поважни од другите, им прави некаква трансформација (на пример, ги собира) и ги препраќа до наредниот сосед. Ваквите неврони врзани во мрежа се всушност алгоритмот што се тренира. Во суштина, параметрите што се нагодуваат се тежините на направените конекции или, со попрости зборови, учење на мрежата кои од соседите треба да се слушаат повеќе.
Има многу мистерии за тоа како се тренираат невронските мрежи и зошто и како тие функционираат
Длабокото учење, како еден од моделите на машинското учење станува популарно во 2012 година, кога на натпреварот за тренирање на визуелни податоци Imagenet, мрежата AlexNet, првата длабока мрежа што победила на овој натпревар, покажала драстични подобрувања од сите претходни методи на машинско учење, грешките паднале од 26 на 16% и оттогаш натаму победничките методи на натпреварот секоја година на еден или на друг начин биле базирани на длабоко учење. Притоа, продорот на длабокото учење се проширил и во други домени. Татковците на ренесансата на длабокото учење или како што ги нарекува Андреј, кумовите на длабокото учење, Јошуа Бенџио, Џефри Хинтон и Јан Лекун ја добиле Тјуринговата награда, највисоката награда во компјутерските науки, за нивните изуми во ова поле.
Длабокото учење е применливо во многу домени, како на полето на визуелното, јазикот, аудиопроцесирањето, играњето игри... Меѓутоа, има многу мистерии во врска со него, кои најмногу се однесуваат на тоа како ги тренираме невронските мрежи и зошто и како тие функционираат.
Првата мистерија, тренирањето на невронските мрежи, Андреј ја објаснува вака: „Можете да си замислите еден релјеф од сите можни вредности на параметрите на алгоритамот, односно на тежините на конекциите помеѓу невроните – најчесто мрежите се тренираат со „алчен алгоритам“ (greedy algorithm).“ Но, што всушност значи тоа? „Во овој релјеф повисоките точки се точки на полош перформанс на алгоритмот за задачата што сакаме да ја извршува и целта ни е да стигнеме до најниската точка, каде што имаме најдобар перформанс. Начинот на којшто се движиме низ релјефот е алчно – гледаме каде е најстрмен и се симнуваме натаму низ џумките (анг. local extrema). Ако се движиме многу алчно, можеме лесно да завршиме и во некој локален минимум, затоа што алгоритмите генерално се кратковиди, меѓутоа ова не се случува и ние успеваме да стигнеме до добрите вредности на параметрите. Впрочем, речиси целата теорија на оптимизација во математиката што ја знаеме се занимава со конвексна оптимизација, движење во релјефи што имаат само еден локален минимум, што е исто глобален минимум“, посочува тој.
Овие алгоритми имаат и многу други копчиња и компоненти: архитектура на мрежата, односно како се поврзувани невроните во мрежата, потоа колку агресивно е движењето низ релјефот (learning rate) итн. Како што објаснува Андреј, кога и како да се склопат овие различни елементи главно е алхемија, која вклучува многу проби и грешки. Токму поради тоа, многу често не е јасно кои од компонентите се всушност важни, а кои можат да се отстранат и мрежата и без нив да функционира исто толку добро. Тоа се покажува како голем проблем при обидот некој метод да се прилагоди за нова област каде што претходно не бил применет.
Втората мистерија во врска со длабокото учење, Андреј вели дека е статистичка: „Проблемот се состои во тоа што невронските мрежи во одреден аспект се премногу моќни. Во принцип, тие можат да направат и неразумни работи, како на пример да ги меморизираат примерите за тренинг, но ние тоа не го сакаме, затоа што тоа значи дека мрежата не учи. Целта ни е да ја натераме нешто да научи, но сепак останува мистеријата зошто не го прави тоа“.
Панда или гибон – прашање е сега!
Целта во проучувањето на начинот на функционирање на невронските мрежи е да се добие некаква сигурност за тоа како моделот ќе се однесува кога би се пуштил во употреба на некои нови примери. Еден таков екстремен пример се напорите на заедницата на машинско учење, која во последниве години се занимава со т.н. непријателски примери (adversarial examples). „Ако еден модел е научен да прави класификација на слика и препознава панда, ако додадеме малку шум во сликата, за човекот тоа нема да направи никаква разлика, но мрежата ќе помисли дека тоа е, на пример, гибон.
Тоа е како математички да се обидеме да моделираме слика од мачка
Зошто е ова проблем? Ако земеме мрежа тренирана да препознава сообраќајни знаци и на знакот за стоп ставиме налепница, што во реалноста често се случува, таа може знакот да го препознае како знак за ограничување на брзината, што автоматски значи дека е голема опасноста да се пушти по улица самовозачки автомобил со вештачка интелигенција што не ја разбираме до крај“, вели Андреј.
Тој прави уште една споредба: Сите ние се возиме во авион без да знаеме како точно е дизајниран и како функционираат неговите составни делови, но зад секоја компонента стои инженер што ја дизајнирал и има гаранција во какви услови како ќе се однесува. Но, како минува времето, ако сите ние почнеме да се возиме со автономни автомобили или почнеме да им го доверуваме читањето на рендгенските снимки на алгоритмите, а немаме гаранции како ќе се однесуваат индивидуалните компоненти, како мрежите носат одлуки и зошто и како прават некои грешки – имаме огромен проблем!
Зошто е толку тешко да се разберат овие методи со помош на математичките и статистичките алатки? Според Андреј, проблемот лежи во тоа што класичните алатки кои ги знаеме се премногу непрецизни: „Тоа е како математички да се обидеме да моделираме слика од мачка, што не е баш едноставно.“
Чарето е во Толстој
Начинот на којшто истражувачите на оваа област се обидуваат теоретски да разберат што се случува со мрежите Андреј го нарекува „принципот на Ана Каренина“, врз основа на почетната реченица на романот: „Сите среќни семејства си прилегаат едно на друго, секое несреќно семејство е несреќно на свој начин“. Поентата е дека ако треба да се разбере зошто некој конкретен проблем или домен е лесен, тоа не може да се прави на груб начин, туку мора да се меша теорија и пракса и мора да се види кои претпоставки во доменот мораат да бидат направени, која е структурата на податоците што е важна за да се дојде до алгоритми со теоретски гарантиран успех. „Нашиот сон е да дојдеме до начин на склопување на овие алатки од длабоко учење, на истиот начин како што го правиме тоа во развојот на софтвер, да имаме некакви спецификации кој модул како функционира и да имаме некаква сигурност дека при употреба во други средини нема да се однесува на некаков екстремно чуден или несигурен начин“, истакнува Андреј.
Пред да се отвори С(ц)иестата за дискусија, Андреј призна дека ова му е прво предавање од областа на неговата експертиза на македонски, при што присутните му честитаа за напорите да преведе голем дел од термините од областа на машинското учење, кои нашите научници најчесто по инерција ги користат во оригинал, на англиски.
Мозокот како компјутер како мозок
Дискусијата по излагањето на Андреј отвори неколку интересни прашања, на кои тој ги даде своите размислувања. Првото од нив се однесуваше на тоа колку сме блиску или далеку од теориското разбирање на функционирањето на невронските мрежи. А Андреј како од пушка: „Многу сме далеку“. Тој смета дека има некои работи што почнуваат полека да се разјаснуваат и објаснуваат, од аспект на оптимизацијата: „Особено се обидуваме да разбереме еден аспект од архитектурата на мрежите што е важен, а тоа е широчината на слоевите. Веќе почнуваме да сфаќаме дека ако има многу поголем капацитет во мрежата отколку што треба да има во извесен аспект, релјефот се измазнува. Ова е слично со тоа зошто во физиката можеме да ги разбереме големите системи“, вели Андреј и додава: „Во поглед на втората мистерија што ја споменав, од аспект на статистичките перформанси, премалку имаме разбрано“.
Зошто системот (не) се прави да биде поетички и пофер - гледајте го документарецот The Social Dilemma на Нетфликс. Тоа е тоа.
Дискусијата потоа отиде во делот на етиката и алгоритмите. Имајќи ја предвид неетичноста на алгоритмите на социјалните мрежи, на пример, на Андреј му беше упатено прашање дали е можно оваа етичност да се воведе во алгоритмите најпрво од теоретски аспект, затоа што самите бизниси тоа тешко дека ќе го направат кога не им оди во прилог. Андреј смета дека што и да е доменот или целта на алгоритмот, таа треба да биде добро дефинирана и да има спецификација и гаранција за тоа што прави алгоритмот: „Но, секако дека тука е и аспектот на поттиците што ги имаат компаниите, како максимизирањето на монетизацијата, така што веќе не е прашање дали ние би ја вовеле етичноста од теориски аспект. Тие и сега не дека не знаат како да го направат системот да биде поетички и пофер, едноставно, тоа често не им е од најголем интерес да го направат. Гледајте го документарецот Social dilemma на Нетфликс. Тоа е тоа.“
Во таа насока на размислување за некои повисоки цели, беше поставено и прашањето за тоа колку во моментов се работи на AGI (artificial general intelligence) – општ алгоритам наменет за генерална употреба, како голема цел на вештачката интелигенција. Андреј истакна дека напредокот во AGI е често преставен пред финансиерите на грантови и пред новинарите како поголем отколку што реално е. Според него, иако AGI има и други проблеми, следната бариера кон правењето алгоритми што се малку поблиску до типот на интелигенција што мислиме дека ја имаме е всушност интеграцијата на работите базирани на дистрибуирани невронски мрежи што користат многу податоци и методите што се наменети да прават некаков тип на логично резонирање.
Иако терминологијата, на радост на едни и на ежавење на други, е таква што влече корени од биологијата, па се зборува за невронски мрежи, неврони, интелигенција, Андреј укажува дека биолошките невронски мрежи биле само инспирација на тие што ги измислиле, но тоа не значи дека функционираат на истиот начин. „Иако има доста луѓе што работат на разбирање на невронската мрежа преку биологија, а не преку математика или статистика, проблемот е очигледен – ние нашиот мозок го разбираме помалку отколку што ги разбираме невронските мрежи. Затоа, мислам дека не треба да се става премногу тежина на тоа дека станува збор за истиот феномен. Корисно е само како метафора – и толку!“