НА КАНТАР СО ДАНИЕЛ СМИЛКОВ: Една слика – илјада кодови
Саат и пол група научници зборуваат за машинско учење, вештачка интелигенција, визуализација на податоци, невронски мрежи... Ако сте упатени, ќе ви биде интересно и ќе сакате да го впиете секој збор. Ако се занимавате со нешто што нема допирни точки со темиве, како на пример со некоја уметност, може да се изгубите во преводот. Но, исто така, кога ќе слушнете дека постојат алатки кои можат да пишуваат поезија, да раскажуваат приказни па дури и да пародираат стилови речиси до совршенство, темата ќе ве освои и може да се инспирирате да направите (или да напишете) нешто што немало шанси да ви падне на памет без тој муабет.Со други зборови, темата од последната научна дискусија, визуализација на податоци во машинското учење е само за посветените и за тие со отворени умови. Гостин на дискусијата беше Даниел Смилков, наш човек кој работи како тим лидер на проектот TensorFlow.js во „Гугл“.Даниел дипломирал на ЕТФ во Скопје (денешно ФИНКИ) и почнува да работи во МАНУ со академик Љупчо Коцарев на анализа на системи на мрежи, како социјални мрежи, технолошки, социолошки... Потоа заминува на пракса во истражувачкиот центар на „Ај-би-ем“ (IBM) во Њујорк и позитивното искуство од САД го влече да се врати повторно таму. Магистрира на Универзитетот МИТ, каде што работи со професор Цезар Хидалго, физичар под менторство на Алберт-Ласло Барабаши, зачетник на областа на анализа на мрежи.
Привлечноста на визуализацијатаСо Хидалго на МИТ Даниел работи на развој на Immersion – алатка за визуализација на личните мрежи на меилови, на која ѝ ги даваш само метаподатоците од твојата е-пошта, како време на испраќање на меиловите, контактите до кои биле испратени меиловите и оние ставени во Сс и ти прави визуализации на твоите конекции низ времето. Immersion излегува во 2015 година, кога станува актуелен случајот со Едвард Сноуден и сигурноста на податоците, па алатката го привлекува вниманието на јавноста и многу луѓе почнуваат да ја користат. „Immersion беше толку популарна затоа што беше персонална. Не беше мрежа каде што гледаш анализа од некоја компанија, туку тоа се твоите податоци. Беше интересно, добивавме еден куп е-меилови од луѓе што беа фасцинирани од неа и кои ни пишуваа дека со неа се враќаат во минатото и добиваат еден поинаков увид во врските што ги имаат со луѓето“, вели Даниел.Со Immersion Даниел влегува во светот на визуализацијата на податоци во машинското учење. „Многу ми се допаѓаше темата, бидејќи луѓето реагираат кога ќе претставиш нешто визуелно, затоа што ние сме особено визуелни суштества, а и лесно можеш да споделиш со луѓето што работиш“, кажува тој и објаснува дека тоа го влече да аплицира за работа во одделот за истражување на „Гугл“, каде што успева да влезе преку поранешни колеги од лабораторијата на МИТ и првично работи на генерирање графикони од табели на податоци. Денес е дел од истражувачкиот тим на „Гугл бреин“ за вештачка интелигенција со длабоко учење.Во „Гугл бреин“ го визуализираат Tensor Flow, прават отворени визуализации за едноставни невронски мрежи каде што секој неврон е визуализиран индивидуално, со што на некој начин го споделуваат знаењето за машинското учење со останатите колеги и со идните програмери. Потоа работи на TensorFlow.js, библиотека за извршување на невронски мрежи на Tensor Flow модели во Javascript и во пребарувач. Уште една алатка која ја почнал во „Гугл“, а чиј код денес е достапен за јавноста (open-sourced) е визуализација на embeddings или визуализација на високодимензионални вектори. Станува збор за функционалност на Gmail којашто се нарекува „Embedding Projector“, наменета за истражувачите кои работеле на „паметни одговори“ (Smart replies). Таа им помогнала да најдат проблем во машинскиот алгоритам позади Smart replies и да го усовршат автоматското предложување на одговор за порака, кое понатаму се има развиено во довршување реченица на меил кога се пишува на англиски. Нешто што целосно го менува начинот на кој комуницираме во писмена електронска форма.Како GPT3 го менува светотGPT3, она што наликува на име на роботче од „Војна на ѕвездите“, е всушност ѕвезда во светот на машинското учење. Тоа е една од најнапредните алатки, која е обид да се направи компјутерот да објаснува како човек. Првата верзија, GPT2 е развиена пред помалку од две години од научници во „Open AI“, а GPT3 пристигна во мај годинава. Алгоритамот е пуштен слободно да се храни со податоци на интернет и сам да „учи“ во тој процес. Зачудувачки е што сè може да направи алатката: да одговара на прашања, да довршува текст, да пишува рецензии и критики, поеми и пародии, па дури и да генерира програмерски код за решавање на некој проблем. И тешко дека човек може да направи разлика дали тоа го има направено човек или компјутер. Даниел смета дека со ова светот влегува во една нова фаза на програмирање каде што можеме да користиме природен мајчин јазик за да ѝ кажеме на невронската мрежа што сакаме да добиеме и таа да го генерира тоа. Со други зборови, секој би можел да програмира.„Пробивов на полето на вештачката интелигенција што го гледаме денес е многу интересен. Уште е рано да се каже какво влијание ќе имаат технологиите како GPT3 врз развојот на општеството, но и да дојде до промени, тие нема да се случат толку брзо. Многу сме далеку од тоа да произведеме вештачка интелигенција на ниво на човечка интелигенција. Но, секако дека ќе има и позитивни и негативни примери на примена на технологиите како GPT3 и важно е да успееме да ги минимизираме негативните“, смета Даниел и додава дека во „Гугл бреин“ многу се работи во оваа насока: „На пример, гледаме како да им се стави воден жиг на текстовите генерирани од GPT3 за во иднина да се знае дека тоа е автоматски генериран текст, а не напишан од човек. Исто така, се градат алатки за да се измерат предрасудите (bias), бидејќи овие модели читаат сè и сешто, така што можат да генерираат и текст што е сензитивен, што не е ферски, што е расистички итн.“GPT3 е алатка со која на некој начин се покажува дека нема ограничувања во можностите на машинското учење. Имено, колку повеќе се зголемува обемот на податоците што моделот може да ги меморира, толку расте и неговиот капацитет и квантитативно, и квалитативно да генерира решенија на проблеми. Меѓутоа, Даниел вели дека од друга страна има тип на прашања со резонирање, каде што GPT3 не е во ништо подобар од GPT2, па она што им претстои на научниците од неговата фела е да го насочат своето размислување кон тоа како да го менуваат начинот на кој ги тренираат овие мрежи за да се постигне реален напредок во овој сегмент. Дотогаш, машините ќе си останат само машини.
Дискусијата ја водеше Никола Стиков, а во неа учествуваа: Кирил Гаштеовски, Александар Димитриев, Бојан Ангелов, Драгана Манасова, Горјан Радевски, Дино Граматиков, Дафинка Срезоска, Чарлс Моксли, Блаже Аризанов, Владимир Трајковиќ, Викторија Димова и Владимир Кузмановски.
Корисни линкови на темата:
https://www.zdnet.com/article/openais-gigantic-gpt-3-hints-at-the-limits-of-language-models-for-ai/
https://www.microsoft.com/en-us/research/video/building-neural-network-models-that-can-reason/
https://www.wired.com/story/a-radical-new-model-of-the-brain-illuminates-its-wiring/
https://techcrunch.com/2019/07/19/googles-smily-is-reverse-image-search-for-cancer-diagnosis/