Запознајте го Буки
Истрениравме модел за транскрипција на македонски јазик. Се вика Буки. Бесплатен е и работи одлично!
Во 2019 паднав од точак и си ја скршив раката. Не можев да куцам со скршена рака, па затоа инсталирав апликација што ќе ми овозможи да ги диктирам пораките. Апликацијата работеше одлично на англиски, просечно на српски и никако на македонски. Си реков дека е само прашање на време и дека за неколку години сигурно ќе имаме добра алатка за транскрипција на македонски говор.
Четири години подоцна почина татко ми, па посакав да ги транскрибирам неговите новинарски снимки за да направам подкаст во негова чест. Татко ми, Александар Стиков, беше новинарот со најмногу изговорени минути во етерот на националното радио, а неговите снимки се дестилат на македонската спортска историја. Тие документираат стотици победи и порази пренесени на слушателите во време кога радиото беше главeн медиум на комуникација. Тие се и архива на личните радости и разочарувања на татко ми, затоа што Аце беше најекспресивен кога беше во етерот. Мало чудо е што овие снимки се зачувани на шест USB стикови (да, да, Стикови), пренесени од неговата колешка Вики низ темните лавиринти на Македонската радио телевизија и копирани повторно и повторно на различни лаптопи и надворешни хард дискови.
За жал, и во 2023 не можев да најдам добра алатка за транскрипција на македонскиот јазик. Се обидов со бесплатните отворени модели на OpenAI (Whisper) и Meta (SeamlessM4T), како и со затворениот и скап модел на Google (Chirp Speech-to-Text). Ниту еден од нив не е доволно добар за транскрипција на теренски снимки, како што се радио преносите од спортски натпревар. На поосновно ниво, овие модели исто така не успеваат во стандардни задачи за транскрипција, бидејќи мешаат прилози и придавки и случајно вметнуваат бугарски и српски зборови и граматика.
Затоа решив лично да се ангажирам и да направам нешто по ова прашање.
Се обратив до Илина Јакимовска, директорка на Институтот за етнологија и антропологија и личен херој кој ја документира македонската култура како професор, блогер и подкастер. Нејзините колеги од Факултетот за природни науки (Љупчо Ристески и Даворин Трпески) ги отворија вратите на архивата на Институтот, давајќи ни пристап до ризница од внимателно транскрибирани теренски интервјуа на различни македонски дијалекти.
Контактирав со Дејан Порјазоски, македонски докторант во Финска кој работи на транскрипција на јазици. Дејан волонтерски истренира неколку јазични модели, користејќи ги архивите на Институтот, подкастот на Илина Јакимовска (Обични Луѓе) и видеата од платформата НАУКА ЗА ДЕЦА на нашата Фондација КАНТАРОТ. Конечно, го поканив Ордан Чукалиев, директор на УКИМ Центарот за напредни интердисциплинарни истражувања (ЦеНИИс), да нè води во создавањето на Буки, отворен модел за транскрипција на македонскиот јазик.
Резултатите ме воодушевија, затоа што конечно имам начин да го документирам животот на татко ми, анотирајќи и пребарувајќи ги транскриптите од неговите снимки. Настрана личната мотивација, сега имаме и алатка за зачувување на македонскиот јазик и наследство.
Илјадници часови на снимени материјали се распаѓаат во влажните ќошиња на македонските институции, чекајќи да бидат пребарливи и индексирани. Моделот Буки е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата.
За да можеме да направиме верзија што ќе транскрибира и дијалекти и теренски снимки, би сакал да ве замолам сите да придонесете кон оваа иницијатива. Донирајте го својот глас преку платформата Mozilla Common Voice (упатства) и помогнете ни да стигнеме до 600 часа снимен говор! Ако вашиот глас го употребиме во тренингот, тогаш ќе бидете полесно препознатливи во новата верзија на Буки. Најпотребни ни се гласови на деца и повозрасни луѓе, затоа што нив најмалку ги има во тренинг податоците.
За да можете да се уверите во брзината и точноста на Буки, Фондација КАНТАРОТ ќе овозможи бесплатно тестирање во наредните две недели, користејќи ја платформата Hugging Face. Моделите ќе бидат отворени за користење денес (9 октомври) во 14:30 по македонско на следниов линк:
https://huggingface.co/spaces/Macedonian-ASR/Bookie-Whisper-Macedonian-ASR
Ќе имате пристап до моделот Буки-wav2vec2 (брз и точен), Буки-Whisper (побавен и поточен), како и до споредба помеѓу Буки-Whisper и отворените модели на OpenAI и Meta. Подолу е видео демонстрација како да го тестирате моделот1:
Се надеваме дека наскоро ќе најдеме и донатор кој ќе ни овозможи да купиме компјутер со силна графичка картичка за да продолжиме да го користиме Буки локално. Во меѓувреме донирајте глас, зашто кој донира транскрибира!
P.S. Овој напис е достапен бесплатно за сите читатели на КАНТАРОТ. За да нѐ поддржите во нашите напори...
Причекајте да се аплоудира снимката пред да стиснете Submit. Засега крајот на аплоудот се означува со трепкање на прозорецот, но работиме на нешто што е поочигледно.
Секоја чест и само напред! 👏
Не функционира линкот. Инаку, браво за иницијативата и се надевам на голем успех.