Bavim se oblašću obrade prirodnih jezika, naročito semantičkim problemima poput određivanja semantičke sličnosti tekstova i analize njihovog sentimenta. Moja istraživanja obuhvataju i druge probleme, kao što su distribuciona semantika, razrešavanje koreferenci, klasifikacija tekstova i uticaj morfološke normalizacije na rešavanje semantičkih zadataka. Među izazovima koji me u istraživanjima najviše zanimaju jesu specifičnosti obrade kratkih tekstova. Pored toga, fokusiran sam na kreiranje rešenja koja su lako primenjiva ne samo na engleski, već i na druge, manje raširene jezike.
Radim kao istraživač u Inovacionom centru Elektrotehničkog fakulteta Univerziteta u Beogradu. Takođe sam jedan od osnivača i potpredsednik ReLDI centra za jezičke podatke u Beogradu, nevladine organizacije posvećene izradi i promovisanju jezičkih resursa i tehnologija, kao i organizovanju seminara i obuka za njihovu upotrebu i primenu. Pored toga sam glavni NLP inženjer u kompaniji Bravo Systems, gde vodim tim inženjera i lingvista u razvoju NLP rešenja za potrebe digitalnog marketinga.
Doktor nauka, Softversko inženjerstvo, 2020
Elektrotehnički fakultet, Univerzitet u Beogradu
Master inženjer, Računarska tehnika i informatika, 2011
Elektrotehnički fakultet, Univerzitet u Beogradu
Diplomirani inženjer, Računarska tehnika i informatika, 2010
Elektrotehnički fakultet, Univerzitet u Beogradu
Više informacija PDF Zvaničan repozitorijum STS.news.sr korpus Skup podataka SentiComments.SR Stemeri za srpski i hrvatski Paket STSFineGrain Alat STSAnno
Više informacija PDF Programski kod Skup podataka Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski
Više informacija PDF Slajdovi Video SETimes.SR korpus ReLDI-NormTagNER-sr korpus STS.news.sr korpus paraphrase.sr korpus Serbian Movie Review (SerbMR) korpus SentiComments.SR korpus Veb korpus srWaC Alat za redijakritizaciju Stemeri za srpski i hrvatski CLASSLA paket STSFineGrain paket ReLDIanno veb servis
Više informacija PDF Programski kod Skup podataka Transliterator za srpsku ćirilicu/latinicu Stemeri za srpski i hrvatski
Više informacija PDF Slajdovi Skup podataka CLARIN repozitorijum NoSketch Engine interfejs KonText interfejs
Više informacija PDF Slajdovi Skup podataka CLARIN repozitorijum NoSketch Engine interfejs KonText interfejs
Više informacija PDF Programski kod Skup podataka Alat za anotaciju STSAnno Uputstva za anotaciju semantičke sličnosti kratkih tekstova Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski
Više informacija PDF Skup podataka Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski Implementacija NBSVM algoritma za Weku
Više informacija PDF Skup podataka ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski Implementacija NBSVM algoritma za Weku
Više informacija PDF Skup podataka Stemeri za srpski i hrvatski Implementacija NBSVM algoritma za Weku
Skup podataka SentiComments.SR obuhvata sledeća tri korpusa kratkih tekstova anotiranih za problem analize sentimenta:
Glavni SentiComments.SR korpus, koji sadrži 3490 komentara iz filmskog domena;
Verifikacioni korpus iz filmskog domena, koji sadrži 464 komentara;
Verifikacioni korpus iz književnog domena, koji sadrži 173 komentara.
Šest oznaka sentimenta je korišćeno pri anotaciji: +1, -1, +M, -M, +NS, i -NS, pri čemu dodavanje nastavka ‘s’ na oznaku signalizira prisustvo sarkazma u tekstu. Glavni korpus je zajednički anotiralo dvoje anotatora, te stoga svaki komentar iz ovog korpusa ima jednu jedinstvenu oznaku sentimenta. Verifikacioni korpusu su služili za procenu kvaliteta, efikasnosti i ekonomičnosti sistema za označavanje podataka, zbog čega njihovi komentari imaju odvojene oznake sentimenta zadate od strane šestoro anotatora. Izgradnja ovog skupa podataka je opisana u PLoS ONE radu iz 2020.
Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja (Sustainable Development Goals - SDG) koje su zadale UN. Kreirani model automatizuje RIA proceduru za dokumente napisane na srpskom i zasnovan je na ranijem IBM-ovom pristupu koji je razvijen za engleski. Model radi tako što u dokumentima traži rečenice / pasuse koji se semantički poklapaju sa nekim od SDG podciljeva. Repozitorijum modela takođe sadrži nacionalne strateške dokumente za Srbiju, kao i njihove stemovane varijante. Više informacija se može pronaći u LT4All radu iz 2019.
SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.
STSFineGrain je paket napisan u Javi koji sadrži skup modela za određivanje semantičke sličnosti kratkih tekstova (STS) i zajednički okvir za njihovu evaluaciju na STS korpusima sa fino granuliranim ocenama. Implementirano je sedam različitih STS modela, uključujući tri nenadgledana i četiri nadgledana modela. Među nadgledanim modelima se nalaze kako algoritmi koji su ranije predstavljeni, kao što su LInSTSS i POST STSS, tako i novi POS-TF STSS model koji ih po performansama nadmašuje. Evaluacija se može sprovesti bilo na celim skupovima podataka, bilo putem unakrsne validacije na njima. STSFineGrain trenutno podržava POST STSS i POS-TF STSS modele za tekstove na srpskom i na engleskom. Za druge modele ne postoje takva jezička ograničenja. Ovaj paket je predstavljen u LREC radu iz 2018.
Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti – STS.news.sr (ISLRN 146-979-597-345-4) se sastoji iz 1192 para rečenica na srpskom koji su prikupljeni iz novinskih izvora na internetu. Anotatori su svakom paru rečenica dodeljivali granulirane ocene semantičke sličnosti na skali 0–5. Finalne ocene sličnosti su dobijene kao prosek individualnih ocena petoro anotatora. Izgradnja ovog korpusa je opisana u LREC radu iz 2018.
STSAnno je alat napisan u Javi za offline anotiranje semantičke sličnosti kratkih tekstova. On omogućava korisniku/anotatoru da dodeljuje i menja ocene semantičke sličnosti parova rečenica/tekstova iz zadatog korpusa. Ovaj paket je predstavljen u LREC radu iz 2018.
Kolekcija filmskih recenzija na srpskom sastoji se od tri skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta:
Prikupljene filmske recenzije na srpskom (ISLRN 252-457-966-231-5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom.
SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016-049-192-514-1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu).
SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229-533-271-984-0) – troklasan izbalansiran skup koji sadrži 2523 filmske recenzije sa označenim sentimentom (841 pozitivnu, 841 neutralnu i 841 negativnu).
Izgradnja ove kolekcije je opisana u LREC radu iz 2016.
SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.
NBSVM je algoritam, isprva namenjen za binarnu klasifikaciju tekstova na osnovu njihove teme/sentimenta, koji kombinuje multinomijalni naivni bajesovski klasifikator (MNB) sa metodom potpornih vektora (SVM). To je ostvareno množenjem standardnih SVM vektora atributa sa odnosima MNB log-brojeva javljanja atributa između pozitivne i negativne klase.
Ova implementacija proširuje izvorni algoritam tako da podržava višeklasnu klasifikaciju koristeći jedan-nasuprot-svima pristup. Ona se oslanja na LIBLINEAR biblioteku i njen wrapper za Javu, i uobličena je kao paket za Weku. NBSVM-Weka je predstavljen u LREC radu iz 2016.
POST STSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na vrstama reči. Optimalne vrednosti tih težinskih faktora se određuju inkrementalno, korišćenjem tehnike planinarenja. Jedini resurs vezan za određeni jezik koji je potreban za POST STSS jeste tager za obeležavanje vrste reči (i opciono lematizator), što čini ovu metodu primenjivom na većinu jezika. Više informacija o algoritmu se može pronaći u ComSIS radu iz 2015. POST STSS je implementiran u okviru STSFineGrain paketa.
LInSTSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na frekvencijama reči. Pošto ne koristi bilo kakve alate ili resurse vezane za određeni jezik, LInSTSS je lako primenjiv za bilo koji jezik. Više informacija o algoritmu se može pronaći u Decision Support Systems radu iz 2013. LInSTSS je implementiran u okviru STSFineGrain paketa.
Srpski korpus parafraza – paraphrase.sr (ISLRN 192-200-046-033-9) sadrži 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Izgradnja ovog korpusa je opisana u TELFOR radu iz 2011. i u Decision Support Systems radu iz 2013.
Ovaj projekat Istraživačkog centra Slovenačke akademije nauka i umetnosti ispituje veze između koncepcija jezika i nacije u postjugoslovenskom prostoru, kroz šest država (Slovenija, Hrvatska, Srbija, Bosna i Hercegovina, Crna Gora, Makedonija), razmatrajući novinske tekstove i njima pridružene komentare posetilaca. Na ovom projektu sam koordinisao sakupljanje, odabir materijala, i objavljivanje specijalizovanih korpusa novinskih tekstova i njima pridruženih komentara posetilaca na temu jezika. Ovakvi korpusi su izrađeni na više jezika, uključujući srpski, hrvatski i slovenački, korišćenjem standardizovane metodologije.
Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova (AVANTES) je dvogodišnji projekat podržan od strane Fonda za nauku Republike Srbije čiji je cilj razvoj različitih alata i tehnika za obradu prirodnih jezika koji bi se koristili u razvoju softvera. Glavno istraživačko pitanje kojim se projekat bavi jeste odnos između semantike programskog koda i značenja komentara u kodu koji su pisani na prirodnim jezicima. U okviru projekta biće razmotreno više NLP problema, uključujući kategorizaciju komentara u kodu po tipološkoj taksonomiji, određivanje sličnosti parova komentara pomoću metoda za merenje sličnosti tekstova različitih dužina, kao i semantičku pretragu koda. Pored toga, projekat će se fokusirati i na identifikaciju različitih tipova duplikata koda. Svi ovi istraživački ciljevi će biti razmotreni kroz više programskih (C/C++/C#, Java, JavaScript, PHP, Python, SQL) i prirodnih jezika (engleski i srpski). Na ovom projektu sam zadužen za nadgledanje i vođenje razvoja NLP alata i anotiranih skupova podataka za NLP probleme.
Evropska istraživačka infrastruktura CLARIN omogućava istraživačima da pristupe jezičkim resursima i alatima za računarsku obradu evropskih jezika. U okviru CLARIN projekta radim na konsolidaciji i proširenju anotacija morfosintakse, sintakse, imenovanih entiteta i semantičkih uloga u korpusima tekstova na hrvatskom i srpskom koji su objavljeni na CLARIN.SI repozitorijumu. Takođe sam angažovan oko CLARIN info centra za južnoslovenske jezike, tačnije oko njegovih veb servisa.
Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja koje su zadale UN. Svrha ovog projekta je bila automatizacija RIA procedure za dokumente napisane na srpskom, na osnovu ranijeg pilot projekta koji su UNDP/IBM sproveli za engleski. Ovaj projekat je predložio UN tim za Srbiju, a finansiran je kroz poziv za inovacione projekte za 2018. godinu kancelarije UN za koordinaciju razvojnih aktivnosti (UNDOCO). Implementacija je sprovedena u saradnji sa SeConS grupom za razvojnu inicijativu.
Regional Linguistic Data Initiative – ReLDI (SNSF SCOPES projekat 160501) je bilo dvogodišnje institucionalno partnerstvo između istraživačkih timova u Švajcarskoj, Srbiji i Hrvatskoj. Kao saradnik u istraživanjima, učestvovao sam u kreiranju, distribuciji i analizi lingvističkih/NLP skupova podataka i alata za srpski i hrvatski. ReLDI centar za jezičke podatke je osnovan u Beogradu nakon završetka projekta radi nastavljanja aktivnosti ovog partnerstva.
(sa prof. dr Boškom Nikolićem)