Obrazovanje

Univerzitetsko obrazovanje

  • 2012 - 2020 – Doktorske akademske studije, Softversko inženjerstvo, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
    Disertacija: Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima
  • 2010 - 2011 – Master akademske studije, Računarska tehnika i informatika, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
    Master rad: Ekspertski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku
  • 2006 - 2010 – Osnovne akademske studije, Računarska tehnika i informatika, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 9,56/10
    Diplomski rad: Vizuelni simulator algoritama pretraživanja

Letnje škole i seminari

  • AthNLP 2019 – 1st Athens Natural Language Processing Summer School, NCSR “Demokritos”, Grčka
  • LAMBDA Big Data Analytics Summer School 2019, Institut Mihajlo Pupin, Beograd, Srbija
  • MLSS 2018 – Machine Learning Summer School 2018, Universidad Autónoma de Madrid, Španija
  • ESSLLI 2018 – 30th European Summer School in Logic, Language and Information, Sofijski univerzitet “Sveti Kliment Ohridski”, Bugarska
  • DS3 2018 – Second Data Science Summer School, École Polytechnique, Pariz, Francuska
  • DeepLearn 2017 – International Summer School on Deep Learning 2017, University of Deusto, Rovira i Virgili University, Bilbao, Španija
  • ESSLLI 2016 – 28th European Summer School in Logic, Language and Information, Free University of Bozen-Bolzano, Italija
  • LxMLS 2016 – 6th Lisbon Machine Learning Summer School, Instituto Superior Técnico, Portugalija
  • ReLDI (Regional Linguistic Data Initiative) seminari na Filološkom fakultetu, Univerzitet u Beogradu, Srbija, i na Filozofskom fakultetu, Sveučilište u Zagrebu, Hrvatska, 2016-2017

Odabrani naučni radovi

Statistički pristupi obradi prirodnih jezika tipično zahtevaju značajne količine anotiranih podataka, a često i različite pomoćne jezičke alate, što ograničava njihovu primenu u resursno ograničenim situacijama. U ovoj disertaciji predstavljena je metodologija razvoja statističkih rešenja u semantičkoj obradi prirodnih jezika sa ograničenim resursima. Ovakvi jezici se odlikuju ne samo limitiranim brojem postojećih jezičkih resursa, već i ograničenim mogućnostima za razvoj novih skupova podataka i namenskih alata i algoritama.
Predložena metodologija je usredsređena na kratke tekstove zbog njihove rasprostranjenosti u digitalnoj komunikaciji i zbog veće složenosti njihove semantičke obrade. Metodologija obuhvata sve faze izrade statističkih rešenja, od prikupljanja tekstualnog sadržaja, preko anotacije podataka, do formulisanja, obučavanja i evaluacije modela mašinskog učenja. Njena upotreba je detaljno ilustrovana na dva semantička problema – analizi sentimenta i određivanju semantičke sličnosti. Kao primer jezika sa ograničenim resursima korišćen je srpski jezik, ali se predložena metodologija može primeniti i na druge jezike iz ove kategorije.
Pored opšte metodologije, u doprinose ove disertacije spada razvoj novog, fleksibilnog sistema označavanja sentimenta kratkih tekstova, nove metrike za utvrđivanje ekonomičnosti anotacije, kao i nekoliko novih modela za određivanje semantičke sličnosti kratkih tekstova. Rezultati disertacije uključuju i kreiranje prvih javno dostupnih anotiranih skupova podataka za probleme analize sentimenta i određivanja semantičke sličnosti kratkih tekstova na srpskom jeziku, razvoj i evaluaciju većeg broja modela na ovim problemima, i prvu komparativnu evaluaciju većeg broja alata za morfološku normalizaciju na kratkim tekstovima na srpskom jeziku.
Doktorska disertacija, Univerzitet u Beogradu - Elektrotehnički fakultet, 2020.

Choosing a comprehensive and cost-effective way of articulating and annotating the sentiment of a text is not a trivial task, particularly when dealing with short texts, in which sentiment can be expressed through a wide variety of linguistic and rhetorical phenomena. This problem is especially conspicuous in resource-limited settings and languages, where design options are restricted either in terms of manpower and financial means required to produce appropriate sentiment analysis resources, or in terms of available language tools, or both. In this paper, we present a versatile approach to addressing this issue, based on multiple interpretations of sentiment labels that encode information regarding the polarity, subjectivity, and ambiguity of a text, as well as the presence of sarcasm or a mixture of sentiments. We demonstrate its use on Serbian, a resource-limited language, via the creation of a main sentiment analysis dataset focused on movie comments, and two smaller datasets belonging to the movie and book domains. In addition to measuring the quality of the annotation process, we propose a novel metric to validate its cost-effectiveness. Finally, the practicality of our approach is further validated by training, evaluating, and determining the optimal configurations of several different kinds of machine-learning models on a range of sentiment classification tasks using the produced dataset.
In PLoS ONE, 2020.

In this paper we present SETimes.SR – a gold standard dataset for Serbian, annotated with regard to document, sentence, and token segmentation, morphosyntax, lemmas, dependency syntax, and named entities. We describe the annotation layers and provide a basic statistical overview of them, and we discuss the method of encoding them in the CoNLL and the TEI format. In addition, we compare the SETimes.SR corpus with the older SETimes.HR dataset in Croatian.
JT-DH, 2018.

Although the task of semantic textual similarity (STS) has gained in prominence in the last few years, annotated STS datasets for model training and evaluation, particularly those with fine-grained similarity scores, remain scarce for languages other than English, and practically non-existent for minor ones. In this paper, we present the Serbian Semantic Textual Similarity News Corpus (STS.news.sr) – an STS dataset for Serbian that contains 1192 sentence pairs annotated with fine-grained semantic similarity scores. We describe the process of its creation and annotation, and we analyze and compare our corpus with the existing news-based STS datasets in English and other major languages. Several existing STS models are evaluated on the Serbian STS News Corpus, and a new supervised bag-of-words model that combines part-of-speech weighting with term frequency weighting is proposed and shown to outperform similar methods. Since Serbian is a morphologically rich language, the effect of various morphological normalization tools on STS model performances is considered as well. The Serbian STS News Corpus, the annotation tool and guidelines used in its creation, and the STS model framework used in the evaluation are all made publicly available.
LREC, 2018.

Sentiment classification of texts written in Serbian is still an under-researched topic. One of the open issues is how the different forms of morphological normalization affect the performances of different sentiment classifiers and which normalization procedure is optimal for this task. In this paper we assess and compare the impact of lemmatizers and stemmers for Serbian on classifiers trained and evaluated on the Serbian Movie Review Dataset.
TELFOR, 2016.

Collecting data for sentiment analysis in resource-limited languages carries a significant risk of sample selection bias, since the small quantities of available data are most likely not representative of the whole population. Ignoring this bias leads to less robust machine learning classifiers and less reliable evaluation results. In this paper we present a dataset balancing algorithm that minimizes the sample selection bias by eliminating irrelevant systematic differences between the sentiment classes. We prove its superiority over the random sampling method and we use it to create the Serbian movie review dataset – SerbMR – the first balanced and topically uniform sentiment analysis dataset in Serbian. In addition, we propose an incremental way of finding the optimal combination of simple text processing options and machine learning features for sentiment classification. Several popular classifiers are used in conjunction with this evaluation approach in order to establish strong but reliable baselines for sentiment analysis in Serbian.
LREC, 2016.

This paper presents POST STSS, a method of determining short-text semantic similarity in which part-of-speech tags are used as indicators of the deeper syntactic information usually extracted by more advanced tools like parsers and semantic role labelers. Our model employs a part-of-speech weighting scheme and is based on a statistical bag-of-words approach. It does not require either hand-crafted knowledge bases or advanced syntactic tools, which makes it easily applicable to languages with limited natural language processing resources. By using a paraphrase recognition test, we demonstrate that our system achieves a higher accuracy than all existing statistical similarity algorithms and solutions of a more structural kind.
ComSIS, 2015.

Measuring the semantic similarity of short texts is a noteworthy problem since short texts are widely used on the Internet, in the form of product descriptions or captions, image and webpage tags, news headlines, etc. This paper describes a methodology which can be used to create a software system capable of determining the semantic similarity of two given short texts. The proposed LInSTSS approach is particularly suitable for application in situations when no large, publicly available, electronic linguistic resources can be found for the desired language. We describe the basic working principles of the system architecture we propose, as well as the stages of its construction and use. Also, we explain the procedure used to generate a paraphrase corpus which is then utilized in the evaluation process. Finally, we analyze the evaluation results obtained from a system created for the Serbian language, and we discuss possible improvements which would increase system accuracy.
Decision Support Systems, 2013.

Spisak naučnih radova

Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima

Više informacija PDF Zvaničan repozitorijum STS.news.sr korpus Skup podataka SentiComments.SR Stemeri za srpski i hrvatski Paket STSFineGrain Alat STSAnno

Using Language Technologies to Automate the UNDP Rapid Integrated Assessment Mechanism in Serbian

Više informacija PDF Programski kod Skup podataka Transliterator za srpsku ćirilicu/latinicu Stemeri za srpski i hrvatski

The "ReLDI effect": Collaborative development of manually annotated datasets for Slovene, Croatian and Serbian

Više informacija PDF

Reliable Baselines for Sentiment Analysis in Resource-Limited Languages: The Serbian Movie Review Dataset

Više informacija PDF Skup podataka Stemeri za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Using Part-of-Speech Tags as Deep-Syntax Indicators in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluation and Classification of Syntax Usage in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluacija i klasifikacija korišćenja sintaksnih informacija u određivanju semantičke sličnosti kratkih tekstova

Više informacija PDF Skup podataka

Semantic similarity of short texts in languages with a deficient natural language processing support

Više informacija PDF Programski kod Skup podataka

Softverski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku

Više informacija PDF Skup podataka

Softverski sistem za učenje ekspertskih sistema

Više informacija PDF Programski kod

Kreirani skupovi podataka i alati

SentiComments.SR - Skup komentara za analizu sentimenta na srpskom jeziku

Skup podataka SentiComments.SR obuhvata sledeća tri korpusa kratkih tekstova anotiranih za problem analize sentimenta:
Glavni SentiComments.SR korpus, koji sadrži 3490 komentara iz filmskog domena;
Verifikacioni korpus iz filmskog domena, koji sadrži 464 komentara;
Verifikacioni korpus iz književnog domena, koji sadrži 173 komentara.
Šest oznaka sentimenta je korišćeno pri anotaciji: +1, -1, +M, -M, +NS, i -NS, pri čemu dodavanje nastavka ‘s’ na oznaku signalizira prisustvo sarkazma u tekstu. Glavni korpus je zajednički anotiralo dvoje anotatora, te stoga svaki komentar iz ovog korpusa ima jednu jedinstvenu oznaku sentimenta. Verifikacioni korpusu su služili za procenu kvaliteta, efikasnosti i ekonomičnosti sistema za označavanje podataka, zbog čega njihovi komentari imaju odvojene oznake sentimenta zadate od strane šestoro anotatora. Izgradnja ovog skupa podataka je opisana u PLoS ONE radu iz 2020.

Serbian AutoRIA - model za automatizovanje RIA postupka na srpskom jeziku

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja (Sustainable Development Goals - SDG) koje su zadale UN. Kreirani model automatizuje RIA proceduru za dokumente napisane na srpskom i zasnovan je na ranijem IBM-ovom pristupu koji je razvijen za engleski. Model radi tako što u dokumentima traži rečenice / pasuse koji se semantički poklapaju sa nekim od SDG podciljeva. Repozitorijum modela takođe sadrži nacionalne strateške dokumente za Srbiju, kao i njihove stemovane varijante. Više informacija se može pronaći u LT4All radu iz 2019.

SETimes.SR referentni trening korpus srpskog jezika

SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.

STSFineGrain – skup modela za određivanje semantičke sličnosti kratkih tekstova

STSFineGrain je paket napisan u Javi koji sadrži skup modela za određivanje semantičke sličnosti kratkih tekstova (STS) i zajednički okvir za njihovu evaluaciju na STS korpusima sa fino granuliranim ocenama. Implementirano je sedam različitih STS modela, uključujući tri nenadgledana i četiri nadgledana modela. Među nadgledanim modelima se nalaze kako algoritmi koji su ranije predstavljeni, kao što su LInSTSS i POST STSS, tako i novi POS-TF STSS model koji ih po performansama nadmašuje. Evaluacija se može sprovesti bilo na celim skupovima podataka, bilo putem unakrsne validacije na njima. STSFineGrain trenutno podržava POST STSS i POS-TF STSS modele za tekstove na srpskom i na engleskom. Za druge modele ne postoje takva jezička ograničenja. Ovaj paket je predstavljen u LREC radu iz 2018.

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti (STS.news.sr)

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti – STS.news.sr (ISLRN 146-979-597-345-4) se sastoji iz 1192 para rečenica na srpskom koji su prikupljeni iz novinskih izvora na internetu. Anotatori su svakom paru rečenica dodeljivali granulirane ocene semantičke sličnosti na skali 0–5. Finalne ocene sličnosti su dobijene kao prosek individualnih ocena petoro anotatora. Izgradnja ovog korpusa je opisana u LREC radu iz 2018.

STSAnno – alat za anotiranje semantičke sličnosti

STSAnno je alat napisan u Javi za offline anotiranje semantičke sličnosti kratkih tekstova. On omogućava korisniku/anotatoru da dodeljuje i menja ocene semantičke sličnosti parova rečenica/tekstova iz zadatog korpusa. Ovaj paket je predstavljen u LREC radu iz 2018.

Kolekcija filmskih recenzija na srpskom jeziku (SerbMR)

Kolekcija filmskih recenzija na srpskom sastoji se od tri skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta:
Prikupljene filmske recenzije na srpskom (ISLRN 252-457-966-231-5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom.
SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016-049-192-514-1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu).
SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229-533-271-984-0) – troklasan izbalansiran skup koji sadrži 2523 filmske recenzije sa označenim sentimentom (841 pozitivnu, 841 neutralnu i 841 negativnu).
Izgradnja ove kolekcije je opisana u LREC radu iz 2016.

SCStemmers – Skup stemera za srpski i hrvatski

SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.

NBSVM-Weka – višeklasna implementacija NBSVM klasifikatora za Weku

NBSVM je algoritam, isprva namenjen za binarnu klasifikaciju tekstova na osnovu njihove teme/sentimenta, koji kombinuje multinomijalni naivni bajesovski klasifikator (MNB) sa metodom potpornih vektora (SVM). To je ostvareno množenjem standardnih SVM vektora atributa sa odnosima MNB log-brojeva javljanja atributa između pozitivne i negativne klase.
Ova implementacija proširuje izvorni algoritam tako da podržava višeklasnu klasifikaciju koristeći jedan-nasuprot-svima pristup. Ona se oslanja na LIBLINEAR biblioteku i njen wrapper za Javu, i uobličena je kao paket za Weku. NBSVM-Weka je predstavljen u LREC radu iz 2016.

Part-of-speech tag-supported short-text semantic similarity (POST STSS)

POST STSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na vrstama reči. Optimalne vrednosti tih težinskih faktora se određuju inkrementalno, korišćenjem tehnike planinarenja. Jedini resurs vezan za određeni jezik koji je potreban za POST STSS jeste tager za obeležavanje vrste reči (i opciono lematizator), što čini ovu metodu primenjivom na većinu jezika. Više informacija o algoritmu se može pronaći u ComSIS radu iz 2015. POST STSS je implementiran u okviru STSFineGrain paketa.

Language-independent Short-Text Semantic Similarity (LInSTSS)

LInSTSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na frekvencijama reči. Pošto ne koristi bilo kakve alate ili resurse vezane za određeni jezik, LInSTSS je lako primenjiv za bilo koji jezik. Više informacija o algoritmu se može pronaći u Decision Support Systems radu iz 2013. LInSTSS je implementiran u okviru STSFineGrain paketa.

Srpski korpus parafraza (paraphrase.sr)

Srpski korpus parafraza – paraphrase.sr (ISLRN 192-200-046-033-9) sadrži 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Izgradnja ovog korpusa je opisana u TELFOR radu iz 2011. i u Decision Support Systems radu iz 2013.

Istraživački projekti

(Re-)imagining language, nation and collective identity in the 21st century: Language ideologies as new connections in post-Yugoslav digital mediascapes

Ovaj projekat Istraživačkog centra Slovenačke akademije nauka i umetnosti ispituje veze između koncepcija jezika i nacije u postjugoslovenskom prostoru, kroz šest država (Slovenija, Hrvatska, Srbija, Bosna i Hercegovina, Crna Gora, Makedonija), razmatrajući novinske tekstove i njima pridružene komentare posetilaca. Na ovom projektu sam koordinisao sakupljanje, odabir materijala, i objavljivanje specijalizovanih korpusa novinskih tekstova i njima pridruženih komentara posetilaca na temu jezika. Ovakvi korpusi su izrađeni na više jezika, uključujući srpski, hrvatski i slovenački, korišćenjem standardizovane metodologije.

Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova

Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova (AVANTES) je dvogodišnji projekat podržan od strane Fonda za nauku Republike Srbije čiji je cilj razvoj različitih alata i tehnika za obradu prirodnih jezika koji bi se koristili u razvoju softvera. Glavno istraživačko pitanje kojim se projekat bavi jeste odnos između semantike programskog koda i značenja komentara u kodu koji su pisani na prirodnim jezicima. U okviru projekta biće razmotreno više NLP problema, uključujući kategorizaciju komentara u kodu po tipološkoj taksonomiji, određivanje sličnosti parova komentara pomoću metoda za merenje sličnosti tekstova različitih dužina, kao i semantičku pretragu koda. Pored toga, projekat će se fokusirati i na identifikaciju različitih tipova duplikata koda. Svi ovi istraživački ciljevi će biti razmotreni kroz više programskih (C/C++/C#, Java, JavaScript, PHP, Python, SQL) i prirodnih jezika (engleski i srpski). Na ovom projektu sam zadužen za nadgledanje i vođenje razvoja NLP alata i anotiranih skupova podataka za NLP probleme.

CLARIN - Common Language Resources and Technology Infrastructure

Evropska istraživačka infrastruktura CLARIN omogućava istraživačima da pristupe jezičkim resursima i alatima za računarsku obradu evropskih jezika. U okviru CLARIN projekta radim na konsolidaciji i proširenju anotacija morfosintakse, sintakse, imenovanih entiteta i semantičkih uloga u korpusima tekstova na hrvatskom i srpskom koji su objavljeni na CLARIN.SI repozitorijumu. Takođe sam angažovan oko CLARIN info centra za južnoslovenske jezike, tačnije oko njegovih veb servisa.

Automatizovanje Rapid Integrated Assessment postupka na srpskom

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja koje su zadale UN. Svrha ovog projekta je bila automatizacija RIA procedure za dokumente napisane na srpskom, na osnovu ranijeg pilot projekta koji su UNDP/IBM sproveli za engleski. Ovaj projekat je predložio UN tim za Srbiju, a finansiran je kroz poziv za inovacione projekte za 2018. godinu kancelarije UN za koordinaciju razvojnih aktivnosti (UNDOCO). Implementacija je sprovedena u saradnji sa SeConS grupom za razvojnu inicijativu.

Regional Linguistic Data Initiative (ReLDI)

Regional Linguistic Data Initiative – ReLDI (SNSF SCOPES projekat 160501) je bilo dvogodišnje institucionalno partnerstvo između istraživačkih timova u Švajcarskoj, Srbiji i Hrvatskoj. Kao saradnik u istraživanjima, učestvovao sam u kreiranju, distribuciji i analizi lingvističkih/NLP skupova podataka i alata za srpski i hrvatski. ReLDI centar za jezičke podatke je osnovan u Beogradu nakon završetka projekta radi nastavljanja aktivnosti ovog partnerstva.

Nastava

(sa prof. dr Boškom Nikolićem)

  • Školska godina 2019/2020 - danas - Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Master 4.0: Napredne informacione tehnologije u digitalnoj transformaciji Elektrotehničkog fakulteta i Fakulteta organizacionih nauka Univerziteta u Beogradu.
  • Školska godina 2017/2018 - danas – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Softversko inženjerstvo Elektrotehničkog fakulteta Univerziteta u Beogradu.
  • Školska godina 2017/2018 - danas - Napravio deo novih nastavnih materijala i držao deo predavanja i vežbi u okviru kursa Pronalaženje skrivenog znanja na studijskom programu master akademskih studija Računarska tehnika i informatika Elektrotehničkog fakulteta Univerziteta u Beogradu.
  • Školska godina 2016/2017 – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Mašinsko učenje na studijskom programu doktorskih akademskih studija Inteligentni sistemi Univerziteta u Beogradu.
  • Školska godina 2015/2016 - danas – Nadgledao izradu više diplomskih i master radova studenata Elektrotehničkog fakulteta Univerziteta u Beogradu iz oblasti obrade prirodnih jezika i mašinskog učenja.

Veštine

Programski jezici

  • Python
  • Java
  • C++
  • C#
  • C
  • Matlab
  • SQL

Alati i paketi za mašinsko učenje i obradu prirodnih jezika

Alati za anotaciju

Znanje jezika

  • Srpski (maternji)
  • Engleski (tečno – C2, Cambridge Certificate of Proficiency in English (CPE), ocena A)
  • Francuski (ograničeno)

Ostale informacije

Nagrade, grantovi i stipendije

Članstvo u profesionalnim udruženjima

  • ACL SIGSLAV – Association for Computational Linguistics Special Interest Group on Slavic Natural Language Processing

Recenzentske aktivnosti

Kontakt