Obrazovanje

Univerzitetsko obrazovanje

  • 2012 - danas – Doktorske akademske studije iz obrade prirodnih jezika, Odsek za softversko inženjerstvo, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
    Usvojena tema disertacije: Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima
  • 2010 - 2011 – Master akademske studije, Odsek za računarsku tehniku i informatiku, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
    Master rad: Ekspertski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku
  • 2006 - 2010 – Osnovne akademske studije, Odsek za računarsku tehniku i informatiku, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 9,56/10
    Diplomski rad: Vizuelni simulator algoritama pretraživanja

Letnje škole i seminari

  • AthNLP 2019 – 1st Athens Natural Language Processing Summer School, NCSR “Demokritos”, Grčka
  • LAMBDA Big Data Analytics Summer School 2019, Institut Mihajlo Pupin, Beograd, Srbija
  • MLSS 2018 – Machine Learning Summer School 2018, Universidad Autónoma de Madrid, Španija
  • ESSLLI 2018 – 30th European Summer School in Logic, Language and Information, Sofijski univerzitet “Sveti Kliment Ohridski”, Bugarska
  • DS3 2018 – Second Data Science Summer School, École Polytechnique, Pariz, Francuska
  • DeepLearn 2017 – International Summer School on Deep Learning 2017, University of Deusto, Rovira i Virgili University, Bilbao, Španija
  • ESSLLI 2016 – 28th European Summer School in Logic, Language and Information, Free University of Bozen-Bolzano, Italija
  • LxMLS 2016 – 6th Lisbon Machine Learning Summer School, Instituto Superior Técnico, Portugalija
  • ReLDI (Regional Linguistic Data Initiative) seminari na Filološkom fakultetu, Univerzitet u Beogradu, Srbija, i na Filozofskom fakultetu, Sveučilište u Zagrebu, Hrvatska, 2016-2017

Internet kursevi

  • Natural Language Processing, Stanford University, Coursera
  • Natural Language Processing, Columbia University, Coursera
  • Machine Learning, Stanford University, Coursera
  • Introduction to Natural Language Processing, University of Michigan, Coursera
  • Miracles of Human Language: An Introduction to Linguistics, Universiteit Leiden, Coursera
  • Text Retrieval and Search Engines, University of Illinois at Urbana-Champaign, Coursera
  • The Data Scientist’s Toolbox, Johns Hopkins University, Coursera
  • Data Mining with Weka, University of Waikato
  • More Data Mining with Weka, University of Waikato
  • Advanced Data Mining with Weka, University of Waikato

Odabrani naučni radovi

In this paper we present SETimes.SR – a gold standard dataset for Serbian, annotated with regard to document, sentence, and token segmentation, morphosyntax, lemmas, dependency syntax, and named entities. We describe the annotation layers and provide a basic statistical overview of them, and we discuss the method of encoding them in the CoNLL and the TEI format. In addition, we compare the SETimes.SR corpus with the older SETimes.HR dataset in Croatian.
JT-DH, 2018.

Although the task of semantic textual similarity (STS) has gained in prominence in the last few years, annotated STS datasets for model training and evaluation, particularly those with fine-grained similarity scores, remain scarce for languages other than English, and practically non-existent for minor ones. In this paper, we present the Serbian Semantic Textual Similarity News Corpus (STS.news.sr) – an STS dataset for Serbian that contains 1192 sentence pairs annotated with fine-grained semantic similarity scores. We describe the process of its creation and annotation, and we analyze and compare our corpus with the existing news-based STS datasets in English and other major languages. Several existing STS models are evaluated on the Serbian STS News Corpus, and a new supervised bag-of-words model that combines part-of-speech weighting with term frequency weighting is proposed and shown to outperform similar methods. Since Serbian is a morphologically rich language, the effect of various morphological normalization tools on STS model performances is considered as well. The Serbian STS News Corpus, the annotation tool and guidelines used in its creation, and the STS model framework used in the evaluation are all made publicly available.
LREC, 2018.

Sentiment classification of texts written in Serbian is still an under-researched topic. One of the open issues is how the different forms of morphological normalization affect the performances of different sentiment classifiers and which normalization procedure is optimal for this task. In this paper we assess and compare the impact of lemmatizers and stemmers for Serbian on classifiers trained and evaluated on the Serbian Movie Review Dataset.
TELFOR, 2016.

Collecting data for sentiment analysis in resource-limited languages carries a significant risk of sample selection bias, since the small quantities of available data are most likely not representative of the whole population. Ignoring this bias leads to less robust machine learning classifiers and less reliable evaluation results. In this paper we present a dataset balancing algorithm that minimizes the sample selection bias by eliminating irrelevant systematic differences between the sentiment classes. We prove its superiority over the random sampling method and we use it to create the Serbian movie review dataset – SerbMR – the first balanced and topically uniform sentiment analysis dataset in Serbian. In addition, we propose an incremental way of finding the optimal combination of simple text processing options and machine learning features for sentiment classification. Several popular classifiers are used in conjunction with this evaluation approach in order to establish strong but reliable baselines for sentiment analysis in Serbian.
LREC, 2016.

This paper presents POST STSS, a method of determining short-text semantic similarity in which part-of-speech tags are used as indicators of the deeper syntactic information usually extracted by more advanced tools like parsers and semantic role labelers. Our model employs a part-of-speech weighting scheme and is based on a statistical bag-of-words approach. It does not require either hand-crafted knowledge bases or advanced syntactic tools, which makes it easily applicable to languages with limited natural language processing resources. By using a paraphrase recognition test, we demonstrate that our system achieves a higher accuracy than all existing statistical similarity algorithms and solutions of a more structural kind.
ComSIS, 2015.

Measuring the semantic similarity of short texts is a noteworthy problem since short texts are widely used on the Internet, in the form of product descriptions or captions, image and webpage tags, news headlines, etc. This paper describes a methodology which can be used to create a software system capable of determining the semantic similarity of two given short texts. The proposed LInSTSS approach is particularly suitable for application in situations when no large, publicly available, electronic linguistic resources can be found for the desired language. We describe the basic working principles of the system architecture we propose, as well as the stages of its construction and use. Also, we explain the procedure used to generate a paraphrase corpus which is then utilized in the evaluation process. Finally, we analyze the evaluation results obtained from a system created for the Serbian language, and we discuss possible improvements which would increase system accuracy.
Decision Support Systems, 2013.

Spisak naučnih radova

Using Language Technologies to Automate the UNDP Rapid Integrated Assessment Mechanism in Serbian

Više informacija PDF Programski kod Skup podataka Transliterator za srpsku ćirilicu/latinicu Stemeri za srpski i hrvatski

The "ReLDI effect": Collaborative development of manually annotated datasets for Slovene, Croatian and Serbian

Više informacija PDF

Reliable Baselines for Sentiment Analysis in Resource-Limited Languages: The Serbian Movie Review Dataset

Više informacija PDF Skup podataka Stemeri za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Using Part-of-Speech Tags as Deep-Syntax Indicators in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluation and Classification of Syntax Usage in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluacija i klasifikacija korišćenja sintaksnih informacija u određivanju semantičke sličnosti kratkih tekstova

Više informacija PDF Skup podataka

Semantic similarity of short texts in languages with a deficient natural language processing support

Više informacija PDF Programski kod Skup podataka

Softverski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku

Više informacija PDF Skup podataka

Softverski sistem za učenje ekspertskih sistema

Više informacija PDF Programski kod

Kreirani skupovi podataka i alati

Serbian AutoRIA - model za automatizovanje RIA postupka na srpskom jeziku

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja (Sustainable Development Goals - SDG) koje su zadale UN. Kreirani model automatizuje RIA proceduru za dokumente napisane na srpskom i zasnovan je na ranijem IBM-ovom pristupu koji je razvijen za engleski. Model radi tako što u dokumentima traži rečenice / pasuse koji se semantički poklapaju sa nekim od SDG podciljeva. Repozitorijum modela takođe sadrži nacionalne strateške dokumente za Srbiju, kao i njihove stemovane varijante. Više informacija se može pronaći u LT4All radu iz 2019.

SETimes.SR referentni trening korpus srpskog jezika

SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.

STSFineGrain – skup modela za određivanje semantičke sličnosti kratkih tekstova

STSFineGrain je paket napisan u Javi koji sadrži skup modela za određivanje semantičke sličnosti kratkih tekstova (STS) i zajednički okvir za njihovu evaluaciju na STS korpusima sa fino granuliranim ocenama. Implementirano je sedam različitih STS modela, uključujući tri nenadgledana i četiri nadgledana modela. Među nadgledanim modelima se nalaze kako algoritmi koji su ranije predstavljeni, kao što su LInSTSS i POST STSS, tako i novi POS-TF STSS model koji ih po performansama nadmašuje. Evaluacija se može sprovesti bilo na celim skupovima podataka, bilo putem unakrsne validacije na njima. STSFineGrain trenutno podržava POST STSS i POS-TF STSS modele za tekstove na srpskom i na engleskom. Za druge modele ne postoje takva jezička ograničenja. Ovaj paket je predstavljen u LREC radu iz 2018.

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti (STS.news.sr)

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti – STS.news.sr (ISLRN 146-979-597-345-4) se sastoji iz 1192 para rečenica na srpskom koji su prikupljeni iz novinskih izvora na internetu. Anotatori su svakom paru rečenica dodeljivali granulirane ocene semantičke sličnosti na skali 0–5. Finalne ocene sličnosti su dobijene kao prosek individualnih ocena petoro anotatora. Izgradnja ovog korpusa je opisana u LREC radu iz 2018.

STSAnno – alat za anotiranje semantičke sličnosti

STSAnno je alat napisan u Javi za offline anotiranje semantičke sličnosti kratkih tekstova. On omogućava korisniku/anotatoru da dodeljuje i menja ocene semantičke sličnosti parova rečenica/tekstova iz zadatog korpusa. Ovaj paket je predstavljen u LREC radu iz 2018.

Kolekcija filmskih recenzija na srpskom (SerbMR)

Kolekcija filmskih recenzija na srpskom sastoji se od tri skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta:
Prikupljene filmske recenzije na srpskom (ISLRN 252-457-966-231-5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom.
SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016-049-192-514-1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu).
SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229-533-271-984-0) – troklasan izbalansiran skup koji sadrži 2523 filmske recenzije sa označenim sentimentom (841 pozitivnu, 841 neutralnu i 841 negativnu).
Izgradnja ove kolekcije je opisana u LREC radu iz 2016.

SCStemmers – Skup stemera za srpski i hrvatski

SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.

NBSVM-Weka – višeklasna implementacija NBSVM klasifikatora za Weku

NBSVM je algoritam, isprva namenjen za binarnu klasifikaciju tekstova na osnovu njihove teme/sentimenta, koji kombinuje multinomijalni naivni bajesovski klasifikator (MNB) sa metodom potpornih vektora (SVM). To je ostvareno množenjem standardnih SVM vektora atributa sa odnosima MNB log-brojeva javljanja atributa između pozitivne i negativne klase.
Ova implementacija proširuje izvorni algoritam tako da podržava višeklasnu klasifikaciju koristeći jedan-nasuprot-svima pristup. Ona se oslanja na LIBLINEAR biblioteku i njen wrapper za Javu, i uobličena je kao paket za Weku. NBSVM-Weka je predstavljen u LREC radu iz 2016.

Part-of-speech tag-supported short-text semantic similarity (POST STSS)

POST STSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na vrstama reči. Optimalne vrednosti tih težinskih faktora se određuju inkrementalno, korišćenjem tehnike planinarenja. Jedini resurs vezan za određeni jezik koji je potreban za POST STSS jeste tager za obeležavanje vrste reči (i opciono lematizator), što čini ovu metodu primenjivom na većinu jezika. Više informacija o algoritmu se može pronaći u ComSIS radu iz 2015. POST STSS je implementiran u okviru STSFineGrain paketa.

Language-independent Short-Text Semantic Similarity (LInSTSS)

LInSTSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na frekvencijama reči. Pošto ne koristi bilo kakve alate ili resurse vezane za određeni jezik, LInSTSS je lako primenjiv za bilo koji jezik. Više informacija o algoritmu se može pronaći u Decision Support Systems radu iz 2013. LInSTSS je implementiran u okviru STSFineGrain paketa.

Srpski korpus parafraza (paraphrase.sr)

Srpski korpus parafraza – paraphrase.sr (ISLRN 192-200-046-033-9) sadrži 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Izgradnja ovog korpusa je opisana u TELFOR radu iz 2011. i u Decision Support Systems radu iz 2013.

Istraživački projekti

CLARIN - Common Language Resources and Technology Infrastructure

Evropska istraživačka infrastruktura CLARIN omogućava istraživačima da pristupe jezičkim resursima i alatima za računarsku obradu evropskih jezika. U okviru CLARIN projekta radim na konsolidaciji i proširenju anotacija morfosintakse, sintakse, imenovanih entiteta i semantičkih uloga u korpusima tekstova na hrvatskom i srpskom koji su objavljeni na CLARIN.SI repozitorijumu. Takođe sam angažovan oko CLARIN info centra za južnoslovenske jezike, tačnije oko njegovih veb servisa.

Automatizovanje Rapid Integrated Assessment postupka na srpskom

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja koje su zadale UN. Svrha ovog projekta je bila automatizacija RIA procedure za dokumente napisane na srpskom, na osnovu ranijeg pilot projekta koji su UNDP/IBM sproveli za engleski. Ovaj projekat je predložio UN tim za Srbiju, a finansiran je kroz poziv za inovacione projekte za 2018. godinu kancelarije UN za koordinaciju razvojnih aktivnosti (UNDOCO). Implementacija je sprovedena u saradnji sa SeConS grupom za razvojnu inicijativu.

Regional Linguistic Data Initiative (ReLDI)

Regional Linguistic Data Initiative – ReLDI (SNSF SCOPES projekat 160501) je bilo dvogodišnje institucionalno partnerstvo između istraživačkih timova u Švajcarskoj, Srbiji i Hrvatskoj. Kao saradnik u istraživanjima, učestvovao sam u kreiranju, distribuciji i analizi lingvističkih/NLP skupova podataka i alata za srpski i hrvatski. ReLDI centar za jezičke podatke je osnovan u Beogradu nakon završetka projekta radi nastavljanja aktivnosti ovog partnerstva.

Otvorena ekstrakcija informacija za slovenački i srpski jezik

Otvorena ekstrakcija informacija za slovenački i srpski jezik je bio dvogodišnji bilateralni projekat između Fakulteta za računarstvo i informatiku Univerziteta u Ljubljani i Elektrotehničkog fakulteta Univerziteta u Beogradu. Kao istraživač na projektu bio sam zadužen za pravljenje prvog skupa podataka na srpskom sa anotacijama koreferentnih odnosa i za njegovo korišćenje u pravljenju prvog računarskog sistema za razrešavanje koreferenci u tekstovima na srpskom. Takođe sam radio na istom zadatku i za hrvatski jezik.

Nastava

(sa prof. dr Boškom Nikolićem)

  • Školska godina 2019/2020 - danas - Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Master 4.0: Napredne informacione tehnologije u digitalnoj transformaciji Elektrotehničkog fakulteta i Fakulteta organizacionih nauka Univerziteta u Beogradu.
  • Školska godina 2017/2018 - danas – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Softversko inženjerstvo Elektrotehničkog fakulteta Univerziteta u Beogradu.
  • Školska godina 2017/2018 - danas - Napravio deo novih nastavnih materijala i držao deo predavanja i vežbi u okviru kursa Pronalaženje skrivenog znanja na studijskom programu master akademskih studija Računarska tehnika i informatika Elektrotehničkog fakulteta Univerziteta u Beogradu.
  • Školska godina 2016/2017 - danas – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Mašinsko učenje na studijskom programu doktorskih akademskih studija Inteligentni sistemi Univerziteta u Beogradu.
  • Školska godina 2015/2016 - danas – Nadgledao izradu više diplomskih i master radova studenata Elektrotehničkog fakulteta Univerziteta u Beogradu iz oblasti obrade prirodnih jezika i mašinskog učenja.

Veštine

Programski jezici

  • Python
  • Java
  • C++
  • C#
  • C
  • Matlab
  • SQL

Alati i paketi za mašinsko učenje i obradu prirodnih jezika

Alati za anotaciju

Znanje jezika

  • Srpski (maternji)
  • Engleski (tečno – C2, Cambridge Certificate of Proficiency in English (CPE), ocena A)
  • Francuski (ograničeno)

Ostale informacije

Nagrade, grantovi i stipendije

  • Grant instituta Jožef Stefan/projekta CLARIN za razvoj anotacija koreferenci u korpusima na srpskom i hrvatskom jeziku
  • Nagrada Blažo Mirčevski za najbolji rad mladog autora na konferenciji TELFOR 2016
  • Grant instituta Jožef Stefan/projekta CLARIN za konsolidaciju i proširenje jezičkih resursa na hrvatskom i srpskom
  • Grant projekta ReLDI za kreiranje jezičkih resursa na srpskom i hrvatskom
  • Stipendija Fonda za mlade talente Republike Srbije za 2010. godinu

Članstvo u profesionalnim udruženjima

  • ACL SIGSLAV – Association for Computational Linguistics Special Interest Group on Slavic Natural Language Processing

Recenzentske aktivnosti

Kontakt