Vuk Batanović

Naučni saradnik

Inovacioni centar, Elektrotehnički fakultet, Univerzitet u Beogradu

Suosnivač i potpredsednik

ReLDI centar za jezičke podatke

Glavni NLP inženjer

Bravo Systems / Oddbytes

Biografija

Bavim se oblašću obrade prirodnih jezika, naročito semantičkim problemima poput određivanja semantičke sličnosti tekstova i analize njihovog sentimenta. Moja istraživanja obuhvataju i druge probleme, kao što su prepoznavanje imenovanih entiteta, klasifikacija tekstova, razrešavanje koreferenci i uticaj morfološke normalizacije na rešavanje semantičkih zadataka. Među izazovima koji me u istraživanjima najviše zanimaju jesu specifičnosti obrade kratkih tekstova. Pored toga, fokusiran sam na kreiranje rešenja koja su lako primenjiva ne samo na engleski, već i na druge, manje raširene jezike.

Radim kao naučni saradnik u Inovacionom centru Elektrotehničkog fakulteta Univerziteta u Beogradu. Takođe sam jedan od osnivača i potpredsednik ReLDI centra za jezičke podatke u Beogradu, nevladine organizacije posvećene izradi i promovisanju jezičkih resursa i tehnologija, kao i organizovanju seminara i obuka za njihovu upotrebu i primenu. Pored toga sam glavni NLP inženjer u kompaniji Bravo Systems / Oddbytes, gde vodim tim inženjera i lingvista u razvoju NLP rešenja za potrebe digitalnog marketinga.

Interesovanja

Obrada prirodnih jezika / računarska lingvistika
Analiza sentimenta
Sematička sličnost
Prepoznavanje imenovanih entiteta
Obrada kratkih tekstova
Morfološka normalizacija
Obrada manje raširenih jezika
Višejezični modeli i algoritmi
Razrešavanje koreferenci
(Duboko) mašinsko učenje

Obrazovanje

Doktor nauka, Softversko inženjerstvo, 2020

Elektrotehnički fakultet, Univerzitet u Beogradu
Master inženjer, Računarska tehnika i informatika, 2011

Elektrotehnički fakultet, Univerzitet u Beogradu
Diplomirani inženjer, Računarska tehnika i informatika, 2010

Elektrotehnički fakultet, Univerzitet u Beogradu

Obrazovanje

Univerzitetsko obrazovanje

2012 - 2020 – Doktorske akademske studije, Softversko inženjerstvo, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
Disertacija: Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima
2010 - 2011 – Master akademske studije, Računarska tehnika i informatika, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 10/10
Master rad: Ekspertski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku
2006 - 2010 – Osnovne akademske studije, Računarska tehnika i informatika, Elektrotehnički fakultet, Univerzitet u Beogradu, prosek ocena 9,56/10
Diplomski rad: Vizuelni simulator algoritama pretraživanja

Letnje škole i seminari

AthNLP 2019 – 1st Athens Natural Language Processing Summer School, NCSR “Demokritos”, Grčka
LAMBDA Big Data Analytics Summer School 2019, Institut Mihajlo Pupin, Beograd, Srbija
MLSS 2018 – Machine Learning Summer School 2018, Universidad Autónoma de Madrid, Španija
ESSLLI 2018 – 30th European Summer School in Logic, Language and Information, Sofijski univerzitet “Sveti Kliment Ohridski”, Bugarska
DS³ 2018 – Second Data Science Summer School, École Polytechnique, Pariz, Francuska
DeepLearn 2017 – International Summer School on Deep Learning 2017, University of Deusto, Rovira i Virgili University, Bilbao, Španija
ESSLLI 2016 – 28th European Summer School in Logic, Language and Information, Free University of Bozen-Bolzano, Italija
LxMLS 2016 – 6th Lisbon Machine Learning Summer School, Instituto Superior Técnico, Portugalija
ReLDI (Regional Linguistic Data Initiative) seminari na Filološkom fakultetu, Univerzitet u Beogradu, Srbija, i na Filozofskom fakultetu, Sveučilište u Zagrebu, Hrvatska, 2016-2017

Odabrani naučni radovi

Monolingual, multilingual and cross-lingual code comment classification

Code comments are one of the most useful forms of documentation and metadata for understanding software implementation. Previous research on code comment classification has focused only on comments in English, typically extracted from a few programming languages. This paper addresses the problem of code comment classification not only in the monolingual setting, but also in the multilingual and cross-lingual one, in order to examine whether they can outperform the traditional monolingual approach. To tackle this task, we introduce a novel, publicly available code comment dataset, consisting of over 10,000 code comments collected from software projects written in eight programming languages (C, C++, C#, Java, JavaScript/TypeScript, PHP, Python, and SQL). About half of them are written in Serbian while the other half are written in English. This dataset was manually annotated according to a newly proposed taxonomy of code comment categories. We fine-tune and evaluate multiple monolingual and multilingual pre-trained neural language models on the code comment classification task and compare their performances to several baselines. The best results for Serbian comments are obtained using the monolingual neural model BERTić, trained on Serbian and closely related languages. On the other hand, the optimal choice for English is the multilingual neural model multilingual BERT, which successfully extracts useful patterns from data in both languages. Although the cross-lingual setting shows some promise for simple binary classification, it has yet to reach sufficiently high performance levels for practical use. We also analyze model performance across different programming languages.

Marija Kostić, Vuk Batanović, Boško Nikolić

In EAAI, 2023.

Više informacija PDF Programski kod Skup podataka ReLDI tokenizator za srpski Stemeri za srpski i hrvatski Lematizator za srpski FastText vektori značenja reči za srpski (srpski veb korpus srWaC) FastText vektori značenja reči za srpski (Common Crawl) FastText vektori značenja reči za engleski BERTić LLM za srpski ELECTRA LLM za engleski Multilingual BERT LLM XLM-RoBERTa LLM

Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima

Statistički pristupi obradi prirodnih jezika tipično zahtevaju značajne količine anotiranih podataka, a često i različite pomoćne jezičke alate, što ograničava njihovu primenu u resursno ograničenim situacijama. U ovoj disertaciji predstavljena je metodologija razvoja statističkih rešenja u semantičkoj obradi prirodnih jezika sa ograničenim resursima. Ovakvi jezici se odlikuju ne samo limitiranim brojem postojećih jezičkih resursa, već i ograničenim mogućnostima za razvoj novih skupova podataka i namenskih alata i algoritama.
Predložena metodologija je usredsređena na kratke tekstove zbog njihove rasprostranjenosti u digitalnoj komunikaciji i zbog veće složenosti njihove semantičke obrade. Metodologija obuhvata sve faze izrade statističkih rešenja, od prikupljanja tekstualnog sadržaja, preko anotacije podataka, do formulisanja, obučavanja i evaluacije modela mašinskog učenja. Njena upotreba je detaljno ilustrovana na dva semantička problema – analizi sentimenta i određivanju semantičke sličnosti. Kao primer jezika sa ograničenim resursima korišćen je srpski jezik, ali se predložena metodologija može primeniti i na druge jezike iz ove kategorije.
Pored opšte metodologije, u doprinose ove disertacije spada razvoj novog, fleksibilnog sistema označavanja sentimenta kratkih tekstova, nove metrike za utvrđivanje ekonomičnosti anotacije, kao i nekoliko novih modela za određivanje semantičke sličnosti kratkih tekstova. Rezultati disertacije uključuju i kreiranje prvih javno dostupnih anotiranih skupova podataka za probleme analize sentimenta i određivanja semantičke sličnosti kratkih tekstova na srpskom jeziku, razvoj i evaluaciju većeg broja modela na ovim problemima, i prvu komparativnu evaluaciju većeg broja alata za morfološku normalizaciju na kratkim tekstovima na srpskom jeziku.

Vuk Batanović

Doktorska disertacija, Univerzitet u Beogradu - Elektrotehnički fakultet, 2020.

Više informacija PDF Zvaničan repozitorijum STS.news.sr korpus Skup podataka SentiComments.SR Stemeri za srpski i hrvatski Paket STSFineGrain Alat STSAnno

A versatile framework for resource-limited sentiment articulation, annotation, and analysis of short texts

Choosing a comprehensive and cost-effective way of articulating and annotating the sentiment of a text is not a trivial task, particularly when dealing with short texts, in which sentiment can be expressed through a wide variety of linguistic and rhetorical phenomena. This problem is especially conspicuous in resource-limited settings and languages, where design options are restricted either in terms of manpower and financial means required to produce appropriate sentiment analysis resources, or in terms of available language tools, or both. In this paper, we present a versatile approach to addressing this issue, based on multiple interpretations of sentiment labels that encode information regarding the polarity, subjectivity, and ambiguity of a text, as well as the presence of sarcasm or a mixture of sentiments. We demonstrate its use on Serbian, a resource-limited language, via the creation of a main sentiment analysis dataset focused on movie comments, and two smaller datasets belonging to the movie and book domains. In addition to measuring the quality of the annotation process, we propose a novel metric to validate its cost-effectiveness. Finally, the practicality of our approach is further validated by training, evaluating, and determining the optimal configurations of several different kinds of machine-learning models on a range of sentiment classification tasks using the produced dataset.

Vuk Batanović, Miloš Cvetanović, Boško Nikolić

In PLoS ONE, 2020.

Više informacija PDF Programski kod Skup podataka Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski

SETimes.SR – A Reference Training Corpus of Serbian

In this paper we present SETimes.SR – a gold standard dataset for Serbian, annotated with regard to document, sentence, and token segmentation, morphosyntax, lemmas, dependency syntax, and named entities. We describe the annotation layers and provide a basic statistical overview of them, and we discuss the method of encoding them in the CoNLL and the TEI format. In addition, we compare the SETimes.SR corpus with the older SETimes.HR dataset in Croatian.

Vuk Batanović, Nikola Ljubešić, Tanja Samardžić

JT-DH, 2018.

Više informacija PDF Slajdovi Skup podataka CLARIN repozitorijum NoSketch Engine interfejs KonText interfejs

Fine-grained Semantic Textual Similarity for Serbian

Although the task of semantic textual similarity (STS) has gained in prominence in the last few years, annotated STS datasets for model training and evaluation, particularly those with fine-grained similarity scores, remain scarce for languages other than English, and practically non-existent for minor ones. In this paper, we present the Serbian Semantic Textual Similarity News Corpus (STS.news.sr) – an STS dataset for Serbian that contains 1192 sentence pairs annotated with fine-grained semantic similarity scores. We describe the process of its creation and annotation, and we analyze and compare our corpus with the existing news-based STS datasets in English and other major languages. Several existing STS models are evaluated on the Serbian STS News Corpus, and a new supervised bag-of-words model that combines part-of-speech weighting with term frequency weighting is proposed and shown to outperform similar methods. Since Serbian is a morphologically rich language, the effect of various morphological normalization tools on STS model performances is considered as well. The Serbian STS News Corpus, the annotation tool and guidelines used in its creation, and the STS model framework used in the evaluation are all made publicly available.

Vuk Batanović, Miloš Cvetanović, Boško Nikolić

LREC, 2018.

Više informacija PDF Programski kod Skup podataka Alat za anotaciju STSAnno Uputstva za anotaciju semantičke sličnosti kratkih tekstova Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski

Reliable Baselines for Sentiment Analysis in Resource-Limited Languages: The Serbian Movie Review Dataset

Collecting data for sentiment analysis in resource-limited languages carries a significant risk of sample selection bias, since the small quantities of available data are most likely not representative of the whole population. Ignoring this bias leads to less robust machine learning classifiers and less reliable evaluation results. In this paper we present a dataset balancing algorithm that minimizes the sample selection bias by eliminating irrelevant systematic differences between the sentiment classes. We prove its superiority over the random sampling method and we use it to create the Serbian movie review dataset – SerbMR – the first balanced and topically uniform sentiment analysis dataset in Serbian. In addition, we propose an incremental way of finding the optimal combination of simple text processing options and machine learning features for sentiment classification. Several popular classifiers are used in conjunction with this evaluation approach in order to establish strong but reliable baselines for sentiment analysis in Serbian.

Vuk Batanović, Boško Nikolić, Milan Milosavljević

LREC, 2016.

Više informacija PDF Skup podataka Stemeri za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Spisak naučnih radova

Monolingual, multilingual and cross-lingual code comment classification

Više informacija PDF Programski kod Skup podataka ReLDI tokenizator za srpski Stemeri za srpski i hrvatski Lematizator za srpski FastText vektori značenja reči za srpski (srpski veb korpus srWaC) FastText vektori značenja reči za srpski (Common Crawl) FastText vektori značenja reči za engleski BERTić LLM za srpski ELECTRA LLM za engleski Multilingual BERT LLM XLM-RoBERTa LLM

Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima

Više informacija PDF Zvaničan repozitorijum STS.news.sr korpus Skup podataka SentiComments.SR Stemeri za srpski i hrvatski Paket STSFineGrain Alat STSAnno

A versatile framework for resource-limited sentiment articulation, annotation, and analysis of short texts

Više informacija PDF Programski kod Skup podataka Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski

Otvoreni resursi i tehnologije za obradu srpskog jezika

Više informacija PDF Slajdovi Video SETimes.SR korpus ReLDI-NormTagNER-sr korpus STS.news.sr korpus paraphrase.sr korpus Serbian Movie Review (SerbMR) korpus SentiComments.SR korpus Veb korpus srWaC Alat za redijakritizaciju Stemeri za srpski i hrvatski CLASSLA paket STSFineGrain paket ReLDIanno veb servis

Using Language Technologies to Automate the UNDP Rapid Integrated Assessment Mechanism in Serbian

Više informacija PDF Programski kod Skup podataka Transliterator za srpsku ćirilicu/latinicu Stemeri za srpski i hrvatski

The "ReLDI effect": Collaborative development of manually annotated datasets for Slovene, Croatian and Serbian

Više informacija PDF

SETimes.SR – A Reference Training Corpus of Serbian

Više informacija PDF Slajdovi Skup podataka CLARIN repozitorijum NoSketch Engine interfejs KonText interfejs

hr500k – A Reference Training Corpus of Croatian

Više informacija PDF Slajdovi Skup podataka CLARIN repozitorijum NoSketch Engine interfejs KonText interfejs

Fine-grained Semantic Textual Similarity for Serbian

Više informacija PDF Programski kod Skup podataka Alat za anotaciju STSAnno Uputstva za anotaciju semantičke sličnosti kratkih tekstova Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski

Sentiment Classification of Documents in Serbian: The Effects of Morphological Normalization and Word Embeddings

Više informacija PDF Skup podataka Srpski web korpus srWaC ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Sentiment Classification of Documents in Serbian: The Effects of Morphological Normalization

Više informacija PDF Skup podataka ReLDI tokenizator za srpski Stemeri za srpski i hrvatski BTagger za srpski HunPos i CST modeli za hrvatski ReLDI tager i lematizator za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Reliable Baselines for Sentiment Analysis in Resource-Limited Languages: The Serbian Movie Review Dataset

Više informacija PDF Skup podataka Stemeri za srpski i hrvatski Implementacija NBSVM algoritma za Weku

Using Part-of-Speech Tags as Deep-Syntax Indicators in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluation and Classification of Syntax Usage in Determining Short-Text Semantic Similarity

Više informacija PDF Skup podataka

Evaluacija i klasifikacija korišćenja sintaksnih informacija u određivanju semantičke sličnosti kratkih tekstova

Više informacija PDF Skup podataka

Semantic similarity of short texts in languages with a deficient natural language processing support

Više informacija PDF Programski kod Skup podataka

Softverski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku

Više informacija PDF Skup podataka

Softverski sistem za učenje ekspertskih sistema

Više informacija PDF Programski kod

Kreirani skupovi podataka i alati

SentiComments.SR - Skup komentara za analizu sentimenta na srpskom jeziku

Skup podataka SentiComments.SR obuhvata sledeća tri korpusa kratkih tekstova anotiranih za problem analize sentimenta:
Glavni SentiComments.SR korpus, koji sadrži 3490 komentara iz filmskog domena;
Verifikacioni korpus iz filmskog domena, koji sadrži 464 komentara;
Verifikacioni korpus iz književnog domena, koji sadrži 173 komentara.
Šest oznaka sentimenta je korišćeno pri anotaciji: +1, -1, +M, -M, +NS, i -NS, pri čemu dodavanje nastavka ‘s’ na oznaku signalizira prisustvo sarkazma u tekstu. Glavni korpus je zajednički anotiralo dvoje anotatora, te stoga svaki komentar iz ovog korpusa ima jednu jedinstvenu oznaku sentimenta. Verifikacioni korpusu su služili za procenu kvaliteta, efikasnosti i ekonomičnosti sistema za označavanje podataka, zbog čega njihovi komentari imaju odvojene oznake sentimenta zadate od strane šestoro anotatora. Izgradnja ovog skupa podataka je opisana u PLoS ONE radu iz 2020.

Serbian AutoRIA - model za automatizovanje RIA postupka na srpskom jeziku

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja (Sustainable Development Goals - SDG) koje su zadale UN. Kreirani model automatizuje RIA proceduru za dokumente napisane na srpskom i zasnovan je na ranijem IBM-ovom pristupu koji je razvijen za engleski. Model radi tako što u dokumentima traži rečenice / pasuse koji se semantički poklapaju sa nekim od SDG podciljeva. Repozitorijum modela takođe sadrži nacionalne strateške dokumente za Srbiju, kao i njihove stemovane varijante. Više informacija se može pronaći u LT4All radu iz 2019.

SETimes.SR referentni trening korpus srpskog jezika

SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.

STSFineGrain – skup modela za određivanje semantičke sličnosti kratkih tekstova

STSFineGrain je paket napisan u Javi koji sadrži skup modela za određivanje semantičke sličnosti kratkih tekstova (STS) i zajednički okvir za njihovu evaluaciju na STS korpusima sa fino granuliranim ocenama. Implementirano je sedam različitih STS modela, uključujući tri nenadgledana i četiri nadgledana modela. Među nadgledanim modelima se nalaze kako algoritmi koji su ranije predstavljeni, kao što su LInSTSS i POST STSS, tako i novi POS-TF STSS model koji ih po performansama nadmašuje. Evaluacija se može sprovesti bilo na celim skupovima podataka, bilo putem unakrsne validacije na njima. STSFineGrain trenutno podržava POST STSS i POS-TF STSS modele za tekstove na srpskom i na engleskom. Za druge modele ne postoje takva jezička ograničenja. Ovaj paket je predstavljen u LREC radu iz 2018.

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti (STS.news.sr)

Srpski korpus kratkih novinskih tekstova za određivanje semantičke sličnosti – STS.news.sr (ISLRN 146-979-597-345-4) se sastoji iz 1192 para rečenica na srpskom koji su prikupljeni iz novinskih izvora na internetu. Anotatori su svakom paru rečenica dodeljivali granulirane ocene semantičke sličnosti na skali 0–5. Finalne ocene sličnosti su dobijene kao prosek individualnih ocena petoro anotatora. Izgradnja ovog korpusa je opisana u LREC radu iz 2018.

STSAnno – alat za anotiranje semantičke sličnosti

STSAnno je alat napisan u Javi za offline anotiranje semantičke sličnosti kratkih tekstova. On omogućava korisniku/anotatoru da dodeljuje i menja ocene semantičke sličnosti parova rečenica/tekstova iz zadatog korpusa. Ovaj paket je predstavljen u LREC radu iz 2018.

Kolekcija filmskih recenzija na srpskom jeziku (SerbMR)

Kolekcija filmskih recenzija na srpskom sastoji se od tri skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta:
Prikupljene filmske recenzije na srpskom (ISLRN 252-457-966-231-5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom.
SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016-049-192-514-1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu).
SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229-533-271-984-0) – troklasan izbalansiran skup koji sadrži 2523 filmske recenzije sa označenim sentimentom (841 pozitivnu, 841 neutralnu i 841 negativnu).
Izgradnja ove kolekcije je opisana u LREC radu iz 2016.

SCStemmers – Skup stemera za srpski i hrvatski

SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.

Part-of-speech tag-supported short-text semantic similarity (POST STSS)

POST STSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na vrstama reči. Optimalne vrednosti tih težinskih faktora se određuju inkrementalno, korišćenjem tehnike planinarenja. Jedini resurs vezan za određeni jezik koji je potreban za POST STSS jeste tager za obeležavanje vrste reči (i opciono lematizator), što čini ovu metodu primenjivom na većinu jezika. Više informacija o algoritmu se može pronaći u ComSIS radu iz 2015. POST STSS je implementiran u okviru STSFineGrain paketa.

Language-independent Short-Text Semantic Similarity (LInSTSS)

LInSTSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na frekvencijama reči. Pošto ne koristi bilo kakve alate ili resurse vezane za određeni jezik, LInSTSS je lako primenjiv za bilo koji jezik. Više informacija o algoritmu se može pronaći u Decision Support Systems radu iz 2013. LInSTSS je implementiran u okviru STSFineGrain paketa.

Srpski korpus parafraza (paraphrase.sr)

Srpski korpus parafraza – paraphrase.sr (ISLRN 192-200-046-033-9) sadrži 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Izgradnja ovog korpusa je opisana u TELFOR radu iz 2011. i u Decision Support Systems radu iz 2013.

Tagovi za podatke i alate

Istraživački projekti

COMtext.SR

Cilj projekta COMtext.SR jeste izrada osnovnog seta NLP alata i resursa za srpski jezik i njihovo objavljivanje pod permisivnim licencama. Projekat se pre svega bavi tekstualnim domenima koji nisu prethodno razmatrani, bilo u akademskim istraživanjima bilo u komercijalnim projektima, kao što su pravno-administrativni, finansijski, medicinski, itd. Projekat se do sada fokusirao na pravno-administrativne tekstove, kao domen od najšireg interesa. Razvijeni su fino podešeni veliki jezički modeli i ručno anotirani korpusi i za ekavski i za ijekavski izgovor srpskog jezika, i to za zadatke morfosintaktičkog označavanja reči, lematizacije reči i prepoznavanja imenovanih entiteta. Ovi novi resursi direktno omogućavaju pružanje mnogih važnih NLP funkcionalnosti, kao što su napredna tekstualna pretraga, automatizovano indeksiranje dokumenata, anonimizacija osetljivih/ličnih podataka, itd.

(Re-)imagining language, nation and collective identity in the 21st century: Language ideologies as new connections in post-Yugoslav digital mediascapes

Ovaj projekat Istraživačkog centra Slovenačke akademije nauka i umetnosti ispituje veze između koncepcija jezika i nacije u postjugoslovenskom prostoru, kroz šest država (Slovenija, Hrvatska, Srbija, Bosna i Hercegovina, Crna Gora, Makedonija), razmatrajući novinske tekstove i njima pridružene komentare posetilaca. Na ovom projektu sam koordinisao sakupljanje, odabir materijala, i objavljivanje specijalizovanih korpusa novinskih tekstova i njima pridruženih komentara posetilaca na temu jezika. Ovakvi korpusi su izrađeni na više jezika, uključujući srpski, hrvatski i slovenački, korišćenjem standardizovane metodologije.

Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova

Nova rešenja u razvoju softvera zasnovana na sličnosti tekstova (AVANTES) je dvogodišnji projekat podržan od strane Fonda za nauku Republike Srbije čiji je cilj razvoj različitih alata i tehnika za obradu prirodnih jezika koji bi se koristili u razvoju softvera. Glavno istraživačko pitanje kojim se projekat bavi jeste odnos između semantike programskog koda i značenja komentara u kodu koji su pisani na prirodnim jezicima. U okviru projekta biće razmotreno više NLP problema, uključujući kategorizaciju komentara u kodu po tipološkoj taksonomiji, određivanje sličnosti parova komentara pomoću metoda za merenje sličnosti tekstova različitih dužina, kao i semantičku pretragu koda. Pored toga, projekat će se fokusirati i na identifikaciju različitih tipova duplikata koda. Svi ovi istraživački ciljevi će biti razmotreni kroz više programskih (C/C++/C#, Java, JavaScript, PHP, Python, SQL) i prirodnih jezika (engleski i srpski). Na ovom projektu sam zadužen za nadgledanje i vođenje razvoja NLP alata i anotiranih skupova podataka za NLP probleme.

Automatizovanje Rapid Integrated Assessment postupka na srpskom

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja koje su zadale UN. Svrha ovog projekta je bila automatizacija RIA procedure za dokumente napisane na srpskom, na osnovu ranijeg pilot projekta koji su UNDP/IBM sproveli za engleski. Ovaj projekat je predložio UN tim za Srbiju, a finansiran je kroz poziv za inovacione projekte za 2018. godinu kancelarije UN za koordinaciju razvojnih aktivnosti (UNDOCO). Implementacija je sprovedena u saradnji sa SeConS grupom za razvojnu inicijativu.

Regional Linguistic Data Initiative (ReLDI)

Regional Linguistic Data Initiative – ReLDI (SNSF SCOPES projekat 160501) je bilo dvogodišnje institucionalno partnerstvo između istraživačkih timova u Švajcarskoj, Srbiji i Hrvatskoj. Kao saradnik u istraživanjima, učestvovao sam u kreiranju, distribuciji i analizi lingvističkih/NLP skupova podataka i alata za srpski i hrvatski. ReLDI centar za jezičke podatke je osnovan u Beogradu nakon završetka projekta radi nastavljanja aktivnosti ovog partnerstva.

Nastava

(sa prof. dr Boškom Nikolićem)

Školska godina 2019/2020 - danas - Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Master 4.0: Napredne informacione tehnologije u digitalnoj transformaciji Elektrotehničkog fakulteta i Fakulteta organizacionih nauka Univerziteta u Beogradu.
Školska godina 2017/2018 - danas – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Obrada prirodnih jezika na studijskom programu master akademskih studija Softversko inženjerstvo Elektrotehničkog fakulteta Univerziteta u Beogradu.
Školska godina 2017/2018 - danas - Napravio deo novih nastavnih materijala i držao deo predavanja i vežbi u okviru kursa Pronalaženje skrivenog znanja na studijskom programu master akademskih studija Računarska tehnika i informatika Elektrotehničkog fakulteta Univerziteta u Beogradu.
Školska godina 2016/2017 – Napravio nastavne materijale, držao predavanja i vežbe i nadgledao studentske projekte u okviru novog kursa Mašinsko učenje na studijskom programu doktorskih akademskih studija Inteligentni sistemi Univerziteta u Beogradu.
Školska godina 2015/2016 - danas – Nadgledao izradu više diplomskih i master radova studenata Elektrotehničkog fakulteta Univerziteta u Beogradu iz oblasti obrade prirodnih jezika i mašinskog učenja.

Veštine

Programski jezici

Python
Java
C++
C#
C
Matlab
SQL

Alati i paketi za mašinsko učenje i obradu prirodnih jezika

HuggingFace Transformers i Simple Transformers
Scikit-learn
SciPy stack
- SciPy,
- NumPy,
- pandas,
- IPython/Jupyter,
- matplotlib,…
gensim
fastText
Natural Language Toolkit
CoreNLP
LIBSVM/LIBLINEAR

Alati za anotaciju

brat
WebAnno

Znanje jezika

Srpski (maternji)
Engleski (tečno – C2, Cambridge Certificate of Proficiency in English (CPE), ocena A)
Francuski (ograničeno)

Ostale informacije

Nagrade, grantovi i stipendije

Grantovi i donacije od strane većeg broja srpskih fondacija i IT kompanija posvećenih projektu COMtext.SR
Grant 6526093 Fonda za nauku Republike Srbije za projekat AVANTES (Advancing Novel Textual Similarity-based Solutions in Software Development)
Grant instituta Jožef Stefan/projekta CLARIN za razvoj anotacija koreferenci u korpusima na srpskom i hrvatskom jeziku
Nagrada Blažo Mirčevski za najbolji rad mladog autora na konferenciji TELFOR 2016
Grant instituta Jožef Stefan/projekta CLARIN za konsolidaciju i proširenje jezičkih resursa na hrvatskom i srpskom
Grant projekta ReLDI za kreiranje jezičkih resursa na srpskom i hrvatskom
Stipendija Fonda za mlade talente Republike Srbije za 2010. godinu

Članstvo u profesionalnim udruženjima

ACL SIGSLAV – Association for Computational Linguistics Special Interest Group on Slavic Natural Language Processing

Recenzentske aktivnosti

Kontakt

Vaše ime:
Vaš e-mail:
Vaša poruka:

vuk.batanovic@ic.etf.bg.ac.rs
Bulevar kralja Aleksandra 73, 11120 Beograd, Srbija
Pošaljite poruku ili e-mail radi zakazivanja sastanka