SentiComments.SR - Skup komentara za analizu sentimenta na srpskom jeziku

Idi na sajt alata/skupa podataka

Skup podataka SentiComments.SR obuhvata sledeća tri korpusa kratkih tekstova anotiranih za problem analize sentimenta:
Glavni SentiComments.SR korpus, koji sadrži 3490 komentara iz filmskog domena;
Verifikacioni korpus iz filmskog domena, koji sadrži 464 komentara;
Verifikacioni korpus iz književnog domena, koji sadrži 173 komentara.

Šest oznaka sentimenta je korišćeno pri anotaciji: +1, -1, +M, -M, +NS, i -NS, pri čemu dodavanje nastavka ‘s’ na oznaku signalizira prisustvo sarkazma u tekstu. Glavni korpus je zajednički anotiralo dvoje anotatora, te stoga svaki komentar iz ovog korpusa ima jednu jedinstvenu oznaku sentimenta. Verifikacioni korpusu su služili za procenu kvaliteta, efikasnosti i ekonomičnosti sistema za označavanje podataka, zbog čega njihovi komentari imaju odvojene oznake sentimenta zadate od strane šestoro anotatora. Izgradnja ovog skupa podataka je opisana u PLoS ONE radu iz 2020.