Klasifikacija Teksta

SCStemmers – Skup stemera za srpski i hrvatski

SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.

NBSVM-Weka – višeklasna implementacija NBSVM klasifikatora za Weku

NBSVM je algoritam, isprva namenjen za binarnu klasifikaciju tekstova na osnovu njihove teme/sentimenta, koji kombinuje multinomijalni naivni bajesovski klasifikator (MNB) sa metodom potpornih vektora (SVM). To je ostvareno množenjem standardnih SVM vektora atributa sa odnosima MNB log-brojeva javljanja atributa između pozitivne i negativne klase.
Ova implementacija proširuje izvorni algoritam tako da podržava višeklasnu klasifikaciju koristeći jedan-nasuprot-svima pristup. Ona se oslanja na LIBLINEAR biblioteku i njen wrapper za Javu, i uobličena je kao paket za Weku. NBSVM-Weka je predstavljen u LREC radu iz 2016.