Topics for Students - Open Calls

Some  topics for students interested to participate in research within their BSc/MSc thesis

University of Belgrade

School of Electrical Engineering

Home Page — Bojan Furlan

Jedna od oblasti istraživanja koje pripadaju veštačkoj inteligenciji je i obrada prirodnih jezika. Do sada su razvijeni napredni algoritmi za određivanje semantičke sličnosti kratkog teksta kako za engleski jezik, tako i za srpski jezik i njemu slične jezike. Takođe, za ove jezike kreirani su sledeći jezički resursi:

1. Baza podataka semantičke sličnosti reči srpskog jezika

2. Korpus parafraza srpskog jezika.

3. Korpus stop-reči srpskog jezika.

4. Baza podataka semantičke sličnosti reči engleskog jezika

Ovi korpusi i baze podataka su upotrebljeni za implementaciju dva softverska sistema:

- Sistema za određivanje semantičke sličnosti kratkog teksta napisanog na srpskom jeziku

- Sistema za određivanje semantičke sličnosti kratkog teksta napisanog na engleskom jeziku

Takođe, upotreba navedenih jezičkih resursa je višestruka za različite primene u obradi teksta napisanog na prirodnom jeziku.

S druge strane, statističke metode obrade teksta mogu se upotrebiti za profilisanje interesovanja autora naučnih članaka, s obzirom da dokumenti kao što su članci u časopisima, knjige, tekstovi sa ličnog bloga itd. mogu identifikovati određene oblasti interesovanja ili ekspertize. Na osnovu ovih dokumenata moguće je napraviti profil osobe koja je njihov autor. Profil se sastoji od različitih oblasti gde svaku oblast sačinjava skup reči, pri čemu svaka reč pripada datoj oblasti sa određenom težinom. Iz tog razloga implementirani su statistički modeli i algoritmi za kreiranje profila korisnika (naučnih radnika) na osnovu publikovanih naučnih radova, na čijem usavršavanju će se i dalje raditi.

Na kraju, zahvaljujući napretku Internet tehnologija i ogromnoj popularnosti socijalnih mreža, jedna od oblasti koja poprima sve veći publicitet su sistemi za inteligentnu obradu i rutiranje pitanja. Iz tog razloga napravljen je pregled dostupnih tehnologija za  razvoj jednog ovakvog sistema, kao i mogućnosti njegove upotrebe za srpski jezik.

Nastavak istraživanja planiran je u smeru razvoja novih algoritama za obradu prirodnih jezika, prvenstveno za određivanja semantičke sličnosti teksta, kao i unapređenje postojećih algoritama upotrebom i razvojem jezičkih modela i rečnika, kao i naprednih NLP alata. Takođe, planiran je razvoj prototipa sistema za inteligentnu obradu i prosleđivanje pitanja u čijem pravcu će se nastaviti dalja istraživanja.

U nastavku je dat opis po temama:

Naslov: Implementacija algoritma za poređenje teksta napisanog u prirodnom jeziku

Opis:  Potrebno je realizovati jedan NLP algoritma za poredjenje teksta napisanog u prirodnom jeziku (recenica ili pasusa), koji vraca meru njihove slicnosti. Primer: "The boy has a dog" i "The boy owns an animal" su recenice razlicite po sastavu reci, ali po svom zancenju (semantici) su slicne. Algoritam prvo poredi sličnost svih parova pojedinačnih reči (npr. glagola "has" i "owns",) a zatim na osnovu tih vrednosti daje meru sličnosti celog teksta (u ovom slučaju ove dve rečenice).

Za više detalja o samoj implementaciji, kao i o NLP alatima potrebnim za realizaciju, obratiti se putem maila.

Dosadašnje publikacije:

- Furlan B., Batanović V., Nikolić B., "Semantic Similarity of Short Texts in Languages with a Deficient Natural Language Processing Support," Decision Support Systems, (ISSN)0167-9236, Vol. 55, Issue 3, June 2013. PDF
http://dx.doi.org/10.1016/j.dss.2013.02.002

- Batanović V., Furlan B., Nikolić B., "A Software System for Determining the Semantic Similarity of Short Texts in Serbian, " In TELFOR, Belgrade, Serbia, November 22-24, 2011. PDF

- Furlan B., Sivački V., Jovanović D., Nikolić B. "Comparable Evaluation of Contemporary Corpus-Based and Knowledge-Based Semantic Similarity Measures of Short Texts," JITA, vol. 1, no. 1, ISSN 2233-0194 (online), pp. 65-71, June 2011.  PDF

- Jovanović D., Furlan B., Nikolić B., "A Software System for Measuring the Semantic Similarity of Short Texts," In ETRAN, Banja Vrućica (Teslić), R. Srpska, BIH, June 6 – 9, 2011. PDF

Naslov: Realizacija algoritma za prosleđivanje pitanja unutar socijalne mreze.

Opis:  Sajtovi kao sto su http://stackoverflow.com/ ili Yahoo! Answers predstavljaju portale za postavljanje pitanja i pronalazenje odgovora.  Na osnovu korinicke interakcije unutar ovakve socijalne mreze moguce je napraviti profil interesovanja date osobe. Profil se sastoji od različitih oblasti gde je svaka oblast sačinjena od skupa reči. Potrebno je realizovati algoritam zasnovan na tehnikama mašinskog učenja koji ce za dato pitanje pronaći osobu koja može pružiti kvalitetan odgovor.

Za više detalja o samoj implementaciji, skupu podataka, kao i o alatima potrebnim za realizaciju obratiti se putem maila.

Dosadašnje publikacije:

- Furlan B., Žitnik S., Nikolić B., Bajec M., "The Role of Semantic Similarity for Intelligent Question Routing," in Informatics, Špiška Nova Ves, November 5th – 7th, 2013. VIDEO, PDF

- Furlan B., Nikolic B., Milutinovic V., “A Survey and Evaluation of State-of-the-Art Intelligent Question Routing Systems,” International Journal of Intelligent Systems, Vol. 28, Issue 7, pages 686–708, July 2013 PDF
http://dx.doi.org/10.1002/int.21597

Naslov: Implementacija web servisa za profilisanje korisničkog znanja (ekspertize) tehnikama mašinskog učenja na osnovu publikovanih dokumenata.

Opis:  Dokumenti kao što su članci u časopisima, knjige, tekstovi sa ličnog bloga itd. mogu identifikovati određene oblasti interesovanja ili ekspertize. Na osnovu ovih dokumenata moguće je napraviti profil ekspertize osobe koja je njihov autor. Profil se sastoji od različitih oblasti gde je svaka oblast sačinjena od skupa reči. Svaka reč pripada datoj oblasti sa određenom težinom koja predstavlja broj [0,1]. Npr. za sledeći tekst:

The central problems of AI include such traits as reasoning, knowledge, planning, learning, communication, perception and the ability to move and manipulate objects…  (ceo tekst se nalazi na http://en.wikipedia.org/wiki/Artificial_intelligence)

Jedna od identifikovanih oblasti (AI) bi bila npr. opisana na sledeći način:

(reasoning,0.7); (knowledge,0.5); (planning,0.4); (learning,0.3); ...

Cilj implementacije ovakvog web servisa je da umesto ručnog unosa, svaki korisnik može dostaviti skup dokumenata čiji je on autor i koji se odnose na njegova profesionalna interesovanja, a zatim automatski pomoću alata zasnovanih na mašinskom učenju  će se generisati njegov profil ekspertize.

Za više detalja o samoj implementaciji, kao i o alatima potrebnim za realizaciju, obratiti se putem maila.

Dosadašnje publikacije:

- Jelisavčić V., Furlan B., Protić J., Milutinović V., “Topic Models and Advanced Algorithms for Profiling of Knowledge in Scientific Papers,” in MIPRO, Opatija, Croatia, May 2012 PDF

- Jelisavčić V., Furlan B., Protić J., Milutinović V., “Knowledge Modeling and Classification of Scientific Papers Based on Topic Modeling,” in YUINFO, Kopaonik, Serbia, March 2012. pp. 664-669 PDF

Naslov: Realizacija programa testCat—alata za automatsku klasifikaciju teksta na srpskom jeziku

Opis: Program testCat je namenjen određivanju oblasti odnosno kategorizaciji novog teksta zadatka napisanog na srpskom jeziku tehnikom klasifikacije teksta, na osnovu postojećih klasifikovanih zadataka iz ranije održanih testova.

Za više detalja o samoj implementaciji, kao i o alatima potrebnim za realizaciju, obratiti se putem maila

Naslov: Implementacija programa testMiner

Opis: Program testMiner je namenjen sastavljanju novog testa znanja tehnikom data mining-a, na osnovu postojećih problema, ranije održanih testova i kriterijuma koji ograničavaju izbor problema za test. Problemi, testovi i kriterijumi se pamte u bazi podataka. Aplikacija testBase je na raspolaganju za izmenu i pregled ove baze podatka.

Problemi mogu biti različitih vrsta. Trenutno u bazi postoje samo Pitanja (analitički problemi u kojima se bira jedan od ponuđenih odgovora) i Zadaci (sintetički problemi u kojima se rešenje kreira). Svaki problem je opisan određenim atributima (kao što je vrsta problema ili težina problema). Takođe, svaki problem može pripadati eksplicitno ili implicitno jednoj ili više oblasti iz stabla oblasti. Eksplicitna pripadnost problema oblasti (u listi ili proizvoljnom čvoru stabla oblasti), koju uspostavlja korisnik aplikacije testBase, pretpostavlja implicitnu pripadnost problema i svim nadoblastima date oblasti, na putanji od posmatranog lista ili čvora stabla do korena.

Cilj implementacije ovog programa je automatizacija generisanja testova iz baze problema na osnovu već postojećih testova.

Za više detalja o samoj implementaciji, kao i o alatima potrebnim za realizaciju, obratiti se putem maila - Dragan Bojic (bojic@etf.rs), Igor Tartalja (tartalja@rcub.bg.ac.rs) i Bojan Furlan (bojan.furlan@etf.bg.ac.rs).