FOI home page/početna stranica
 Login 
 
Otkrivanje znanja u podacima
  Osnovne informacije o studiju
  Preddiplomski studij
  Diplomski studij
  Smjerovi
  Popis kolegija
  Raspored - preddiplomski
  Raspored - diplomski
  Upisi na FOI
 

Naziv kolegija: OTKRIVANJE ZNANJA U PODACIMA
Satnica / ECTS: 60 (2+2) ECTS
Nositelj: Prof. dr. sc. Božidar Kliček
Suradnici: Dijana Oreški, mag.inf.

Cilj:
U dosadašnjoj primjeni informacijskih sustava stvorene su velike količine podataka koje sadrže značajne
informacije o djelovanju poslovnih i drugih vrsta sustava. Otkrivanje znanja u bazama podataka
netrivijalan je postupak nalaženja novih, valjanih, razumljivih i potencijalno korisnih oblika podataka
(novog znanja), koji predstavlja značajnu potporu u odlučivanju. Predmet je orijentiran na razumjevanje
različitih tehnika u otkrivanju zakonitosti u podacima, te na proučavanje njihove primjene, prvenstveno u
procesima odlučivanja. Nadalje, žele se postići promicanje postojećih tehnika i stvaranje novih,
potaknuto specifičnim problemima u primjeni.
Cilj vježbi:
Cilj vježbi je omogućiti studentima stjecanje temeljnih znanja za rad na području otkrivanja znanja među
podacima, razumijevanje temeljnih principa i tehnika dana mininga, te stjecanje kompetencije za daljnja
istraživanje i praktičnu primjenu tehnika otkrivanja znanja u podacima u poslovanju.

Sadržaj:

1. Uvod (2 sata)
Pregled područja: svrha, nužnost i izazovi. Proces otkrivanja znanja: glavne faze, poslovni problemi,
razumijevanje i priprema podataka, postavljanje traženja znanja, traženje znanja, pročišćavanje znanja,
primjena znanja za poslovne probleme, primjena. Multidisciplinarni pristupi: temelji, opći znanstveni
pristup, logika (induktivni I deduktivni sustavi), filozofija znanosti, statistika, teorija informacija, baze
podataka, umjetna inteligencija i strojno učenje.

2. Podaci (2 sata)
Tipovi i oblici podataka: tablice, vremenski i prostorno ovisni podaci, tekstualni podaci, meta podaci.
Vrste znanja: tablice, grupe, pravila, stabla odlučivanja, funkcijski odnosi, klasteri, taksonomije i
koncepti hijerarhija, probabilističke mreže, neuronske mreže. Podaci i znanje u bazama podataka:
relacijske baze podataka, objektno orijentirane, multimdimenzionalne baze i OLAP, deduktivne baze,
paralelne baze, distribuirane I heterogene baze, upravljanje meta podacima.

3. Statistika (2 sata)
Logika: propozicijska logika i logika predikata u prikazu znanja, deduktivni I induktivni sustavi,
otkrivanje zakonitosti kao logički process. Statistika: definicije uzoraka, testiranje statističkih hipoteza,
Bayesov pogled, neeksperimentalni podaci. Izrazita i neizrazita logika, tehnike traženja u podacima i
znanju.

4. Faze otkrivanja zakonitosti u podacima (4 sata)
Koraci procesa otkrivanja zakonitosti: razumijevanje poslovnog sustava, podaci, priprema podataka,
modeliranje, evaluacija, dostavljanje rezultata. Skladištenje podataka (data warehousing): identifikacija I
čišćenje podataka, tehnike prikupljanja podataka, redukcija podataka, vizualizacija podataka.

5. Metode rudarenja podataka (4 sata)
Rudarenje podataka (data mining). Klasifikacija: opis postupka, metodologija. Stabla odlučivanja,
tehnike C4.5, klasifikacijksa i regresijska stabla, napredne metode. Pravila: sekvencijalne metode.
Bayesova klasifikacija. Pristupi najbližeg susjeda. Regresijske metode: empirijske, kvadratno
diskriminantne, logistička regresija, kaknoske diskriminante. Neuronske mreže. Višekriterijska
klasifikacija. Otkrivanje pravila: pristup izrazitih skupova, karakteristična parvila, asocijacijska pravila,
pristupi induktivnog logičkog programiranja.

6. Otkrivanje podgrupa, prilagođavanje formula (2 sata)
Otkrivanje podgrupa: razlog za analizu podgrupa, analiza devijacija, analiza promjena, metoda bušenja
(OLAP, temeljeno na znanju). Podešavanje formula: provjera ovisnosti među varijablama, pronalaženje
jedne i više formula, korištenje a priori znanja. Multidimenzionalna regresijska analiza: specifikacija
modela, prilagođavanje modela.

7. Klasterifikacija (2 sata)
Klasterifikacija: konceptualna klasterifikacija. Probabilističke i kauzalne mreže. Analize za vjerojatnostne
mreže: uvod, Bayesov pristup za nesigurnost modela. Paralelne metode.

8. Problemi primjene (2 sata)
Izbor zadaća i metoda. Znanje domene: taksonomija, ograničenja, prijašnje znanje, preference korisnika.
Evaluacija znanja: statistički pristup, usporedbe, metematičko prilagođavanje, testovi slučajnosti, test
minimalnog opisa. Korisnost, inovativnost I inegracija mjera zanimljivosti. Prikaz i vizualizacija.
Primjena u procesu odlučivanja. Pravni aspekti. Sustavi za otkrivanje, komercijalni alati.

9. Interdisciplinarni problemi (2 sata)
Interdiscipinarni problemi: statistika, poslovanje, industrija. Analize slučajeva.

10. Rudarenje teksta (2 sata)
Otkrivanje znanja u tekstualnim podacima: jedinstveni problemi teksta, alternativni prikazi teksta,
termini, teksonomija, pronalaženje asocijativni pravila iz izbora dokumenata.

11. Agenti (2 sata)
Primjena agenata. Otkrivanja znanja u multimedijskim podacima. Temeljne tehnologije u rudarenju
multimedijskih podataka.

12. Analiza slučajeva (2 sata)
Analize slučajeva, programski alati, primjena u procesu odlučivanja. Pregled istraživanja.

Vježbe:

1. Data mining (2 sata)
Osnove dana mininga. Alat SAS Enterprise Miner. Sučelja. Osnovne mogućnosti izrada modela, prikaz
rezultata preko weba, razmjena dijagrama XML-om, izrada predložaka modela. Java API. Repozitorij
modela i dijagrama primjeri modela, dijagrama.

2. Vrste obrade i pristupa podacima (2 sata)
Obrada na strani servera asinhroni model učenja nad podacima. Paralelna obrada istovremena obrada
više modela. Višedretveni algoritmi. Pristup podacima struktura datoteka. Upotreba SAS ETL Studia za
izradu skupova podataka za trening. Upotreba SAS ETL Studia za prikaz i povrat rezultata obrade.

3. Uzorkovanje (2 sata)
Pojam uzorkovanja. Potreba za uzorkovanjem. Vrste uzorkovanja. Slučajno uzorkovanje. Stratified
uzorkovanje. Uzorkovanje prema težinama. Uzorkovanje po klasterima. Sistematsko uzorkovanje.
Uzorkovanje prema redoslijedu. Uzorkovanje po rijetkim događajima. Primjeri načina uzorkovanja u
SAS Enterprise Mineru.

4. Skupovi podataka (2 sata)
Izrada skupova podataka skupovi podataka za učenje, za validaciju, za testiranje. Particioniranje po
klasma varijabli. Transformacije. Filtriranje podatka eliminacija ekstremnih vrijednosti. Zamjena
podataka.

5. Deskriptivna statistika (2 sata)
Statistika i grafički prikazi intervali varijabli, klase varijabli, distribucije.

6. Grafički prikazi (2 sata)
Vrste grafičkih prikaza u SAS Enterprise Mineru histogrami, višedimenzionalni grafički prikazi, pie
charts grafički prikazi, area plots, bubble plots. Izrada grafičkih prikaza. Dinamička obrada podataka i
uzorkovanje podataka. Interaktivno povezivanje podataka, tabela i grafičkih prikaza.

7. Primjena rudarenja nad podacima (2 sata)
Primjer 1: analiza upotrebe weba traženje zakonitosti među podacima o posjećenim web stranicama.
Pretraživanje linkova prema učestalosti njihovog korištenja. Primjer 2: analiza cijene i sadržaja mjesečne
košarice proizvoda izrada pravila temeljem statističkih podataka o mjesečnim troškovima života i
kupljenim proizvodima, grafički prikazi ovisnosti cijena i kupljenih proizvoda, povezivanje pravila s
drugim modelima predviđanja, kreiranje izlaznih pravila.

8. Stabla odlučivanja (2 sata)
Osnovno o stablima odlučivanja klasifikacija i regresija stabla odlučivanja, odabir stabla odlučivanja na
temelju ciljeva i preciznosti potkresivanja (pruninga). Kriteriji prema kojima se vrši granja stabla: Hikvadrat,
F-test, Gini, entropija, redukcija varijance. Izrada pravila na temelju stabla odlučivanja.
Određivanje utjecaja varijabli. Izrada stabla odlučivanja na temelju skupa podataka.

9. Neuronske mreže (2 sata)
Osnovno o neuronskim mrežama neuroni, skriveni i izlazni slojevi, veze neurona, težine veza, interna
aktivacija, funkcija prijenosa. Tehnike učenja neuronskih mreža u SAS Enterprise Mineru. Optimizacija.
Standardizacija izlaza. Izrada modela neuronske mreže na temelju skupa podataka u alatu SAS Enterprise Miner.

10. Indukcija pravila (2 sata)
Indukcija pravila iz skupova podataka, stabla odlučivanja i neuronskih mreža u alatau SAS Enterprise Miner.

11. Modeli podataka u SAS Enterprise Mineru (2 sata)
Usporedba modela za prikaz podataka. Kriteriji za odabir modela za prikaz skupa podataka. Statistika
modela. Modeli i grafički prikazi podataka. Klasifikacijske matrice. Izrada različitih modela u alatu SAS
Enterprise Miner.

12. Otkrivanje znanja u nestrukturiranim sadržajima (2 sata)
Osnove alata SAS Text Miner. Sučelja. Povezivanje strukturiranih i nestrukturiranih sadržaja. Analiza
nestrukturiranih sadržaja - teksta. Otkrivanje skrivenih veza između tekstualnih i drugih baza podataka.

13. Pretraživanje nestrukturiranih sadržaja (2 sata)
Parsing nestrukturiranog sadržaja. Pronalaženje izraza i fraza u tekstovima. Definiranje rječnika ključnih
riječi. Traženje odnosa između ključnih riječi, pojmova, fraza u tekstovima. Sažimanje nestrukturiranih
sadržaja velike složenosti u sadržaje manje složenosti.

14. Povezivanje sličnih dokumenata (2 sata)
Filtriranje dokumenata. Kriteriji filtriranja pojava određenog pojma, ne postojanje određenog pojma.
Filtriranje dijelova dokumenata. Povezivanje dijelova istih karakteristika u novi dokument.

15. Prikaz veza (2 sata)
Grafički prikaz odnosa i veza između skupine dokumenata. Pretraživanje skupa dokumenata po vezama.
Utvrđivanje uzoraka na temelju veza. Pretraživanje skupa dokumenata po hijerarhijskoj strukturi
pojmova. Povezivanje s alatom SAS Enterprise Miner. Uključivanje rezultata obrade u obradu SAS
Enterprise Minera.

Izvođenje i ispit:

Nastava: predavanja i vježbe

Ispit: Znanje se redovito provjerava na vježbama, a svaki student mora u svrhu kolokviranja samostalno
izvesti i dokumentirati jedan projekt razvoja multimedijske aplikacije. Nakon toga, znanje se provjerava
na usmenom ispitu.

Slični predmeti:

1. Data mining (Jozef Stefan International Postgraduate School, Slovenija)
2. Knowledge discovery in databases (University of Ljubljana, Slovenija)
3. Learning from structured data (University of Bristol, UK)
4. Data mining (Stanford University, USA)
5. Data mining (University of Helsinki, Finska)

Literatura:

Osnovna:
1. Klösgen, W, Żytkow, J. M. Handbook of Data Mining and Knowledge Discovery. Oxford
University Press, Oxford, 2002.
2. Fayyad, U. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press/ MIT Press,
Menlo Park, 1996.
3. Berry, M., Linoff, G. Data Minig Techniques. Wiley, Indianapolis, 2004.
Dopunska:
1. Proceedings of the AAAI National Conference on Artificial Intelligence
2. Proceedings of the AAAI Innovative Applications of Artificial Intelligence Conference
3. Proceedings of the Florida AI Research Symposium Conferences (FLAIRS)
4. Proceedings of the Knowledge Discovery and Data Mining Conference

Reference nositelja:

Dr. sc. Božidar Kliček, redovni profesor.
Autor pedesetak znanstvenih i stručnih radova.
Značajniji radovi relevantni za nositeljstvo kolegija:
1. Klicek, B. Zekic, M. A Nonlinear Strategy of Selecting NN Architectures for Stock Return
Predictions. Finance, Abagar, Veliko Tarnovo, 2002, pp. 325-355.
2. Bubaš, Goran; Kliček, Božidar; Hutinski, Željko. Decision tree analysis of the predictors of
Internet affinity. Journal of information and organisational sciences. 25 (2001), 2; 59-67.
3. Bubaš, Goran; Kliček, Božidar; Čolović-Rodik, Željka; Fulir, Zvjezdana. Application of
knowledge discovery in databases techniques to analysis of survey data on substance abuse.
Journal of Information and organizational sciences. 22 (1998), 2; 79-96.
4. Klicek, Bozidar. Tourist's Decision Making Processes Assisted by the Web and Multimedia
Intelligent Advisory System. U: Sheldon, P. J., Woeber, K. W., Fesenmaier, D. R. (ur):
Information and Communication Technologies in Tourism. Springer-Verlag, Wien, New York,
2001. 358-367.
5. Kliček, Božidar. Small Changes Management Method. Proceedings of the 13th International
Conference on Information and Intelligent Systems - IIS 2002. U: Aurer, Boris; Lovrencic, Alen
(ur.). Varaždin: Faculty of Organization and Informatics, University of Zagreb, 2002. 213-224.
6. Coleman, John J.; Kliček, Božidar. Synergistic extension of multiple criteria methods. Zbornik
radova 9. medunarodne konferencije "Informacijski i inteligentni sustavi" IIS '98. Aurer, Boris ;
Logožar, Robert (ur.). Varaždin : Fakultet organizacije i informatike Varaždin, 1998. 165-176.