- e-portfolio
- Krišto, Ivan
- Work
Završni rad (preddiplomski studij): Postupak čišćenja web stranica u svrhu dubinske analize teksta
Autor:
Krišto, Ivan
Mentor:
Dalbelo-Bašić, Bojana
Na ovim stranicama mogu se pogledati materijali napravljeni u okviru navedenog rada.
Ključne riječi:
HTML, web stranice, uklanjanje šuma, automatsko čišćenje, dubinska analiza teksta, boilerplate removal
Sažetak:
Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sadržavaju
veliku količinu informacija koje se ne odnose izravno na njihov sadržaj,
poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske
analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni
šum.
U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u
HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka
pogodna za ugradnju u pobirač dokumenata s web sjedišta te provodeno
eksperimentalno vrednovanje postupka.
Dokumenti:
- Tekst rada: zavrsni_rad-ik42696.pdf
Zapis stvoren:
2011-10-27 00:50:22
Zapis zaključan:
nije
Pristup javan:
postavka studenta DA, postavka mentora NE
Ovaj rad nije zaključan. Stranice radova studenata za koje postoji definiran mentor ili izravni voditelj samo mentor odnosno izravni voditelj mogu zaključati čime potvrđuju
vjerodostojnost unesenih podataka. Ako stranica nije zaključana, to znači da se navedeni podatci još uvijek mijenjaju odnosno da nitko od službenog osoblja ustanove nije
provjerio ove podatke.