Internet smarači čuvaju knjige

Vjerujemo da ste surfajući internetom naletjeli i na tzv. CAPTCHA provjere protiv spama (na slici lijevo). Za one koji ne znaju, to su riječi, koje često ni sami ne možemo pročitati a iskoče nam kada hoćemo da postavimo određeni link na Facebook ili kada se ulogujemo na neku stranicu. CAPTCHA riječi služe za odbranu od spamera. Sistem, koji je osmislio mladi Luis von Ahn, u suštini, provjerava da li ste ljudsko biće a ne kompjuter koji bi pri ulasku na neku stranicu ili profil slao velike količine spama. Kompjuter ne može pročitati riječi sa slike, tako da ako vi to uradite tačno, onda je velika vjerovatnoća da ste ljudsko biće. Ono što je interesanto kod ovog sistema (reCAPTCHA) je da on (a samim tim i mi) pomaže mnogim bibliotekama i naučnicima u digitalizaciji i očuvanju starih knjiga. Knjige se skeniraju i onda tzv. OCR programi prevode riječi u digitalni oblik. 10% riječi ovaj program ne može prepoznati i onda je potrebno ljudsko oko da se nepoznata riječ dešifruje. S obzirom da se dnevno skeniraju milioni stranica teksta, to je nemoguća misija za mali tim specijalista. Sistem reCAPTCHA koristi upravo te nepoznate riječi, (koje sistem OCR ne može prepoznati) u borbi protiv spama. Vjerovatno ste primjetili da uvijek dobijete dvije riječi da prepoznate. Iza kulisa, jedna od tih riječi je već pogođena a druga je nepoznata. Ljudi iz reCAPTCHA kažu da ako pogodite jednu riječ, pored toga što potvrdite da ste ljudsko biće, postoji i velika šansa da ćete tačno dešifrovati i drugu riječ. Dešifrovana riječ se potom šalje u bazu podataka gdje joj je mjesto i tako popuni prazninu u novom digitalizovanom tekstu. Ovo je vrlo jednostavan i inovativan sistem, koji spaja dvije korisne stvari u jednoj.


Share

0 comments:

Objavi komentar

Šalji dalje

Twitter Delicious Facebook Digg Stumbleupon Favorites