HR link tjedna indeks

Ukupna ocjena

Sadržaj

Dizajn

Ažurnost


Belle de Jour

Diode su ocjene


 
Monitor home | HR link tjedna indeks | Prije | Poslije
Cross
URL: cross.carnet.hr
Producent: CARNet
Urednik: Hrvoje Stipetić
Server: Sun Ultra Enterprise 2, Sun Solaris
OS Server: Apache 1.3 web server, Harvest
Datum: 24.10.1999.
Klik na site CROSS je bez sumnje jedno od najsvjetlijih točaka hrvatskog Weba predstavlja jedan od najkorisnijih naših Web servisa uopće. Radi se o tražilici tipa AltaViste koja na upis tražene riječi pronalazi sve one stranice u .hr domeni na kojima se ta riječ nalazi. Da ne duljimo s uvodom sve o CROSS-u ćemo saznati od g. Hrvoja Stipetića koji tražilicu održava.

- Kad je CROSS krenuo, čija je to bila ideja, s kojim računalom...

- Računalo je bio Cyrix P150+ procesor. Bilo je to u jesen 1996., u Hrvatskom Crvenom križu. Motiv pokretanja novog servisa je bio uzvratiti uslugu akademskoj zajednici, koja je HCK-u omogućila pristup na Internet bez naknade. Internet tražilica je bila logičan izbor, jer takvog servisa u Hrvatskoj u to vrijeme nije bilo. CROSS je službeno postao projekt CARNet-a u lipnju 1997. Prijelaz CROSS-a na CARNet je osigurao bržu vezu prema Internetu, tj. stranicama koje prikuplja, primjerenije računalo i svu ostalu podršku koju CARNet pruža svojim projektima.

- Ako ja danas napravim stranicu, za koje vrijeme mogu očekivati da ću se naći u indeksu?

- Ako URL vaše nove stranice odmah po objavljivanju unesete na CROSS-u (na stranici za prijavu), stranica će se pojaviti u indeksu za otprilike tri tjedna. U slučaju da to ne učinite, dovoljno je da na vašu stranicu postoji link s barem jedne stranice koja se nalazi u CROSS-u, ali u tom slučaju će trebati dvostruko dulje vrijeme da se stranica pojavi u indeksu.

- Što bi webmaster trebao znati da lakše uđe u indeks?

- Za sam ulazak u indeks nije potrebno ništa drugo osim postaviti stranice i osigurati da u cijeloj ".hr" domeni postoji poneki hiperlink na njegove stranice. Ono što autore stranica vjerojatno najviše interesira je kako biti pronađen kada korisnik postavi upit koji odgovara sadržaju stranice. Za većinu tražilica je zajedničko, a niti CROSS nije iznimka, da provjeravaju sadržaj HTML META tagova na stranici. Posebno su bitna dva taga: "Keywords" i "Description". Dodavanjem nekoliko ključnih riječi koje precizno opisuju sadržaj na stranici u "Keywords" tag može se postići da stranica bude više rangirana kada posjetitelj traži neku od tih riječi. Sadržaj taga "Description", ako se unese, na CROSS-u će biti prikazan u sažetku ispod naslova stranice.

- Kako funkcionira proces prikupljanja podataka? Krene se od popisa domena i onda se iščitavaju svi linkovi u dubinu?

- Svaki novi krug prikupljanja stranica kreće od preko 3.000 URL-ova koje dohvaća, iz njih čita hiperlinkove, potom dohvaća te stranice, iz njih čita hiperlinkove, i tako dalje. Jedno prikupljanje rezultira s oko 250.000 novih ili osvježenih stranica.

- Koliko često se iznova indeksira i pretražuje hrvatski Web?

- Ako nema nepredviđenih teškoća u radu servisa, dva puta mjesečno.

- Koje domene CROSS pretražuje?

- CROSS pretražuje WWW stranice samo u ".hr" vršnoj Internet domeni.

- Što je s stranicama koje nemaju .hr domenu?

- Činjenica je da se određeni broj Web stranica naših tvrtki, a i još veći broj osobih stranica, nalazi u ".com" ili nekim drugim vršnim Ineternet domenama. Njih CROSS ne posjećuje, pa se tako niti ne indeksiraju. Dva su razloga tome. Prvo, broj Web stranica koja sada indeksira CROSS je na granici mogućnosti trenutačnog sustava, tako da bi značajno povećanje broja stranica, koje bi se moglo očekivati ako se uključe i neke stranice izvan ".hr" domene, moglo učiniti sustav neuportrebljivim u smislu predugog vremena potrebnog za dobivanje odgovora na upit. Drugi razlog je da je teško odrediti koje su to stranice izvan ".hr" domene koje treba posjećivati CROSS, i u administrativnom i u tehničkom smislu. Ako se dozvoljava posjećivanje osobnih stranica unutar ".hr" domene, očekivat će se isti tretman i stranica Hrvata koje se nalaze izvan ".hr" domene. Ili stranica koje na bilo koji način govore o Hrvatskoj. Ili pak stranica koje su zanimljive Hrvatima? Kako bi bilo teško nekome zabraniti ulazak u indeks, tako bi bilo teško i zadržati tražilicu samo na tim stranicama. Jednom kad bi izašla iz okvira ".hr" domene, više ne bi bilo egzaktnog kriterija na temelju kojeg tražilica automatski mogla prihvatiti ili odbaciti određeni URL. Uzmimo primjer GeoCities-a, koji sadrži podosta "hrvatskih" stranica, ali je pitanje kako ih prepoznati po URL-u? Vjerojatno nikako.

- Ima li stranica koje ne dopuštaju ulazak robotima i koliko ih ima?

- Ima ih, ali ti se podaci ne prate.

- Koliko ljudi dnevno i mjesečno pristupa?

- U listopadu je prosjek oko 850 posjetitelja dnevno, tijekom posljednje godine oko 21.000 mjesečno. Pod posjetiteljam se smatra "user session" u trajanju od 15 minuta. Za tražilicu je vjerojatno najbitnija informacija o broju upita u indeks, a u listopadu on iznosi gotovo 3.000 dnevno. Valja reći i da je od 1.1.1998. do danas na CROSS-u prikazano više od 1.200.000 stranica s odgovorima na upit.

- Koliki su troškovi održavanja?

- Računalo na kojem se nalazi CROSS je u dva navrata sklopovski nadograđivano, a i operacijski sustav je unaprijeđen na noviju inačicu. Osim toga, iz proračuna CARNeta financira se rad voditelja projekta i sistem inženjera, kao i troškovi promocije projekta.

- Koliko ljudi održava Cross?

- Sam servis održava jedan čovjek, dok se o računalu i operacijskom sustavu brinu sistem inženjeri SRCA.

- Koji su problemi održavanja?

- Može se reći da je ponajveći problem održavanja dugotrajnost postupka prikupljanja dokumenata. Ažurnost sustava traži da se taj proces odvija što češće, ali treba imati na umu i da "robot" koji prikuplja stranice treba biti obazriv prema poslužiteljima s kojih dohvaća stranice, te imati određenu pauzu između dohvata dvaju stranica s istog poslužitelja. Npr. ako se želi u cijelosti pregledati WWW sjedište s 5000 dokumenata, i to tako da se stranice dohvaćaju tempom od jedne stranice u dvije minute, proces će potrajati sedam dana. Imajući u vidu da su u ".hr" domeni, prema podacima za rujan, aktivna 2624 WWW sjedišta, može se predočiti o obimu posla koji CROSS treba obaviti za jedno prikupljanje. No još bitniji problem s kojim se suočava CROSS je problem korištenja, a ne održavanja: vrijeme koje posjetitelj čeka da bi dobio odgovor na upit je oko 12 sekundi za prvu stranicu rezultata, a 2 sekunde za ostale stranice. Ako to usporedimo s velikim svjetskim tražilicama, vidi se da je kvaliteta usluge znatno lošija. Imajući na umu da CROSS koristi nekomercijalnu programsku podršku i za tu namjenu relativno slabo računalo, može se objasniti ova razlika. U sadašnjoj situaciji izlaz bi se mogao potražiti u sustavnom smanjenju broja stranica koje indeksira CROSS (time bi se svjesno smanjila pokrivenost hrvatskog Weba), ili u investiciji u snažniji poslužitelj.

- Koje su najtraženije riječi? Hoćete li staviti listu najtraženijih riječi (neki pretraživači to vani nude)?

- Zasad se takvi podaci nisu objavljivali, a svojedobna analiza je pokazala da na CROSS-u općenito najtraženijem pojmu (prema navodima tražilica koje objavljuju podatke) ozbiljno konkurira samo ista riječ u kojoj je "x" zamijenjeno s "ks".


© 1997-1999 Internet Monitor