Fulltextové vyhľadávače

Vyhľadávanie na internete patrí medzi časté činnosti väčšiny používateľov. Veľkú a obľúbenú skupinu internetových vyhľadávačov tvoria takzvané fulltextové vyhľadávače. Najznámejšie u nás sú Google, Jyxo (využiva ho Azet.sk, Atlas.sk) a Morfeo (Centrum.sk).

Fulltextový vyhľadávač v zjednodušenom vyjadrení zobrazuje výsledky nájdené prehľadávaním internetových stránok. K tomu, aby mohol vyhľadávať, musí stránky poznať. Teda činnosť fulltextu môžeme rozdeliť do troch základných krokov.

  • prehľadávanie webu
  • indexovanie
  • vyhľadávanie

Prehľadávanie webu sa realizuje pomocou robota, ktorý prechádza odkaz po odkaze a hľadá všetky dostupné dokumenty. Je teda jasné, že ak má byť stránka nájdená takýmto robotom, musia na ňu viesť odkazy z existujúcich stránok. Najjednoduchšie môžeme vytvoriť odkaz na naše stránky zaradením do katalógových vyhľadávačov.

indexovanie stránky, nájdené robotom sa analyzujú a ak vyhovujú kritériám konkrétneho vyhľadávača, sú zaradzované d o indexu. Ak chceme dosiahnuť, aby bola stránka zaindexovaná, musí obsahovať text.

vyhľadávanie je poslednou fázou vyhľadávacieho procesu. Až sem vstupuje požiadavka používateľa, ktorá sa následne spracuje a z indexu sa vyhľadajú zodpovedajúce stránky.

Prekážky brániace zaindexovaniu

Často si pri tvorbe webov neuvedomíme, že sami bránime zaindexovaniu našich stránok vo fulltextových vyhľadávačoch. Dôležité je uvedomiť si, že stránky neprezerá človek ale robot. Ten nájde jedine priame odkazy vytvorené pomocou < a href="..." >, nedokáže spúšťať javascripty (často využívané v dynamických ponukách), neprejde ani cez formuláre, a takisto nevie prezerať flash-e. Preto, ak je nutné na stránkach niektoré z týchto prvkov použiť, je potrebné vytvoriť aj html alternatívu, aby bolo možné sa k obsahu dostať iba využitím odkazov. Najjednoduchšia realizácia je pomocou tzv. Mapy siete, ktorá obsahuje odkazy na najdôležitejšie podstránky.

Ďalšou prekážkou brániacou zaindexovaniu je použitie nevhodných url-adries. Ideálna url adresa (z pohľadu vyhľadávača) je statická adresa, ktorá v názve obsahuje názov dokumentu, prípadne kľúčové slová. O spôsoboch, ako takéto adresy použiť sa dozviete v článku venovanom pekným url. Čo je však pri adresách dôležité je zabezpečenie, aby pre jeden obsah existovala iba jedna url adresa. Najčastejšie porušovaný býva práve odkaz na hlavnú stránku projektu. (www.nieco.sk/ , nieco.sk/ , www.nieco.sk/index.php , www.nieco.sk/index.php?from=1234) takto vznikli už 4 rôzne adresy odkazujúce na rovnaký dokument. Ďalšou častou chybou býva vkladanie SESSIONID priamo do adresy. Ak potrebujete využívať session takýmto spôsobom, zabezpečte, aby sa vyhľadávaciemu robotovi nevkladala. Častou chybou býva nevalidný html-kód, ktorý spôsobí nemožnosť spracovania obsahu pomocou robota.

Zhrnutie

Aby bolo možné naše stránky nájsť použitím fulltextového vyhľadávača, je potrebné dostať ich do indexu. Je potrebné zabezpečiť, aby niektoré zo známejších webov odkazovali na naše stránky. Ďalej je nutné mať vhodný obsah stránok. Ak využívame objekty, ktoré nie sú prehľadávacími robotmi podporované, musíme vytvoriť vhodné html náhrady. A v neposlednom rade je nutné dodržať pravidlo, aby pre jeden obsah existovala iba jedna url adresa.