Rabu, 08 Oktober 2014

CARA KERJA WEB CRAWLER



      1.  Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
      2.  Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya.
     3. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya.
    Contoh: Teleport, Prob, HTTrack, Googlebot, Yahoo!Slurp,  YaCy
    Cara Kerja Search engine
  • Google mengawali proses kerjanya dengan menjelajahi semua halaman yang ada di internet (saat ini ada lebih dari 60 Triliun halaman)
  • Mesin Pencari ini mengirimkan robotnya untuk mengunjungi semua halaman dengan cara mengikuti link dari suatu halaman ke halaman lainnya. (pemilik situs bisa mencegah halaman-halamannya dimasuki oleh robot mesin pencari dengan memasang robots.txt yang melarang semua robot atau robot tertentu untuk masuk)
  • Google mengurutkan semua halaman itu berdasarkan kontennya dan faktor-faktor lainnya, dan sesudah itu menyimpan rekamannya dalam index (pusat kumpulan data Google)
              Contoh: Google, Bing, Yahoo, Ask.

Tidak ada komentar:

Posting Komentar