Materi Softskill oleh :
Alvi Fajrin
Fajar Rizky
Riyana Wicaksono (56412508)
Teuku Alfian Pase (57412341)
Pada tugas softskill mata kuliah Pengantar Web Science kali ini, akan dibahas tentang Analisis Web.
Image by
: intersearchmedia.com
Analisis
Web adalah pengukuran, pengumpulan, analisis dan pelaporan data internet untuk
tujuan memahami dan mengoptimalkan penggunaan web. Web analytics bukan hanya
alat untuk mengukur lalu lintas web, tetapi dapat digunakan sebagai alat untuk
bisnis dan riset pasar, dan untuk menilai dan meningkatkan efektivitas dari
sebuah situs web, membantu orang untuk memperkirakan bagaimana lalu lintas ke
situs web berubah setelah peluncuran
kampanye iklan baru. Web analytics menyediakan informasi tentang jumlah
pengunjung ke sebuah situs web dan jumlah tampilan halaman. Ini membantu
mengukur lalu lintas dan popularitas tren yang berguna untuk riset pasar.
Pengukuran
Web
pengukuran
kinerja web (web measurement) adalah seni untuk mengumpulkan data dan
menganalisa data agar dapat digunakan dan mudah dibaca oleh manusia. Salah satu
teknik mengukur dan menguji suatu kinerja web adalah dengan mengukur pengalaman
seseorang atau user experience pengunjung situs yang berinteraksi dengan
halaman-halaman web yang berada di internet.
Ada
beberapa tools yang digunakan untuk mengukur website dari segi kecepatan akses
dan performanya, serta mengukur banyaknya pengunjung suatu website. Dibawah ini
akan dipaparkan beberapa tools tersebut:
1.
Pingdom Tools
Merupakan
sebuah alat ukur kecepatan website dapat di akses, nilai dari sebuah website,
dan beberapa ukuran dari sebuah website tersebut.
Beberapa
kelebihannya di kategorikan sebagai berikut
:
Performance
Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser
cache, combine external css dan lain-lain.
Waterfall
: melihat detail kecepatan akses ketika membuka halaman web, dari gambar bahkan
sampai seberapa cepat script tersebut dapat di akses.
Page
Analysis : melihat detail analisa halaman web.
History
: melihat detail akses dari beberapa hari lalu.
Kekurangan
yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada
umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita
bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap
website tersebut tidak stabil/berjalan dengan baik.
2.
GTmetrix
image by
: buildajoomlawebsite.com
Adalah
website untuk menganalisa kecepatan web yang tersedia secara gratis, dengan
menggunakan google page speed dan Yahoo Yslow sebagai analyze engine dan untuk
menampilkan hasil serta rekomendasi yang harus dilakukan.
Dengan
GTmetrix juga dapat membandingkan beberapa URL sekaligus
3. Alexa
Rank
Alexa
Internet, Inc. adalah perusahaan yang mengoperasikan situs yang menyediakan
informasi mengenai banyaknya pengunjung suatu situs dan urutannya. Cara kerja
Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan jumlah
pengunjung unik. Semakin rendah alexarank dari situs berarti situs memiliki
sedikit pengunjung unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke
situs Anda, Anda akan mendapatkan lebih rendah alexa rank.
Selain
tools-tools diatas, masih banyak tools serupa lainnya yang bisa dicari sendiri
di Search Engine.
Crawlers
image by
: seo-advisors.com
Crawler
adalah robot milik search engine yg tugasnya mengumpulkan informasi pada
halaman blog/web dan semua media internet yg bisa diindeks oleh search engine.
Cara
kerja Crawlers, Pertama robot mengumpulkan informasi pada halaman blog/web dan
semua media internet yg bisa diindeks oleh search engine. Robot tersebut
kemudian membawa informasi yg didapatnya ke data center. Di data center, data
tersebut kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka
dia akan dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search
engine adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki
kesesuaian dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan
ditampilkan di halaman utama search engine (berperingkat).
Web
crawler adalah suatu program atau script otomat yang relatif simple, yang
dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman
Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web
crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web
crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah
yang terkait dengan search engine. Search engine menggunakan web crawl untuk
mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik.
Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan
kata pencarian di komputernya, search engine dapat dengan segera menampilkan
web site yang relevan.
Ketika
web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang
terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti
meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web
crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex
informasinya. Website itu kemudian dimasukkan ke dalam database search engine
dan dilakukan proses penentuan ranking halaman-halamannya.
Search
Engine
image by
: encrypted-tbn0.gstatic.com
Mesin
pencari atau Search engine adalah program komputer yang dirancang untuk
melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp,
publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer
peladen dalam suatu jaringan. Search engine merupakan perangkat pencari
informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya
ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat
akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits.
Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam
jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas
lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi
atas data yang tersimpan dalam suatu basisdata ataupundirektori web.
Sebagian
besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan
algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer
adalah Google (MSN Search danYahoo!). Telah ada beberapa upaya menciptakan
mesin pencari dengan sumber terbuka (open source), contohnya adalah Htdig,
Nutch, Egothor dan OpenFTS.
Mesin
pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web,
yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler
— browser web otomatis yang mengikuti setiap pranala/link yang dilihatnya. Isi
setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya,
kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta
tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google,
menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi
tentang halaman web itu sendiri.
Selain
halaman web, Mesin pencari juga menyimpan dan memberikan informasi hasil
pencarian berupa pranala yang merujuk pada file, seperti file audio, file
video, gambar, foto dan sebagainya, serta informasi tentang seseorang, suatu
produk, layanan, dan informasi beragam lainnya yang semakin terus berkembang
sesuai dengan perkembangan teknologi informasi.
Ketika
seseorang mengunjungi mesin pencari dan memasukkan query, biasanya dengan
memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web
yang paling sesuai dengan kriterianya, biasanya disertai ringkasan singkat
mengenai judul dokumen dan kadang-kadang sebagian teksnya.
Archiving
Web
Adalah
proses pengumpulan bagian-bagian dari World Wide Web untuk memastikan informasi
tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan
masyarakat umum. Web Archivist biasanya menggunakan web crawler untuk menangkap
otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi terbesar
web pengarsipan berdasarkan pendekatan bulk crawling adalah Internet Archive
yang berusaha untuk mempertahankan sebuah arsip dari seluruh Web.
Web
Archive adalah Sebuah file format terkompresi, didefinisikan oleh Java EE
standar, untuk menyimpan semua sumber daya yang diperlukan untuk menginstal dan
menjalankan aplikasi Web dalam satu file.
Teknik
yang paling umum digunakan dalam pengarsipan Web adalah dengan menggunakan web
crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya
mengakses halaman web dengan cara yang sama seperti yang user biasa lihat pada
Web. Contoh pengarsipan web yang menggunakan web crawlers diantaranya adalah :
1.
Heritrix
image by
: wikipedia.org
Heritrix
adalah crawler web yang dirancang untuk keperluan Web Archiving. Heritrix
ditulis oleh Internet Archive. Heritrix berlisensi free software dan ditulis
dalam bahasa Java. Interface utama dapat diakses menggunakan Web Browser,, ada
beberapa baris perintah yang opsional dapat digunakan untuk menginisiasi
Crawler.
Heritrix
dikembangkan bersama oleh Internet Archive dan perpustakaan nasional Nordic
pada awal 2003. Rilis resmi pertama adalah pada bulan Januari 2004, dan telah
terus ditingkatkan oleh karyawan dari Internet Archive dan pihak lain yang
berkepentingan.
Heritrix
bukan crawler utama yang digunakan untuk menjelajah konten untuk koleksi web
Internet Archive selama bertahun-tahun. Penyumbang terbesar untuk koleksi
adalah Alexa Internet. menjelajah web untuk keperluan sendiri, dengan
menggunakan crawler bernama ia_archiver. Alexa kemudian menyumbangkan materi ke
Internet Archive. Internet Archive sendiri melakukan crawlingnya sendiri
menggunakan Heritrix, tetapi hanya pada skala yang lebih kecil.
Mulai
tahun 2008, Internet Archive mulai peningkatan kinerja untuk melakukan Crawling
skala luas sendiri, dan sekarang telah mengumpulkan sebagian besar isinya.
2.
HTTrack
image by
: httrack.com
HTTrack
merupakan Web Crawler yang gratis dan bersifat open source, dikembangkan oleh
Xavier Roche dan berlisensi di bawah Lisensi GNU General Public License Versi
3. HTTrack memungkinkan pengguna untuk men-download situs World Wide Web dari
Internet ke komputer lokal. HTTrack juga dapat mengupdate situs mirror yang ada
dan melanjutkan download terputus. HTTrack dikonfigurasi dengan option dan oleh
filter (include/exclude), dan memiliki sistem bantuan yang terintegrasi. Ada
versi baris perintah dasar dan dua versi GUI (WinHTTrack dan WebHTTrack)
HTTrack
menggunakan crawler Web untuk men-download website. Beberapa bagian dari situs
web tidak dapat didownload secara default karena protokol exclusion robot
dinonaktifkan selama program. HTTrack dapat mengikuti link yang dihasilkan
dengan dasar JavaScript dan di dalam Applet atau Flash, tapi bukan kompleks
link (dihasilkan dengan menggunakan fungsi atau ekspresi) atau peta gambar
server-side.
3. Wget
image by
: wikipedia
GNU
Wget, seringkali hanya disebut wget, adalah sebuah program komputer sederhana
yang mengambil materi dari web server, dan merupakan bagian dari Proyek GNU.
Namanya diturunkan dari World Wide Web dan get, konotatif dari fungsi
primernya. Program ini mendukung pengunduhan melalui protokol HTTP, HTTPS, dan
FTP, protokol berbasis TCP/IP yang paling luas digunakan untuk penjelajahan
web.
Fitur-fiturnya
meliputi pengunduhan rekursif, konversi pranala untuk peninjauan offline dari
HTML lokal, mendukung proxy, dan lebih banyak lagi. Pertama kali muncul pada
tahun 1996, dilatarbelakangi oleh ledakan penggunaan Web, menyebabkan
penggunaan yang luas di antara para pengguna Unix dan distribusi
Linuxterkemuka. Ditulis menggunakan bahasa C portabel, Wget dapat diinstal
secara mudah pada sistem mirip-Unix apa saja dan telah diportasi ke beberapa
lingkungan, termasuk Mac OS X, Microsoft Windows, OpenVMS danAmigaOS.
Wget
digunakan sebagai basis program-program GUI semisal Gwget untuk desktop GNOME.
Dirilis di bawah Lisensi Publik Umum GNU v3, Wget adalah perangkat lunak bebas.
Cara
kerja Web Archiving
1. Menemukan Informasi Website lewat crawling
web
Bagaimana
cara kerja web crawling Google ? Google memiliki software khusus untuk proses
perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara
kerja web crawler Google menggunakan aplikasi yang disebut Googlebot.
Crawler
Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat
belajar online membuka link lewat browser, kemudian mengikuti link setiap
halaman web dan membawa data dari website/blog tersebut ke server Google.
Proses
crawling web oleh googlebot dimulai dari crawling alamat utama web (domain),
kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.
adanya
sitemap website akan memudahkan google bot google dalam proses crawling
web/blog tersebut.
Pada
akhirnya program google bot akan menentukan situs mana yang ramai pengunjung
dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
Google
tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut
mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian
Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks
website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang
mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama
mesin pencari Google.
2. Mengorganisasi informasi hasil proses
crawling web
Setelah
proses crawling web, maka mesin pencari google kemudian memasukkannya dalam
daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran
buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama.
Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang
dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari
google tahu persis bagaimana Google melihat halaman yang bersangkutan.
Gambaran
bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat
belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga
berisi tentang informasi kata-kata dan lokasi kata tersebut.
Dengan
perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan
kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis
konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga
menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami
apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.
3. Pengaturan crawling pada pemilik
website/blog
Walaupun
Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan
kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan
diindeks mesin pencari Google.
Untuk
memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman
sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan
file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan
file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks
dari website/blog sobat oleh Google crawl
Sumber :
http://en.wikipedia.org/wiki/Web_analytics
http://empatbelast.blogspot.com/2011/04/pengukur-kinerja-situs-web.html
http://clickforgamers.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://bie-wellca.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
http://id.wikipedia.org/wiki/Mesin_pencari_web
http://en.wikipedia.org/wiki/Web_archiving
http://en.wikipedia.org/wiki/Heritrix
http://en.wikipedia.org/wiki/HTTrack
http://id.wikipedia.org/wiki/Wget
http://muhammadyusuf-gunadarma.blogspot.com/2013/05/web-archiving.html