Rasanya tidak lengkap kalau membicarakan tentang big data tapi tidak menyinggung Hadoop. Hadoop adalah piranti lunak garapan Apache Software Foundation yang sifatnya open source dan umum digunakan untuk menyimpan dan menangani big data yang jumlahnya sangat besar tanpa perlu boros dana pun tetap efisien kinerjanya.
Namun, kenapa Hadoop seperti dispesialkan? Secara sederhana, software ini sanggup menangani data yang ukurannya raksasa, kemudian menyalurkannya ke server kluster-kluster distribusi, dan selanjutnya menjalankan aplikasi analisis “terdistribusi” di setiap kluster. ( Baca : Mengulas Lengkap Tentang Hadoop: Software Pengelolaan Big Data )
Hadoop didesain supaya dia tetap handal dalam bekerja. Aplikasinya akan terus berjalan meskipun ada satu atau beberapa server maupun kluster yang gagal. Operasionalnya pun efisien sebab cara kerjanya tidak memerlukan transfer data bervolume besar lintas jaringan.

Apache sendiri mendeskripsikan Hadoop sebagai berikut, “Apache Hadoop merupakan kerangka (framework) yang memungkinkan dilakukannya proses pendistribusian berskala besar yang diatur dalam kluster-kluster komputer dengan memanfaatkan model pemrograman yang sederhana. Hadoop didesain untuk merekayasa satu server sehingga seolah-olah menjadi terdiri dari ribuan mesin, setiap “mesin” menyediakan komputasi lokal beserta lokasi penyimpanannya. Dibanding harus bergantung pada hardware dengan spesifikasi tinggi, kepustakaan Hadoop didesain untuk mendeteksi dan menangani kesalahan di layer aplikasi, kesalahan akan menjadi tanggungan kluster bersangkutan, sehingga penanganan kegagalan pemrosesannya tidak akan mengganggu kluster lain.”
Kalau disimak lebih dalam, Hadoop memiliki mekanisme modular, di mana Anda dapat mengganti komponen dalam software-nya sesuai dengan kebutuhan. Arsitekturnya yang fleksibel ini membuatnya menjadi aplikasi yang tangguh dan efisien.
Dari sisi distribusi software dan instalasi, Hadoop didistribusikan dalam dua bentuk: source dan binary. Masing-masing memiliki peruntukan yang disesuaikan dengan penggunaannya. Distribusi model source lebih familier untuk penggunaan di sistem Linux karena dari sisi CPU memiliki ragam yang lebih luas baik di bagian library maupun versi kernel, pun hampir di setiap versi Linux sudah ter-install sebuah “compiller”. Kenapa “compiler” ini penting? Sebab setelah Anda mengunduhnya, hal berikutnya yang harus dilakukan adalah melakukan kompilasi baru selanjutnya software bisa digunakan.
Sedangkan model binary umum ditujukan bagi pengguna sistem Windows. Versi distribusi ini langsung berbentuk software instalasi Hadoop yang utuh dengan beberapa tambahan konfigurasi dan bisa langsung digunakan tanpa harus melakukan kompilasi—karena Windows tidak memiliki compiler bawaan.

Beranjak dari penjelasan singkat di atas, kegunaan Hadoop dalam dunia big data setidaknya bisa dipetakan ke dalam tiga hal:
1. Untuk melakukan pemrosesan data yang ukurannya masif: artinya, apabila data yang Anda miliki ukurannya benar-benar raksasa (terabytes bahkan petabytes) Hadoop akan mampu melahapnya.
2. Untuk menyimpan set data yang beragam: Hadoop mampu menyimpan dan memproses data apa pun, baik besar maupun kecil, teks polosan maupun file biner (seperti gambar), hingga lintas versi dari data terkait. Anda dapat mengubah cara pemrosesan dan analisis data swaktu-waktu tanpa harus melakukan penyusunan ulang yang biasanya mengharuskan pengguna menjalankan migrasi data.
3. Untuk pemrosesan data parallel: dengan adanya algoritma MapReduce, artinya Anda bisa memparalelkan pemrosesan data.
Sampai di sini, tampak jelas betapa bergunanya Hadoop di dunia big data. Apalagi saat ini hampir seluruh aspek keseharian tidak lepas dari yang namanya big data. Mengingat pentingnya pemahaman tentang pemrosesan dan analisis data secara tepat dan akurat, Gamatechno menyediakan seri Big Data Training yang langsung dipandu oleh profesional di bidangnya dan tersedia sertifikat internasional. Salah satu materi yang diajarkan adalah berkaitan dengan instalasi Hadoop.
Discussion about this post