Mengenal Hadoop

Mengulas Lengkap Tentang Hadoop: Software Pengelolaan Big Data

Blog.Gamatechno.com- Istilah Hadoop sudah banyak dikenal banyak orang. Beberapa perusahaan terkenal seperti Microsott, Oracle, IBM telah memasukan produk Hadoop dalam portofolio produknya. Apa itu Hadoop dan seperti apa software ini bekerja akan diulas dalam artikel berikut.

Apa Itu Hadoop?

Big data mulai jadi trend teknologi saat ini. Salah satu software platform yang bisa digunakan untuk mengelola Big Data adalah Hadoop. Secara ringkas Hadoop adalah software yang mampu menghubungkan banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan dan mengelola data dalam satu kesatuan.

Hadoop meyimpan dan mengolah big data menggunakan model pemrograman MapReduce. Map Reduce adalah model pemrograman rilisan google yang bisa digunakan untuk memproses data dalam ukuran besarsecara terdistribusi dan paralel dalam cluster yang terdiri dari komputer berjumlah ribuan.

Sejarah muncul Hadoop

Pembuatan Hadoop adalah sebuah inspirasi setelah terbitnya paper Google File System (GFS) pada Oktober 2003. Isi dari paper tersebut adalah gambaran tentang Big Data yang digunakan untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan Mike Cafarella menciptakan Hadoop saat bekerja pada perusahaan Yahoo!. Perbedaan dari Big Data yang dimiliki Google dan Hadoop terlihat dari sifatnya yang closed source dan open source. Siapa sangka, ternyata kata Hadoop adalah inspirasi yang didapatkan dari mainan gajah kecil berwarna kuning milik anak Doug Couting. Hadoop versi 0.1.0 akhirnya rilis pada bulan April 2006, sampai versi terakhir Hadoop yang rilis pada Maret 2017 adalah Apache Hadoop 2.8. Pada versi terbaru ini, layanan yang diberikan Hadoop juga termasuk untuk HDFS (Hadoop Distributed File System), Yarn (Yet Another Resource Negotiator) dan MapReduce (https://hadoop.apache.org/docs/r2.8.0/).

Implementasi Hadoop

Hadoop digadang-gadang mampu menyelesaiakan permasalahan yang berkaitan dengan data dengan jumlah yang sangat besar atau Big Data. Dengan banyaknya aliran data dalam perkembangan internet saat ini, Hadoop dapat menjadi solusi saat diperlukan model penyimpanan dan pengelolaan data dalam jumlah yang sangat besar. Selain itu, dengan adanya variasi data yang sangat banyak serta kebutuhan akses data yang harus cepat pula, Hadoop diharapkan dapat menyelesaikan permasalahan tersebut.

Beberapa perusahaan besar menggunakan Hadoop untuk mengelola data mereka dalam jumlah sangat besar. Perusahaan tersebut diantaranya Yahoo! dan Facebook dengan klaim bahwa Facebook memiliki Cluster Hadoop terbesar di dunia, yakni per 13 Juni 2012 mereka memiliki 100 petabyte dan per tanggal 8 November 2012, penggunaan data di Facebook naik kurang lebih setengah Petabyte per hari. 1 Petabyte setara dengan 1.000.000 Gigabyte. Tidak heran, karena jumlah pengguna Faecbook di seluruh dunia hampir mencapai 2 milyar. Bayangkan jumlah data yang mengalir dan disimpan setiap harinya.

Teknologi Dibalik  Hadoop

Untuk mengetahui bagaimana Hadoop digunakan, berikut adalah software-software yang ada di dalam Hadoop:

1. Core Hadoop

Core Hadoop terdiri dari Hadoop Distributed File System (HDFS) dan MapReduce yang bisa diunduh di website Apache Hadoop. HDFS berfungsi untuk mendukung pengolahan data yang besar karena ketika data diproses melalui HDFS, data tersebut dibagi-bagi ke dalam bagian yang lebih kecil dan akan diproses secara paralel. Sedangkan Map digunakan untuk melanjutkan proses dari HDFS untuk diubah menjadi tuple, yakni pasangan key dan valuenya. Selanjutnya melalui tahap Reduce, data yang berasal dari Map dilakukan tahap Shuffle dan reduce untuk dikembalikan lagi ke HDFS.

2. Data Mining

Contoh data mining yang dapat digunakan dengan Hadoop diantaranya Apache Pig dan Apache Hive. Data mining sebenarnya merupakan API (Application Programming Interface) untuk menjalankan MapReduce.

3. Database NoSQL (Not Only SQL)

Tidak seperti database relasional, database NoSQL merupakan database yang tidak menggunakan relasi antar tabel dan data yang disimpan fleksibel. Database NoSQL dibutuhkan agar akses data dapat dilakukan dengan lebih cepat. Contoh database NoSQL adalah Apache HBase.

4. Software pendukung lainnya

Software lainnya yang digunakan sebagai perangkat pendukung misalnya untuk mengatur distribusi data dan pemrosesan data, mengatur input ke dalam Hadoop dari sumber data yang bersifat streaming. Ada banyak software pendukung lainnya yang memiliki fungsi masing-masing. Anda dapat memilih software apa yang akan diinstal tergantung dari kebutuhan Anda.

Proses instalasi Hadoop tidak terlalu sulit. Setelah Anda mengunduh core Hadoop, akan ada petunjuk untuk menjalankannya. Sebelum Anda menggunakan Hadoop, pastikan komputer Anda memiliki Java terlebih dahulu. Hadoop bisa digunakan untuk satu komputer maupun untuk banyak komputer.

Pelajari Hadoop sekarang dengan mengunduhnya di http://hadoop.apache.org.

Dapatkan kemudahan mempelajari Hadoop di training Big Data Gamatechno 2017. Info lengkap klik di http://training.gamatechno.com

Baca juga:  5 Peran Big Data dalam Membangun Smartcity

 

Aplikasi mCity Gamatechno

Leave a Comment

Your email address will not be published. Required fields are marked *

*