Kenapa Big Data?

Terkait dengan Big Data, tren di dunia IT saat ini, pertanyaan yang seringkali terlontar di benak masyarakat adalah: “Kenapa harus pakai kata Big Data? Kenapa bukan data saja?” Agar suatu data menjadi bermanfaat, kita perlu untuk mengidentifikasi pola-pola yang ada dan memprediksi pola-pola tersebut untuk menjadi pengetahuan atau informasi di masa mendatang yang tentu saja belum diketahui.

Analogi umum yang biasa disampaikan adalah untuk memprediksi beras jenis apa yang ada di dalam kantong plastik. Yang jadi masalah adalah, kita tidak tau beras apa yang ada di dalam kantong plastik tersebut. Kita hanya mendapatkan data berupa sample beras tersebut (tidak diketahui jenisnya) dan sample dari beberapa jenis beras yang ada di pasaran (diketahui jenisnya). Nah, sample dari beberapa beras yang diketahui jenisnya, dalam dunia Machine Learning, disebut dengan Training Data. Sedangkan sample dari beras yang berada di dalam kantong plastik dan tidak diketahui jenisya, disebut sebagai Test Data.

Teori umumnya, semakin banyak sample yang diberikan (dari beras yang diketahui jenisnya), maka akan semakin bagus prediksi kita terhadap suatu jenis beras di dalam kantong plasti tersebut. Jika kita hanya diberi sample berupa dua butir beras dari masing-masing jenisnya, kita mungkin akan menarik kesimpulan semata-mata hanya berdasarkan karakteristik dari 2 butir beras tersebut. Boleh jadi kita melewatkan beberapa karakteristik lain yang dimiliki oleh masing-masing jenis beras. Dalam Bahasa Machine Learning, kasus demikian disebut dengan overfitting.

Jika kita memiliki sample yang lebih besar atau banyak, kita akan dapat mengenali beberapa ciri khas dari masing-masing jenis beras beserta rentang nilai yang mungkin untuk masing-masing ciri tersebut. Oleh karena itu, kebutuhannya adalah dengan melibatkan data yang sangat besar, bukan sekedar data saja. Dengan demikian, layaklah kalau disebut dengan Big Data, not just data.

Terkait dengan algoritma yang digunakan di dalam pengolahan Big Data, banyak yang sudah sangat popular dan telah ada sejak waktu yang lama. Sebagai contoh yaitu algoritma Naïve Bayes. Algoritma ini ditemukan pertama kali pada abad 18. Demikian juga algoritma Support Vector Machine, yang mulai dipopulerkan pada awal 1960-an.

Satu hal yang membedakan antara Big Data dengan istilah data konventional adalah bahwa Big Data terlalu “Big” untuk dipaksakan ke dalam Relational DataBase Management System (DBMS). Seiring dengan upaya ambisius teknologi Internet of Things (IoT) dalam membuat setiap entitas di dunia ini terhubung dengan hal-hal lain, RDBMS konvensional tidak akan mampu mengatasi kenaikan data yang drastis, baik dari sisi Volume, Variety, Velocity maupun yang lainnya.

Produsen Harddisk ternama, Seagate, memprediksi bahwa dunia tidak akan mampu mengatasi masalah penyimpanan data dalam beberapa tahun ke depan. Menurut mereka, jauh lebih sulit memproduksi kapasitas (harddisk), daripada men-generate data. Tentunya akan menjadi hal yang menarik untuk melihat bagaimana industri penyimpanan (Storage Industry) dapat memenuhi demand dalam hal kapasitas (Volume) media penyimpanan yang super besar akibat adanya fenomena Big Data ini. Berawal dari urusan Volume ini (1V), Big Data berkembang menjadi beberapa V lain, mulai dari 3V, 6V, 10V, hingga 42V atau lebih. Pembahasan tentang The V’s of Big Data akan dibahas di artikel berikutnya.

Referensi:

  1. Dean, J. (2014). Big Data, Data Mining, and Machine Learning. New Jersey: Wiley.
  2. Hurwitz, J., Nugent, A., Halper, F., & Kaufman, M. (2013). Big Data for Dummies. New Jersey: Wiley.
  3. Marr, B. (2015). Big Data: Using Smart Big Data Analytics and Metrics to Make Better Decisions and Improve Performance. West Sussex: Wiley.
  4. Marr, B. (2016). Big Data in Practice: 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results. West Sussex: Wiley.
  5. Pendyala, V. (2018). Veracity of Big Data. California: Apress.

Semarang, 14 Feb 2019

F.A.R.

*Artikel ini telah lebih dulu dipublikasikan di http://www.fauziadi.com

Leave a Reply

Your email address will not be published. Required fields are marked *