Big Data
Big data adalah adalah data dalam jumlah sangat besar yang dikumpulkan, disimpan, diolah, dan dianalisis agar menghasilkan informasi yang bermanfaat untuk digunakan sebagai dasar pengambilan keputusan atau kebijakan. big data muncul keberadaanya dari fakta bahwa pertumbuhan data terus berlipat ganda dari waktu ke waktu dan telah melampaui batas kemampuan media penyimpanan maupun sistem database konvensional. Big data lahir dari fenomena perluasan penggunaan internet dan kemajuan teknologi informasi yang diikuti dengan terjadinya pertumbuhan data yang luar biasa cepat atau biasa dikenal dengan istilah ledakan informasi (information explosion) maupun banjir data (data deluge). Menurut (Eaton, Dirk, Tom, George, & Paul), (Dumbill) , Big Data adalah data yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan altenatif untuk memprosesnya. Gartner, sekitar tahun, Big Data (Data Besar) adalah data yang berisi variasi yang lebih besar yang datang dalam volume yang meningkat dan dengan kecepatan yang semakin tinggi,dikenal sebagai Three Vs.
Pada pembukaan Press
Conference on Open Data Strategy tahun 2011, Neelie Kroes, yang saat itu
menjabat sebagai Vice-Presicent of the European Commission responsible for the
Digital Agenda, menyampaikan pidatonya yang berjudul "Data is the
New Gold". Pesannya adalah bahwa pada era digital ini, data telah menjadi
bagian yang sangat penting bagi peradaban manusia seperti halnya minyak bumi,
yang telah mendapat julukan black gold. Pernyataan tersebut disampaikan
berdasar fakta bahwa data telah menjadi sumber laba bagi para pelaku bisnis di
dunia maya Internet. Mereka hidup dari data yang mereka berdayakan.
Big Data bukanlah sebuah teknologi, teknik, maupun inisiatif yang berdiri sendiri. Big Data adalah suatu trend yang mencakup area yang luas dalam dunia bisnis dan teknologi. Big Data menunjuk pada teknologi dan inisiatif yang melibatkan data yang begitu beragam, cepat berubah, atau berukuran super besar sehingga terlalu sulit bagi teknologi, keahlian, maupun infrastruktur konvensional untuk dapat menanganinya secara efektif. Dengan kata lain, Big Data memiliki ukuran (volume), kecepatan (velocity), atau ragam (variety) Three vs, yang terlalu ekstrim untuk dikelola dengan teknik konvensional. Big Data mengacu pada dataset yang ukurannya diluar kemampuan dari database software tools untuk meng-capture, menyimpan,me-manage dan menganalisis. Definisi ini sengaja dibuat subjective agar mampu digabungkan oleh definisi Big Data yang masih belum ada bakunya. Ukuran big data sekitar beberapa lusin TeraByte sampai ke beberapa PetaByte tergantung jenis Industri.Isi dari Big Data adalah Transaksi+interaksi dan observasi atau bisa di bilang segalanya yang berhubungan dengan jaringan internet, jaringan komunikasi, maupun jaringan satelit
Tiga tipe data
1. Structured data adalah database dari data yang telah terorganisir yang bisa digunakan oleh perusahaan untuk diolah dan analisa data yang efektif. Tertulis dengan format yang spesifik sehingga dapat dipahami oleh search engine.
2. Unstructured data adalah data dengan bentuk yang tidak dikenal. Membuat banyak tantangan bagi perusahaan dalam tahap pengolahan karena jenisnya yang heterogen. Data ini merupakan gabungan dari text files, image, video, dll. Data mentahan ini hanya dapat menghasilkan nilai setelah diolah dan dianalisis.
3. Semi-structured data tidak seperti unstructured data yang kompleks dan bisa diolah dan analisa dengan bantuan tagging metadata yang dapat menangkap informasi berguna yang bersangkutan dengan tag tersebut.
Jenis Big Data :
1. Data Science,
Data science adalah studi tentang data mentah dan unstructured data yang diolah melalui keterampilan analitis, programing, dan bisnis. Bidang ini menggunakan metode, proses, algoritma, dan sistem ilmiah untuk menghasilkan wawasan dari pola dan trend. Data scientist memanfaatkan teknologi, matematika, dan teknik statistik untuk menciptakan makna dari unstructured data yang nantinya digunakan untuk membuat keputusan bisnis.
Kegunaan dari Data Science:
Pencarian Internet: Disini, algoritma data science digunakan search engine untuk menghasilkan hasil pencarian terbaik untuk permintaan pencarian dalam hitungan detik.
Digital Advertisements: Disini, algoritma data science digunakan oleh digital marketing
Masa depan di Data Science
Banyak industri data science mengambil keuntungan dari bidang data science. Di antaranya melingkupi departemen penjualan dan marketing, institusi bank, layanan streaming, perusahaan pengiriman, dll. Dengan prediksi para ahli yang mengatakan akan ada 40 zettabyte jumlah data pada tahun 2020, Data Science akan memberikan banyak peluang pekerjaan! Asah kemampuan mu di SAS, programing R/Python, Hadoop, SQL database, keahlian analitis, statistik, matematika, dan pemikiran visioner untuk mendapatkan pekerjaan terbaik sebagai profesional data science.
2. Data Analytics,
Data analytics adalah proses menarik data dan mengkategorikan data menggunakan teknik kualitatif dan kuantitatif. Menaikkan produktivitas bisnis dengan mengambil wawasan operasional. Analis big data memainkan peran penting dalam mencari solusi yang lebih baik untuk perkembangan organisasi.
Kegunaan dari Data Analytics
Kesehatan: Data analytics di data alat dan mesin semangkin digunakan untuk melacak dan juga mengoptimasi alur pasien, pengobatan, dan peralatan yang digunakan di rumah sakit.
Travel: Membeli pengalaman sangat bisa untuk dioptimalkan secara menyeluruh menggunakan bantuan mobile/weblog dan analitik sosial. Wawasan mendalam tentang keinginan dan preferensi pelanggan dapat diperoleh.
Ada banyak industri lain yang memanfaatkan data analytics. Beberapa dari mereka adalah gaming dan energy management.
Masa depan di Data Analytics
Perusahaan konsultan dan penelitian memahami kekuatan analitik dalam proses pengambilan keputusan sehari-hari serta pemikiran strategis. kamu dapat memanfaatkan kesempatan dari sedikitnya orang terampil dalam bidang analatik. Jika kamu memiliki kegemaran untuk angka dan dapat sukses di industri yang menguntungkan, jangan sia-siakan waktu lagi dan kuasai programming, komunikasi, artificial intelligence, dan keahlian perselisihan data sekarang.
--------------------
Big Data melibatkan proses pembuatan data, penyimpanan, penggalian informasi, dan Konsep big data sendiri
mulai disampaikan oleh analis industri bernama Doug Laney. Beliau menyampaikan
konsep bahwa big data itu terdiri dari tiga bagian penting yaitu volume,
kecepatan, dan variasi.
- Volume/ukuran, Banyak faktor
yang mempengaruhi peningkatan jumlah data yang beredar seperti data berkas
transaksi yang disimpan bertahun tahun lamanya, lalu juga seperti data
tentang akun yang berada pada media sosial, adanya data tentang chace yang
ada pada mesin-mesin pabrik yang disimpan, dan masih banyak lagi.
Sebetulnya permasalahan tentang membludaknya volume data ini sudah
ada sejak dulu, dan solusipun telah diterapkan dengan mengurangi biaya
yang harus dikeluarkan untuk melakukan penyimpanan data. Tetapi seiring
dengan berjalannya waktu, masalah lain muncul. Yaitu tentang bagaimana
cara untuk mengolah data yang begitu banyak sampai bisa menghasilkan
sebuah nilai yang berarti. Volume data juga terus meningkat dan
belum pernah terjadi sampai sehingga ini sehingga tidak dapat diprediksi
jumlah pasti dan juga ukuran dari data sekitar lebih kecil dari petabyte
sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1 petabyte
perperusahaan jadi jika big data digabungkan dalam sebuah organisasi /
group perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini
jumlah data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000
zetabyte. Pada tahun 2000 lalu, PC biasa pada umumnya memiliki kapasitas penyimpanan sekitar 10 gigabytes. Saat ini, Facebook menyedot sekitar 500 terabytes data baru setiap harinya; sebuah pesawat Boeing 737 menghasilkan sekitar 240 terabytes data penerbangan dalam satu penerbangan melintasi Amerika; makin menjamurnya penggunaan ponsel pintar (smartphone), bertambahnya sensor-sensor yang disertakan pada perangkat harian, akan terus mengalirkan jutaan data-data baru, yang terus ter-update, yang mencakup data-data yang berhubungan dengan lingkungan, lokasi, cuaca, video bahkan data tentang suasana hati si pengguna ponsel pintar.
- Variety/ragam, volume
data yang banyak tersebut bertambah dengan kecepatan yang begitu cepat
sehingga sulit bagi kita untuk mengelola hal tersebut. Untuk proses dalam
waktu sensitif seperti penangkapan penipuan, data yang besar harus
digunakan sebagai aliran ke dalam suatu perusahaan untuk memaksimalkan
nilainya. Berbagai jenis data dan sumber data. Variasi adalah
tentang mengelolah kompleksitas beberapa jenis data, termasuk structured
data, unstructured data dan semi -structured data. Organisasi perlu
mengintegrasikan dan menganalisis data dari array yang kompleks dari kedua
sumber informasi Traditional dan non traditional informasi, dari dalam dan
luar perusahaan. Dengan begitu banyaknya sensor, perangkat pintar (smart device)
dan teknologi kolaborasi sosial, data yang dihasilkan dalam bentuk yang
tak terhitung jumlahnya, termasuk text, web data, tweet, sensor
data, audio, video, click stream, log file dan banyak lagi.
- Velocity/kecepatan, Bagian ini
merupakan tantangan yang cukup berat bagi sebagian besar perusahaan.
Karena mereka berurusan dengan waktu, jadi mereka harus mengelola data
yang ada yang begitu banyaknya dengan cepat atau bahkan hampir mendekati
kata real -time. Kecepatan atau velocity mereferensi kepada peningkatan pengumpulan
data dan seberapa cepat data yang dikumpulkan harus dievaluasi dan
diaplikasikan untuk meningkat. Clickstreams maupun ad impressions mencatat perilaku pengguna Internet dalam jutaan event per detik; algoritma jual-beli saham dalam frekwensi tinggi dapat mencerminkan perubahan pasar dalam hitungan microseconds; proses-proses yang melibatkan hubungan antara suatu mesin dengan mesin lainnya telah melibatkan pertukaran data antar jutaan perangkat; peralatan sensor dan perangkat-perangkat pada infrastruktur menghasilkan log data secara real time; sistem game online dapat melayani jutaan pengguna secara bersamaan, yang masing-masing memberikan sejumlah input per detiknya..selain 3 hal tersebut
ada 2 hal lain yang penting, yaitu:
- Variabilitas, arus
data dalam periode tertentu kadang tidak konsisten sehingga variabilitas
menjadi salah satu bagian penting. Contohnya ada pada media sosial. Di
media sosial pasti akan ada tren tertentu yang muncul dadakan. Tren
tersebut periodenya berbeda-beda, bisa harian, mingguan, maupun bulanan.
Beban puncak data yang seperti itu sangat memerlukan analisis big data. - Kompleksitas, adanya
big data mampu mengatasi banyaknya data yang perlu dicocokkan,
dihubungkan, diubah ataupun dibersihkan. Data perlu diperlakukan demikian
karena data berasal dari berbagai sumber yang berbeda. disitulah big data
sangat berperan dalam mencari korelasi ataupun keterkaitan antara data
satu dan data lainnya
Cara kerja Big Data melibatkan tiga tindakan utama, yaitu:
a. Mengintegrasikan
Big data menyatukan data dari banyak sumber dan aplikasi yang berbeda. Mekanisme integrasi data tradisional, seperti ETL (ekstrak, ubah, dan muat) umumnya tidak sesuai dengan tugas. Dibutuhkan strategi dan teknologi baru untuk menganalisis set Big Data (Data Besar) pada skala terabyte atau bahkan petabyte.
Selama integrasi, Anda perlu memasukkan data, memprosesnya, dan memastikannya diformat dan tersedia dalam bentuk yang dapat dimulai oleh analis bisnis Anda.
b. Mengelola
Big Data (Data Besar) membutuhkan penyimpanan. Solusi penyimpanan Anda dapat di cloud, di tempat, atau keduanya. Anda dapat menyimpan data Anda dalam bentuk apa pun yang Anda inginkan dan membawa persyaratan pemrosesan yang Anda inginkan dan mesin proses yang diperlukan ke kumpulan data tersebut berdasarkan permintaan. Banyak orang memilih solusi penyimpanan mereka sesuai dengan di mana data mereka saat ini berada. Cloud secara bertahap mendapatkan popularitas karena mendukung persyaratan komputasi Anda saat ini dan memungkinkan Anda untuk memutar sumber daya sesuai kebutuhan.
c. Menganalisa
Investasi Anda dalam Big Data (Data Besar) terbayar ketika Anda menganalisis dan menindaklanjuti data Anda. Dapatkan kejelasan baru dengan analisis visual dari beragam set data Anda. Jelajahi data lebih lanjut untuk membuat penemuan baru. Bagikan temuan Anda dengan orang lain. Bangun model data dengan pembelajaran mesin dan kecerdasan buatan. Letakkan data Anda untuk bekerja.
Beberapa jenis metode atau teknik dalam melakukan analisis big data :
- Analisis Teks, merupakan proses menganalisis data teks (unstructured-data) seperti blog, email, forum, tweet, forum dan bentuk lainnya.
- Data Mining, merupakan suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dari sekumpulan besar data dengan menggunakan teknik pengenalan pola seperti statisik dan matematika
- Machine Learning
- Analisis Prediksi (Predictive Analytics)
- Analisis Statistik
- NLP (Natural Language Processing)