Apa itu Apache spark dan apa kelebihannya

Apache Spark adalah teknologi komputasi clustering yang sangat cepat dan dirancang untuk kebutuhan yang memerlukan penanganan data secara cepat seperti big data dan machine learning.

Fitur andalan Apache spark adalah kumpulan memori yang dapat meningkatkan kecepatan pemrosesan aplikasi. Spark dirancang untuk menutupi berbagai beban kerja, seperti proses aplikasi, algoritma berulang-ulang, query interaktif, dan transmisi. Selain mendukung semua beban kerja pada setiap sistem, fitur apache spark ini juga dapat mengurangi beban maintanance management.

baca: apa itu data science

Cara kerja Apache Spark

Apache Spark akan mengotrol semua metode data dari berbagai repositori, seperti dari Hadoop Distributed classification system (HDFS), NoSQL Database dan penyimpanan data relatif, seperti Apache Hive.

Spark akan mengelola memori pendukung untuk membantu proses yang sedang berjalan, contohnya saat sedang menganalisis data.spark akan membagi semua proses ke dalam memori pendukung sehingga dapat memaksimalkan kinerja sistem.

baca: apa itu data scientist

Spark sendiri terdiri dari Spark Core dan beberapa Library pendukung. inti dari Spark engine adalah distributed execution engine, dan API Java, Scala maupun Python yang kemudian Library tambahan akan berjalan diatas Spark Core untuk melakukan berbagai proses seperti Streaming, SQL, machine learning

Kelemahan Hadoop

Selama ini Hadoop dikenal sebagai alat paling kuat di dalam bidang Big Data, Namun ternyata Hadoop memiliki beberapa kelemahan. Beberapa diantaranya adalah:

Kecepatan pemrosesan rendah: di Hadoop, algoritma MapReduce, yang merupakan algoritma paralel dan terdistribusi, memproses kumpulan data yang sangat besar.:
Pemrosesan batch: Hadoop mengimplementasikan pemrosesan batch, yang mengumpulkan data dan kemudian memprosesnya secara massal. Meskipun pemrosesan batch efisien untuk memproses volume data yang besar, ia tidak memproses data transmisi. Akibatnya, kinerjanya menjadi lebih lambat
Tidak memiliki Pipeline: Hadoop tidak mendukung pipeline (yaitu, urutan tahapan di mana ID keluaran dari tahap sebelumnya adalah input dari tahap berikutnya)
Sulit untuk digunakan: Pengembang MapReduce perlu menulis kode mereka sendiri untuk setiap operasi, yang membuat pekerjaan menjadi sangat sulit. Selain itu, MapReduce tidak memiliki mode interaktif.
Latency: Di Hadoop, struktur MapReduce lebih lambat karena mendukung berbagai format, struktur, dan data yang besar.
Longline kode: karena Hadoop ditulis dalam Java, kode ini luas. Dan itu membutuhkan waktu lebih lama untuk menjalankan program.

Perusahaan besar yang menggunakan apache spark

berikut adalah beberapa perusahaan besar dan terkenal yang menggunakan apache spark

Amazon
Alibaba Taobao
Baidu
eBay Inc.
Hitachi Solutions
IBM Almaden
Nokia Networks and Solutions
NTT DATA
Simba Technologies
Stanford Dawn
Trip Advisor
Yahoo!

itulah beberapa hal yang dapat saya sampaikan tentang apache spark kamu bisa cari tahu artikle lainnya tentang data di MID Teknologi.

ADINATA

Adinata is a tech expert and content creator experience more than 5 years on networking, coding and managed cloud vps server

Cara kerja Apache Spark

Kelemahan Hadoop

Perusahaan besar yang menggunakan apache spark

Leave a Comment Cancel reply