Sumber: <a href="https://www.obviously.ai/post/data-cleaning-in-machine-learning">obviously.ai</a>

The Ultimate Guide: Data Cleaning & Rekomendasi

Written by Virda Risyad


DIPERBARUI PADA 24 JULI, 2022    |    DIUNGGAH PERTAMA KALI PADA 14 JUNI 2018
Ditulis oleh Cem Dilmegani

Diterjemahkan oleh Virda Risyad

5 data cleaning best practices to gain good data and better business insights
Sumber: AI Multiple

Data adalah bahan bakar dari machine learning dan artificial intelligence. Maka, kualitas data yang digunakan harus menjadi prioritas untuk semua bisnis.

Oleh karena itu, bisnis perlu memahami langkah-langkah yang diperlukan dari strategi data cleaning dan menggunakan data cleaning tools untuk menghilangkan masalah dalam data sets.

Data cleaning (atau data cleansing, data scrubbing)  secara umum mengacu pada proses yang dikembangkan untuk membantu organisasi memiliki data dengan kualitas yang lebih baik.

Proses-proses ini memiliki berbagai manfaat bagi organisasi mana pun yang memilih untuk mengimplementasikannya, tetapi pengambilan keputusan yang lebih baik mungkin merupakan hal yang pertama kali terlintas dalam pikiran di saat istilah data cleaning disebutkan.

Beberapa pertanyaan umum terkait data cleaning yang akan dibahas dalam artikel ini meliputi:

Apa itu data cleaning?

Data cleaning, atau cleansing, adalah proses mengoreksi dan menghapus catatan yang tidak akurat dari database atau tabel. Secara umum, data cleaning, atau cleansing terdiri dari proses mengidentifikasi dan mengganti data dan catatan yang tidak lengkap, tidak akurat, tidak relevan, atau bermasalah ('kotor').

Dengan pembersihan yang efektif, semua kumpulan data seharusnya konsisten dan bebas dari kesalahan yang dapat menjadi masalah selama penggunaan dalam analisis nanti.

Bagaimana data cleaning dan data migration saling terkait?

Migrasi data adalah proses mengekstrak data dari satu lokasi dan mentransfernya ke lokasi lain. Meskipun prosesnya mungkin tampak sederhana, tantangan utamanya adalah lokasi di mana data yang diekstraksi pada akhirnya akan disimpan. Ada kemungkinan sudah berisi duplikat, tidak lengkap, atau mungkin memiliki format yang salah.

Mengapa data cleaning diperlukan?

Data bisa dibilang salah satu aset paling vital yang dimiliki oleh perusahaan untuk membantu meraih kesuksesannya. Menurut sebuah studi oleh IBM, kualitas data yang buruk dapat menelan biaya 3,1 triliun dolar per tahun di AS.

Data dengan kualitas yang buruk harus segera diperbaiki seperti yang terlihat pada grafik di bawah ini, biaya data yang buruk meningkat secara eksponensial sesuai dengan prinsip kualitas 1-10-100.

 1-10-100 data quality principle backed up why data cleaning is important
Sumber: Validity

Beberapa contoh masalah yang dapat timbul dari data dengan kualitas yang buruk adalah:

Pada fungsi bisnis;

  1. marketing: kampanye iklan yang menggunakan data berkualitas buruk akan menjangkau users dengan penawaran yang tidak relevan. Ini tidak hanya mengurangi kepuasan pelanggan tetapi juga dapat mengurangi peluang penjualan yang signifikan.
  2. sales: seorang perwakilan sales gagal menghubungi pelanggan sebelumnya, karena tidak memiliki data yang lengkap dan akurat.
  3. compliance: bisnis online akan menerima hukuman dari pemerintah karena tidak memenuhi aturan data privacy. Oleh karena itu, vendor data cleaning harus memberi Anda jaminan yang memadai bahwa data akan diproses dalam kerangka kepatuhan GDPR.
  4. operations: mengkonfigurasi robot dan mesin produksi lainnya berdasarkan data operasional berkualitas rendah, dapat menyebabkan masalah besar bagi perusahaan manufaktur.

Industri;

  1. kesehatan: Dalam industri kesehatan, data yang berkualitas buruk dapat menyebabkan malpraktek dan penggunaan obat-obatan farmasi yang gagal. Menurut survei yang dilaksanakan oleh Accenture, 18 persen eksekutif dari industri kesehatan percaya bahwa kurangnya data bersih yang berkualitas baik adalah hambatan utama bagi AI untuk mencapai potensi nyatanya dalam industri kesehatan.
  2. akuntansi & keuangan: Data yang tidak akurat dan tidak lengkap dapat menyebabkan pelanggaran peraturan, pengambilan keputusan yang tertunda karena pemeriksaan manual, dan strategi perdagangan yang kurang optimal.
  3. manufaktur & logistik: Penilaian persediaan barang bergantung pada data yang akurat. Jika data hilang atau tidak konsisten, hal ini dapat menyebabkan masalah pengiriman dan komplain dari pelanggan.

Data yang bersih dapat memungkinkan organisasi untuk menghindari situasi dan masalah semacam ini.

Apa fungsi data cleaning?

Kualitas data yang lebih baik berdampak pada setiap aktivitas yang menyertakan data. Hampir semua proses bisnisdi era modern melibatkan data. Selanjutnya, ketika data cleaning dipertimbangkan sebagai salah satu upaya yang penting untuk kemajuan bisnis, maka hal itu dapat menghasilkan berbagai manfaat bagi semua pihak internal maupun eksternal perusahaan. Beberapa manfaat dengan dampak yang signifikan merupakan sebagai berikut:

  1. praktik bisnis yang disederhanakan (streamlined): Bayangkan jika tidak ada duplikat, kesalahan, atau inkonsistensi dalam catatan Anda. Seberapa jauh lebih efisien semua aktivitas harian utama Anda?
  2. peningkatan produktivitas: Mampu fokus pada tugas-tugas kerja yang lebih signifikan alih-alih menemukan mana data yang benar atau harus melakukan koreksi karena data yang salah. Memiliki akses untuk data cleaning, dengan bantuan manajemen pengetahuan yang efektif merupakan sebuah game-changer.
  3. siklus penjualan yang lebih cepat: Keputusan marketing bergantung pada data. Memberi departemen marketing Anda data kualitas terbaik berarti lebih banyak prospek untuk dikonversi oleh tim penjualan Anda. Konsep yang sama juga berlaku untuk hubungan B2C!
  4. keputusan yang lebih baik: Meskipun telah dibahas sebelumnya, tetapi ini cukup penting sehingga layak untuk diulang. Good data = good decisions.

Berbagai dampak positif ini pada umumnya mengarah pada bisnis yang lebih menguntungkan. Bukan hanya karena upaya penjualan eksternal yang lebih baik, tetapi juga karena upaya dan operasi internal yang lebih efisien.

person holding a final results from data processing for better business insights
Sumber: Analytics India Magazine

Apa saja jenis-jenis permasalahan data?

Berbagai jenis masalah pada data terjadi saat terjadinya penggabungan kumpulan data dari beberapa tempat, mengambil data dari web, atau menerima data dari klien/departemen lain. Beberapa contoh masalah data adalah:

  1. duplicate data: Ada 2 atau lebih data yang identik. Hal ini dapat menyebabkan kesalahan penyajian dalam penghitungan inventaris/duplikasi jaminan pemasaran atau aktivitas billing yang tidak perlu.
  2. conflicting data: Ketika ada beberapa catatan dengan atribut yang berbeda, hal itu adalah conflicting data. Misalnya, ada perusahaan dengan versi alamat yang berbeda, dan hal tersebut dapat menyebabkan masalah pengiriman.
  3. data tidak lengkap: Data yang memiliki atribut yang hilang. Sebagai contoh: Penggajian karyawan tidak dapat diproses karena nomor jaminan sosial mereka hilang dalam database.
  4. data tidak valid: Atribut data tidak sesuai dengan standarisasi. Misalnya, catatan nomor telepon 9 digit, bukan 10 digit.

Apa penyebab utama masalah data?

Masalah data muncul karena masalah teknis seperti:

  1. masalah sinkronisasi: Ketika data tidak dibagikan dengan benar di antara dua sistem, hal tersebut dapat menyebabkan masalah. Misalnya, jika sistem penjualan perbankan menangkap hipotek baru tetapi gagal memperbarui sistem pemasaran bank, maka pelanggan mungkin bingung jika mereka mendapatkan pesan dari departemen marketing.
  2. data processing software bugs: Aplikasi dapat menulis data dengan beberapa kesalahan atau overwrite data yang benar karena berbagai bug.
  3. penggelapan/sensor data oleh users: Ini adalah jenis penyembunyian data dengan tujuan tertentu. Users mungkin akan dengan sengaja memberikan data yang tidak lengkap atau salah untuk menjaga privasi mereka.

Apa yang dimaksud dengan data berkualitas tinggi?

Ada beberapa kriteria yang membantu untuk mengkualifikasikan data sebagai data dengan kualitas yang tinggi:

  1. Validity: Seberapa dekat data memenuhi aturan atau batasan bisnis yang ditentukan. Beberapa kendala umum meliputi:
  2. mandatory: Kolom tertentu tidak boleh kosong
  3. data type: Nilai dalam kolom harus dari tipe data tertentu
  4. range: Nilai minimum dan maksimum untuk angka atau tanggal
  5. foreign-key: Satu set nilai dalam kolom didefinisikan di kolom tabel lain yang berisi nilai yang unik
  6. unique: Bidang harus unik dalam kumpulan data
  7. regular expression patterns: Bidang teks harus divalidasi dengan cara ini.
  8. cross-field validation: Kondisi tertentu yang harus berlaku dan menggunakan banyak bidang.
  9. set-membership: Yang ini adalah subkategori dari foreign-key constraints. Nilai untuk kolom berasal dari sekumpulan nilai atau kode rshasia.

2. accuracy: Seberapa mirip data yang sesuai dengan standar atau nilai sebenarnya.

3. completeness: Seberapa teliti atau komprehensif data dan tindakan terkait yang diketahui.

4. consistency: Kesetaraan ukuran di seluruh sistem dan subjek.

5. uniformity: Memastikan bahwa satuan ukuran yang sama digunakan di semua sistem.

6. traceability: Mampu menemukan (dan mengakses) sumber data.

7. timeliness: Seberapa cepat dan baru-baru ini data diperbarui

Karakteristik yang berbeda ini bersama-sama dapat membantu perusahaan memiliki data yang berkualitas tinggi dan dapat digunakan untuk berbagai tujuan dengan kebutuhan minimal untuk hipotesis yang diteliti dengan baik.

5 tahapan data cleaning

Perlu menggunakan good data? Sebelum Anda melakukannya, ada beberapa langkah umum yang dapat diikuti oleh perusahaan mana pun untuk mulai masuk ke pola pikir data cleaning yang lebih baik:

#1 Kembangkan rencana untuk memperoleh data yang berkualitas

Identifikasi masalah merupakan hal pertama yang harus segera dilakukan. Ingatlah bahwa praktik data cleaning yang efektif akan memiliki dampak positif yang menyeluruh untuk perusahaan, jadi penting untuk tetap terbuka dan bersikap komunikatif. Sebuah rencana perlu menyertakan;

  1. penanggung jawab: Seorang eksekutif C-Level, Chief Data Officer (CDO). Selain itu, penanggung jawab di bidang bisnis dan tech harus didelegasikan pada data sets yang berbeda.
  2. metrik: Idealnya, kualitas data harus dapat diringkas sebagai angka tunggal pada skala 1-100. Meskipun data yang berbeda dapat memiliki kualitas yang berbeda, memiliki akses untuk keseluruhan data dapat membantu perusahaan mengukur peningkatan yang konstan.                                                         Jumlah keseluruhan data juga dapat memberikan bobot lebih untuk data yang penting bagi kesuksesan perusahaan dalam membantu memprioritaskan inisiatif kualitas data yang berdampak pada data penting.
  3. tindakan: Serangkaian tindakan yang jelas harus diidentifikasi untuk memulai rencana perbaikan kualitas data. Seiring waktu, tindakan ini perlu diperbarui seiring dengan perubahan kualitas data dan seiring dengan perubahan prioritas perusahaan.

#2 Perbaiki data langsung dari sumbernya

Apabila data dapat diperbaiki sebelum menjadi entri yang error (atau duplicated) dalam sistem, hal ini akan sangat menghemat waktu. Misalnya, jika formulir Anda membutuhkan terlalu banyak bidang untuk diisi, Anda akan mendapatkan masalah kualitas data dari formulir tersebut.

Mengingat bahwa bisnis akan terus-menerus menghasilkan lebih banyak data, memperbaiki data dari sumbernya merupakan hal yang sangat penting.

#3 Ukur akurasi data

Investasikan waktu, tools, dan penelitian yang diperlukan untuk mengukur keakuratan data Anda secara real-time. Jika perlu, Anda dapat membeli tools untuk mengukur kualitas data untuk mengukur akurasi data.

#4 Kelola data beserta duplikatnya

Jika beberapa duplikat masih tersisa pada entri terbaru Anda, pastikan untuk secara aktif mendeteksi dan menghapus duplikat tersebut. Setelah menghapus duplikat dari data, penting juga untuk mempertimbangkan beberapa hal berikut:

  1. standardizing: Konfirmasikan bahwa jenis data yang sama ada di setiap kolom.
  2. normalizing: Memastikan bahwa semua data direkam secara konsisten.
  3. merging: Ketika data tersebar di beberapa data sets, merging merupakan tindakan penggabungan bagian-bagian yang relevan dari kumpulan data tersebut untuk membuat file baru.
  4. aggregating: Mengurutkan data dan memaparkannya dalam bentuk ringkasan.
  5. filtering: Mempersempit data sets, untuk menyertakan hanya informasi yang kita inginkan.
  6. scaling: Mengubah data sehingga sesuai dengan skala tertentu seperti 0-100 atau 0-1.
  7. removing: Menghapus titik duplicate and outlier data untuk mencegah ketidakcocokkan dalam regresi linier.

#5 Append data

Append adalah proses yang membantu perusahaan untuk mendefinisikan dan melengkapi informasi yang hilang. Outsource yang andal sering kali merupakan salah satu opsi terbaik untuk mengelola praktik ini.

Setelah menyelesaikan 5 langkah ini, data Anda akan siap untuk diekspor ke katalog data dan digunakan saat analisis diperlukan. Ingatlah bahwa dengan data sets yang sangat besar, kebersihan data dengan persentase sebesar 100% hampir mustahil untuk dicapai.

Teknik Data Cleaning

Seperti halnya dengan banyak tindakan lainnya, memastikan kebersihan big data dapat menghadirkan serangkaian pertimbangan yang bersifat unik. Selanjutnya, ada sejumlah teknik yang telah dikembangkan untuk membantu membersihkan big data:

  1. tabel konversi: Ketika masalah data tertentu sudah diketahui (misalnya, nama yang disertakan dalam kumpulan data ditulis dalam beberapa cara), masalah tersebut dapat diurutkan berdasarkan kunci yang relevan, lalu lookups dapat digunakan untuk melakukan konversi.
  2. histogram: Ini memungkinkan identifikasi nilai/value yang lebih jarang terjadi dan mungkin tidak valid.
  3. big data tools: Setiap harinya vendor besar merilis tools baru yang lebih baik untuk mengelola big data beserta komplikasinya.
  4. algoritme: pemeriksaan ejaan atau algoritme fonetik memiliki fungsi yang penting – tetapi mereka juga dapat membuat saran pengejaan yang salah.

Intervensi Data Secara Manual

Saat ini, mengedit data secara manual untuk improvement merupakan hal yang bersifat kurang ekonomis. Namun, dalam kasus data yang sangat berharga atau ketika jutaan labeled data points diperlukan seperti dalam kasus sistem pengenalan gambar, pembaruan data secara manual mungkin masih terbilang masuk akal. Jika pembaruan manual akan dilakukan pada data, beberapa praktik terbaik yang perlu diingat meliputi:

  1. pastikan untuk mengurutkan data berdasarkan atribut yang berbeda.
  2. dalam kasus data sets yang lebih besar, coba pecah data sets menjadi lebih kecil untuk meningkatkan kecepatan iterasi.
  3. pertimbangkan untuk membuat serangkaian fungsi utilitas seperti memetakan ulang values berdasarkan file CSV atau regex search-and-replace.
  4. simpan catatan setiap data cleaning dilakukan.
  5. pengambilan sampel bisa menjadi cara yang bagus untuk menilai kualitas. Setelah Anda mengetahui batas toleransi kualitas data Anda, hal ini dapat membantu Anda memutuskan ukuran sampel untuk menilai kualitas. Misalnya, jika Anda memiliki 1.000 baris dan perlu memastikan bahwa masalah kualitas data tidak lebih dari 5%, coba periksa 10% dari 1000 baris kasus.
  6. analisis ringkasan statistik seperti standar deviasi atau jumlah value yang hilang untuk menemukan masalah yang paling umum dengan cepat.

Selalu ingat 6 hal ini di seluruh operasi data cleaning secara manual untuk memastikan keberhasilan proyek yang sedang berjalan.

Praktik terbaik dalam data cleaning

Ada beberapa praktik terbaik yang harus diingat selama dijalankannya proses data cleaning. Yakni:

  1. pertimbangkan data Anda dengan cara yang paling holistik – pikirkan tidak hanya siapa yang akan melakukan analisis data tetapi juga siapa yang akan menggunakan hasil yang diperoleh dari analisis tersebut.
  2. peningkatan kontrol pada input database dapat memastikan bahwa hanya data yang lebih bersih adalah data yang akhirnya akan digunakan dalam sistem.
  3. pilih solusi perangkat lunak yang mampu menyoroti dan bahkan menyelesaikan data yang error sebelum menjadi masalah.
  4. untuk kasus data sets yang lebih besar, pastikan untuk membatasi ukuran sampel Anda untuk meminimalisasi waktu persiapan dan mempercepat kinerja.
  5. periksa seluruh sistem untuk mencegah kesalahan agar tidak terjadi replikasi.
  6. manfaatkan kursus online gratis seperti platform kompetisi data science, atau coba gratis platform data preparation yang mudah untuk dinavigasi seperti Delman Data Lab jika Anda ingin menangani data cleaning secara internal dan tim data Anda tidak memiliki pengalaman yang cukup dalam proses data cleaning.
Difficulties caused by bad data in decision-making process solved by data cleaning
Sumber: Preact CRM

Tantangan dalam proses data cleaning

Data cleaning sendiri merupakan aspek yang penting untuk kesuksesan perusahaan Anda dengan beberapa tantangannya tersendiri. Beberapa tantangan yang paling umum termasuk:

  1. keterbatasan pengetahuan tentang apa yang menyebabkan anomali pada data, menciptakan kesulitan dalam menciptakan transformasi yang tepat.
  2. data deletion, di mana hilangnya informasi menyebabkan data tidak lengkap yang tidak dapat 'diisi' secara akurat.
  3. pemeliharaan berkelanjutan yang mahal dan bisa memakan waktu.
  4. sulit untuk membuat grafik data cleaning untuk membantu proses data cleaning selanjutnya.

Setelah memahami seluk-beluk data cleaning, pastikan keputusan-keputusan yang Anda ambil untuk bisnis Anda bersifat data-driven dan tepat guna dengan tersedianya good data setiap saat. Gunakan data cleaning tool yang mudah dioperasikan dan relatif cost-effective seperti Delman Data Lab.