
Sebelum kita mulai membahas lebih jauh soal cara membuat correlation matrix, ada baiknya kita pahami dulu apa itu correlation matrix.
Dalam dunia data, correlation matrix adalah sebuah tabel yang menunjukkan seberapa kuat hubungan antar variabel numerik.
Jadi, kalau kamu punya beberapa kolom data seperti usia, pendapatan, dan lama penggunaan aplikasi, correlation matrix bisa memberitahu kamu apakah kolom-kolom itu saling berhubungan atau tidak.
Biasanya, nilai korelasi ini berkisar antara -1 hingga +1. Angka +1 berarti hubungan positif sempurna, -1 artinya hubungan negatif sempurna, dan 0 berarti tidak ada hubungan sama sekali.
Nah, dari sini kamu bisa menentukan apakah dua variabel saling mendukung atau justru bertolak belakang.
Simak Juga : Sertifikasi Data Analyst
Persiapan Dataset yang Tepat
Sebelum kita terjun langsung ke pembuatan correlation matrix, ada beberapa hal yang perlu dipersiapkan terlebih dahulu. Yang paling penting adalah memastikan kamu punya dataset yang relevan dan bersih. Dataset idealnya memiliki kolom-kolom numerik dan jumlah baris yang cukup agar analisis korelasinya valid.
1. Import dan Menyiapkan Data
Langkah pertama tentu saja adalah mengimpor data ke dalam tools yang akan kamu gunakan. Di sini kita pakai Python dengan bantuan library pandas.
import pandas as pd
# Load dataset
df = pd.read_csv(‘data.csv’)
print(df.head())
Pastikan kamu sudah melihat isi data agar tahu kolom mana saja yang bisa digunakan untuk analisis korelasi.
2. Bersihkan dan Validasi Data
Sebelum masuk ke cara membuat correlation matrix, penting untuk membersihkan data dari nilai yang hilang (missing values), outlier, atau data yang tidak sesuai format.
Kamu bisa menggunakan metode seperti dropna() untuk menghapus data yang kosong, atau fillna() untuk mengisi data yang hilang.
Cara Membuat Correlation Matrix
Setelah data siap, sekarang kita masuk ke bagian utama, yaitu cara membuat correlation matrix.
1. Menggunakan Fungsi .corr() di Pandas
Pandas menyediakan fungsi bawaan untuk menghitung korelasi antar kolom numerik.
corr_matrix = df.corr()
print(corr_matrix)
Dengan kode ini, kamu akan mendapatkan sebuah tabel korelasi antara semua kolom numerik yang ada di dataset kamu. Ini adalah langkah dasar dalam memahami hubungan antar variabel.
2. Pilihan Metode Korelasi
Kalau kamu ingin mencoba metode lain selain Pearson (default), kamu bisa menggunakan Spearman atau Kendall.
corr_spearman = df.corr(method=’spearman’)
Spearman cocok digunakan jika datamu tidak terdistribusi normal atau mengandung outlier.
Visualisasi Correlation Matrix
Melihat angka-angka di correlation matrix memang informatif, tapi bisa jadi membingungkan kalau jumlah kolomnya banyak. Nah, di sinilah visualisasi berperan besar.
1. Heatmap dengan Seaborn
Seaborn menyediakan fungsi heatmap yang sangat berguna untuk melihat pola korelasi secara visual.
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap=’coolwarm’)
plt.title(‘Correlation Matrix Heatmap’)
plt.show()
Dengan heatmap, kamu bisa dengan mudah melihat mana variabel yang punya hubungan kuat, sedang, atau lemah.
Interpretasi Correlation Matrix
Sudah punya correlation matrix? Bagus! Sekarang saatnya memahami apa arti dari angka-angka itu.
1. Kekuatan dan Arah Hubungan
Angka korelasi bisa dibaca sebagai berikut:
- 0,7 sampai 1 menunjukkan hubungan kuat
- 0,4 sampai 0,7 berarti hubungan sedang
- 0,1 sampai 0,4 menandakan hubungan lemah
- Mendekati 0 artinya hampir tidak ada hubungan
Jangan lupa juga memperhatikan apakah nilainya positif atau negatif. Korelasi positif berarti kedua variabel naik bersama-sama, sedangkan korelasi negatif berarti satu naik, satu turun.
Aplikasi Correlation Matrix
Correlation matrix bukan cuma alat analisis biasa, tapi bisa membantu dalam banyak hal. Mulai dari pemilihan fitur untuk machine learning hingga strategi bisnis.
1. Feature Selection untuk Machine Learning
Kalau dua kolom punya korelasi sangat tinggi, bisa jadi kamu hanya perlu salah satunya untuk model kamu. Ini membantu menghindari masalah multikolinearitas.
2. Evaluasi Strategi Bisnis
Misalnya kamu punya data penjualan dan promosi, dan melihat korelasi positif tinggi di antara keduanya, ini bisa jadi insight bahwa promosi memang berdampak besar pada penjualan.
Kesimpulan
Membuat correlation matrix itu nggak sulit, tapi punya dampak besar. Dengan memahami cara membuat correlation matrix, kamu bisa menganalisis hubungan antar variabel secara lebih efektif.
Mulai dari persiapan data, pembuatan matrix dengan .corr(), hingga visualisasi dan interpretasi, semua langkah itu bisa membantu kamu mengambil keputusan yang lebih cerdas berbasis data.
Jadi, yuk mulai praktik dan eksplorasi correlation matrix di dataset kamu sendiri!
Leave a Reply