sharing for blogger

Minggu, 18 Maret 2012

Data Mining (Mengidentifikasi Outlier)

Outliers (pencilan data) adalah data observasi yang muncul dengan  nilai-nilai ekstrim baik secara univariat maupun multivariat. Data ekstrim tersebut muncul karena berbagai kemungkinan: 1) kesalahan prosedur dalam memasukkan data atau mengkoding, 2) karena keadaan yang benar-benar khusus, seperti pandangan responden terhadap sesuatu yang menyimpang, 3) karena ada sesuatu alasan yang tidak diketahui penyebabnya oleh peneliti,  4) muncul dalam range nilai yang ada, tetapi bila dikombinasi dengan variabel lain menjadi ekstrim (disebut multi variat outliers).

Outliers adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi

Kali ini saya akan mengambil contoh kasus outlier pada penjualan kue kering yang dikemas dalam kemasan toples Pada tahun 2011. Setiap bulan, rata-rata penjualan kue kering mencapai 300-400 toples. namun di bulan September, penjualan kue kering mencapai 704 toples.
 Dari data penjualan diatas,kita dapat mengidentifikasi outlier sengan 2 metode, yaitu :

1. Metode Grafis

Untuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan
memplot antara data dengan observasi ke-i ( i = 1, 2, 3, ..., n ).

Dari contoh di atas terdapat salah satu data, yakni observasi data ke-9 yang mengindikasikan merupakan outlier. Selain melalui scatter-plot di atas, jika sudah didapatkan model regresi maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya outlier.
Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan outlier sangat bergantng pada judgement peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot grafis tersebut.

2. Teknik Statistik

Metode ini merupakan yang paling umum yakni dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 – Q1.
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.  Cara ini terbilang sangat sederhana untuk mengidentifikasi outlier dari data terhadap penjualan kue kering tersebut. Pertama kita tentukan rata-rata dan standar deviasi. Kemudian akan terbentuk threshold (rata-rata – 2 standar deviasi, rata-rata + 2 standar deviasi). Kemudian semua data yang berada diluar kisaran threshold, maka berpotensi untuk dianggap sebagai outlier.

Perkiraan Identifikasi penyebab Outlier:

Bulan September tahun 2011 merupakan bulan dimana umat muslim merayakan idul fitri. Pada momen ini, permintaan konsumen terhadap persediaan kue kering meningkat sebagai akibat dari perbekalan umat muslim dalam menyambut hari raya idul fitri. Untuk itu, produsen kue kering seharusnya menyiapkan persediaan/stok kue kering dalam jumlah yg cukup untuk memenuhi permintaan konsumen.

Kesimpulan:

Kedua metode diatas, sangat efektif untuk mendeteksi outlier. Namun metode Perhitungan Statistik lebih dapat diandalkan mengingat metode ini menghitung quantitas data secara pasti dibandingkan metode Grafis yang meninjau data dari segi visual.

Tidak ada komentar:

Posting Komentar