sharing for blogger

Minggu, 25 Maret 2012

Data Mining (contoh Attribute)

Beberapa Attribute yang dikenal dalam Data Mining, yaitu:


1.          Nominal Atribut
Nominal Atribut adalah atribut yang digunakan untuk mengklasifikasikan informasi/data. Nilai dari atribut nominal adalah simbol atau nama-nama benda. Nilai-nilai ini tidak memiliki makna (arti). Nominal Atribut adalah tipe data diskrit yang tidak mengenal tata urutan.
Contoh:
Objek nominal atribut yaitu Pegawai;
a)      Nama (misalnya Rahayani, Irma, Rini, Ningrum, Ijal)
b)     Umur (misalnya 17 tahun, 18 tahun, 19 tahun, dst)
c)      Nomor Induk Pegawai
d)     Gaji
e)     Golongan (misalnya PNS III C, PNS IIID, dll)

2.      Biner Atribut
Biner tribut adalah atribut dengan hanya dua kategori atau menyatakan: 0 atau 1. 0 biasanya berarti bahwa atribut tidak hadir, dan 1 berarti bahwa itu hadir. Atribut biner terbagi atas atribut symmetris dan  asymmetris. Berikut adalah contoh biner atribut:
contoh:
a)      Status kewarganegaraan Indonesia (WNI dan WNA)
b)     Jenis kelamin (Laki-laki dan Perempuan) ; asymmetris atribut
c)      Jaringan: Connect dan disconnect
d)     Tombol pada saklar lampu (On dan Off)
e)      Status Handphone (Aktif dan Nonaktif)

3.    Ordinal Atribut
Ordinal Attribute merupakn jenis atribut yang memiliki nilai yang dapat berarti apabila diurutkan, baik dari tinggi ke rendah maupun dari rendah ke tinggi, namun jarak antara setiap nilai tersebut tidak diketahui berapa besar nilainya. Berikut adalah contoh ordinal atribut:
a)      Suhu (dingin, normal, hangat, panas)
b)     Ukuran(Kecil, besar, sedang).
c)      Pertumbuhan Manusia (Bayi, balita, anak-anak, remaja, dewasa, manula)
d)     Ukuran ketinggian (rendah, sedang, tinggi)
e)     Pencahayaan (gelap, redup, terang)

4.      Atribut Numerik
Atribut numerik merupakan atribut yang  kuantitatif yaitu dimana kuantitasnya dapat terukur dan dtuliskan dalam bentuk nilai integer atau nilai nyata. Angka nol pada Numeric Attribute juga memiliki arti ataupun nilai. Atribut ini dapat menjadi interval skala atau rasio-skala, median, dan modus nilai. Berikut adalah contoh numerik atribut:
a)      Tahun (Sebelum dan Sesudah Masehi), sebelum masehi tahun dihitung mundur dan sesudah masehi di hitung seperti sekarang ini.
 b)     Garis Perhitungan matematika (untuk nilai negative kekiri: dst -3,-2,-1,0 dan untuk nilai positif kekanan: 0, 1, 2, 3, 4, dst)
c)      Temperatur Suhu (0’,10’,50’…dst), 0’ bukan berarti tidak ada suhu saat itu.
d)     Perhitungan jam (jam 00:00 AM, bukan berarti tidak ada waktu pada saat itu )
e)      Koordinat titik suatu wilayah {(0,0),(0,1),(0,2)…dst.

Minggu, 18 Maret 2012

Data Mining (Mengidentifikasi Outlier)

Outliers (pencilan data) adalah data observasi yang muncul dengan  nilai-nilai ekstrim baik secara univariat maupun multivariat. Data ekstrim tersebut muncul karena berbagai kemungkinan: 1) kesalahan prosedur dalam memasukkan data atau mengkoding, 2) karena keadaan yang benar-benar khusus, seperti pandangan responden terhadap sesuatu yang menyimpang, 3) karena ada sesuatu alasan yang tidak diketahui penyebabnya oleh peneliti,  4) muncul dalam range nilai yang ada, tetapi bila dikombinasi dengan variabel lain menjadi ekstrim (disebut multi variat outliers).

Outliers adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi

Kali ini saya akan mengambil contoh kasus outlier pada penjualan kue kering yang dikemas dalam kemasan toples Pada tahun 2011. Setiap bulan, rata-rata penjualan kue kering mencapai 300-400 toples. namun di bulan September, penjualan kue kering mencapai 704 toples.
 Dari data penjualan diatas,kita dapat mengidentifikasi outlier sengan 2 metode, yaitu :

1. Metode Grafis

Untuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan
memplot antara data dengan observasi ke-i ( i = 1, 2, 3, ..., n ).

Dari contoh di atas terdapat salah satu data, yakni observasi data ke-9 yang mengindikasikan merupakan outlier. Selain melalui scatter-plot di atas, jika sudah didapatkan model regresi maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya outlier.
Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan outlier sangat bergantng pada judgement peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot grafis tersebut.

2. Teknik Statistik

Metode ini merupakan yang paling umum yakni dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 – Q1.
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.  Cara ini terbilang sangat sederhana untuk mengidentifikasi outlier dari data terhadap penjualan kue kering tersebut. Pertama kita tentukan rata-rata dan standar deviasi. Kemudian akan terbentuk threshold (rata-rata – 2 standar deviasi, rata-rata + 2 standar deviasi). Kemudian semua data yang berada diluar kisaran threshold, maka berpotensi untuk dianggap sebagai outlier.

Perkiraan Identifikasi penyebab Outlier:

Bulan September tahun 2011 merupakan bulan dimana umat muslim merayakan idul fitri. Pada momen ini, permintaan konsumen terhadap persediaan kue kering meningkat sebagai akibat dari perbekalan umat muslim dalam menyambut hari raya idul fitri. Untuk itu, produsen kue kering seharusnya menyiapkan persediaan/stok kue kering dalam jumlah yg cukup untuk memenuhi permintaan konsumen.

Kesimpulan:

Kedua metode diatas, sangat efektif untuk mendeteksi outlier. Namun metode Perhitungan Statistik lebih dapat diandalkan mengingat metode ini menghitung quantitas data secara pasti dibandingkan metode Grafis yang meninjau data dari segi visual.