sharing for blogger

Jumat, 20 April 2012

Data Mining (Smoothing Data By Median Binning Technique)

Berikut Data Penghasilan Siswa dari pekerjaan paruh waktu sepanjang liburan lalu (dalam ribuan Rupiah)

xx=29
a
xx * 10
j
xx * 23
s
xx * 13
b
xx * 15
k
xx * 29
t
xx * 20
c
xx * 13
l
xx * 26
u
xx * 34
d
xx * 12
m
xx * 35
v
xx * 27
e
xx * 19
n
xx * 24
w
xx * 33
f
xx * 16
o
xx * 25
x
xx * 50
g
xx * 17
p
xx * 31
y
xx * 43
h
xx * 18
q
xx * 32
z
xx * 11
i
xx * 14
r
xx * 28
aa
xx * 37

Data Hasil perkalian dengan nilai xx:
a
290
j
667
s
377
b
435
k
841
t
580
c
377
l
754
u
986
d
348
m
1015
v
783
e
551
n
696
w
957
f
464
o
725
x
1450
g
493
p
899
y
1247
h
522
q
928
z
319
i
406
r
812
aa
1073

Berikut Sorted Data, yaitu hasil pengurutan data terkecil ke data yang terbesar:
a
290
z
319
d
348
c
377
s
377
i
406
b
435
f
464
g
493
h
 522
e
551
t
580
j
 667
 n
 696
 o
 725
 l
 754
 v
 783
 r
 812
 k
 841
 p
 899
 q
 928
 w
 957
 u
 986
 m
 1015
 aa
 1073
 y
 1247
 x
 1450

Partisi kedalam Bin:
Bin 1: 290, 319, 348, 377, 377, 406, 435, 464, 493
Bin 2: 522, 551, 580, 667, 696, 725, 754, 783, 812
Bin 3: 841, 899, 928, 957, 986, 1015, 1073, 1247, 1450

Smoothing Data dengan Teknik Bin Median:
Bin 1: 377, 377, 377, 377, 377, 377, 377, 377, 377
Bin 2: 696, 696, 696, 696, 696, 696, 696, 696, 696
Bin 3: 1073, 1073, 1073, 1073, 1073, 1073, 1073, 1073, 1073

Jumat, 13 April 2012

Data Mining (Accuracy, Completeness, and Consistency of Database)


Berikut adalah contoh database yang berisi ketidakakuratan, ketidaklengkapan dan inkonsistensi
Nama
Stambuk
Tanggal Lahir
Jurusan
Penghasilan Orang Tua
Astari Widyastuti
E1A10129
05-04-1992
Teknik Sipil
± Rp. 1.200.000,-
Andika Permana
E1E108157
23/03/1990

± Rp. 1.350.000,-
Ana Assyifa
E1B110015
08/12/1991
Teknik Arsitektur
± Rp. 2.000.000,-
Elisya Ragilis
E1E110134
12/07/1993
Teknik Informatika
± Rp. 1.4000.000,-
Salman Ali Gifari
E1E110147
1992/11/29
Teknik Informatika
± Rp. 2.050.000,-
Yeni Purbaningrum
E1A109070
1991/01/31

± Rp. 1.800.000,-
  Database Penerima Beasiswa BBM Fakultas Teknik

  • Ketidakakuratan data terletak pada atribut Penghasilan Orang Tua yang menggunakan simbol "±" untuk menyatakan data dari atribut tersebut
  • Ketidaklengkapan data terdapat pada atribut jurusan, dimana 2 dari 6 kolom pada atribut tersebut tidak terisi
  • Inkonsistensi data dapat terlihat pada atribut Tanggal Lahir. Terdapat 3 jenis format data yang berbeda yaitu "Tanggal-Bulan-Tahun", "Tanggal/Bulan/Tahun" dan "Tahun/Bulan/Tanggal"
 
Sebuah database yang baik adalah database yang memenuhi kriteria keakuratan (Accuracy), kelengkapan (Completeness) dan konsistensi (Consistency). Maka untuk mendapatkan database Penerima Beasiswa BBM Fakultas Teknik yang memenuhi syarat, perlu dilakukan pendataan ulang dan penyusunan database baru.
 
Database yang memenuhi syarat sebagai hasil perbaikan dari database diatas adalah:

Nama
Stambuk
Tanggal Lahir
Jurusan
Penghasilan Orang Tua
Astari Widyastuti
E1A10129
1992/04/05
Teknik Sipil
Rp. 1.200.000,-
Andika Permana
E1E108157
1990/03/23
Teknik Informatika
Rp. 1.350.000,-
Ana Assyifa
E1B110015
1991/12/08
Teknik Arsitektur
Rp. 2.000.000,-
Elisya Ragilis
E1E110134
1993/07/12
Teknik Informatika
Rp. 1.4000.000,-
Salman Ali Gifari
E1E110147
1992/11/29
Teknik Informatika
Rp. 2.050.000,-
Yeni Purbaningrum
E1A109070
1991/01/31
 Teknik Sipil
Rp. 1.800.000,-