BELAJAR ANALISIS DAN BAHASA PEMROGRAMAN

Pembahasan Pemeriksaan Data (Outlier, Missing dan Kenormalan)

Assalamualaikum
waa apa kabar masih kuat kan puasanya mumpung bentar lagi mau buka puasa enaknya ngepost dululah. Pada post kali ini akan dilakukan pembahasan atas post sebelumnya yaitu tentang pemeriksaan data
Pemeriksaan Data Missing dan Data Outlier

Gambar 1. Import data ke R

Data diatas merupakan data yang dipanggil praktikan dari excel yaitu dari kolom ke-3 sampai ke-5 yaitu terdapat 3 variabel. Dari gambar diatas dapat dilihat bahwa terdapat nilai yang kosong atau missing.

Gambar 2. Deskriptif data lap2

Dari data yang diberikan dapat dilihat summary data dari variabel agriculture value added, claims on central government, claim on other sector dimana terdapat nilai min, quartil 1, median , mean quartil 3 max dan data missing. Dari gambar diatas dapat dilihat nilai min terkecil yaitu pada variabel claims on central government dengan -90.747, nilai quartile 1 yang paling besar adalah claim on other sector dengan 27.91. Kemudian untuk data missing paling banyak yaitu pada variabel claim on other sector dengan 71 data.

Gambar 3. Struktur dari variabel

Dari gambar diatas dapat dilihat struktur data yang diberikan dari 3 variabel yaitu number. Untuk data country dan country code termasuk data character.

Gambar 4. Menghilangkan missing data

Syntax na.omit digunakan untuk menghilangkan atau menghapus data missing kemudian didapat output  seperti gambar diatas dengan sudah tidak adanya data missing. Dengan begitu hasil dari summary data juga akan berbeda. Tetapi pada data tersebut masih terdapat outlier yang harus di hilangkan.

 
Gambar 5. Menghilangkan data outlier

Dari output  diatas dapat dilihat bahwa terdapat nilai outlier ini ditandakan pada kolom outlier tertulis true yang artinya data tersebut benar outlier. Kemudian newdata ini merupakan data baru yang outliernya telah dibuang sehingga data baru tersebut sudah terlepas dari outlier dan data missing.
 
Gambar 6. Chi-Square Q-Q Plot

Dari grafik di atas juga dapat dilihat bahwa jumlah data yang outlier ada 19 kemudian yang tidak outlier bersisa 109. Dari 200an data setelah dihilangkan nilai missing dan nilai outlier bersisa 109 data yang bisa digunakan.

Gambar 7. Menggunkan data baru
Setelah data dibersihkan dari data outlier dan data missing didapat data baru, kemudian dari data baru tersebut dilihat summary data (deskriptif) didapat nilainya seperti output  gambar diatas.

Gambar 8. Chi-Square Q-Q plot
Berdasarkan gambar diatas dapat dijelaskan bahwa secara visual data tidak berdistribusi normal, karena terdapat sejumlah data yang terletak jauh atau di luar garis lurus. Namun untuk memastikannya apakah data berdistribusi normal, dilakukan uji normalitas dengan hipotesis.

Gambar 9. Metode Henze-Zirkler’s  
Setelah data dibersihkan kemudian saatnya melihat kenormalan dari 3 variabel tersebut dengan menggunakan metode Henze-Zirkler’s  sehingga didapat nilai
a. Uji Hipotesis
H0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 0,00011
d. Keputusan p-value < α yaitu 0,00011 < 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 0,00011 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.

Gambar 10. RoystonTest
a. Uji Hipotesis
H0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 1.481031e-08
d. Keputusan p-value < α yaitu 1.481031e-08< 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 1.481031e-08 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.

Mungkin sekian untuk kali ini semoga puasanya pada lancar, thanksss

Pembahasan Pemeriksaan Data (Outlier, Missing dan Kenormalan) Pembahasan Pemeriksaan Data (Outlier, Missing dan Kenormalan) Reviewed by Jimmy Pujoseno on May 27, 2017 Rating: 5

1 comment:

Recent Post

Powered by Blogger.