Assalamualaikum
waa apa kabar masih kuat kan puasanya mumpung bentar lagi mau buka puasa enaknya ngepost dululah. Pada post kali ini akan dilakukan pembahasan atas post sebelumnya yaitu tentang pemeriksaan data
Pemeriksaan Data Missing dan Data Outlier
Data diatas merupakan data yang dipanggil praktikan dari excel yaitu dari kolom ke-3 sampai ke-5 yaitu terdapat 3 variabel. Dari gambar diatas dapat dilihat bahwa terdapat nilai yang kosong atau missing.
Dari data yang diberikan dapat dilihat summary data dari variabel agriculture value added, claims on central government, claim on other sector dimana terdapat nilai min, quartil 1, median , mean quartil 3 max dan data missing. Dari gambar diatas dapat dilihat nilai min terkecil yaitu pada variabel claims on central government dengan -90.747, nilai quartile 1 yang paling besar adalah claim on other sector dengan 27.91. Kemudian untuk data missing paling banyak yaitu pada variabel claim on other sector dengan 71 data.
Dari gambar diatas dapat dilihat struktur data yang diberikan dari 3 variabel yaitu number. Untuk data country dan country code termasuk data character.
Syntax na.omit digunakan untuk menghilangkan atau menghapus data missing kemudian didapat output seperti gambar diatas dengan sudah tidak adanya data missing. Dengan begitu hasil dari summary data juga akan berbeda. Tetapi pada data tersebut masih terdapat outlier yang harus di hilangkan.
Dari output diatas dapat dilihat bahwa terdapat nilai outlier ini ditandakan pada kolom outlier tertulis true yang artinya data tersebut benar outlier. Kemudian newdata ini merupakan data baru yang outliernya telah dibuang sehingga data baru tersebut sudah terlepas dari outlier dan data missing.
Dari grafik di atas juga dapat dilihat bahwa jumlah data yang outlier ada 19 kemudian yang tidak outlier bersisa 109. Dari 200an data setelah dihilangkan nilai missing dan nilai outlier bersisa 109 data yang bisa digunakan.
a. Uji Hipotesis
H0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 0,00011
d. Keputusan p-value < α yaitu 0,00011 < 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 0,00011 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.
H0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 1.481031e-08
d. Keputusan p-value < α yaitu 1.481031e-08< 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 1.481031e-08 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.
Mungkin sekian untuk kali ini semoga puasanya pada lancar, thanksss
waa apa kabar masih kuat kan puasanya mumpung bentar lagi mau buka puasa enaknya ngepost dululah. Pada post kali ini akan dilakukan pembahasan atas post sebelumnya yaitu tentang pemeriksaan data
Pemeriksaan Data Missing dan Data Outlier
Gambar 1. Import data ke R
Gambar 2. Deskriptif data lap2
Gambar 3. Struktur dari variabel
Gambar 4. Menghilangkan missing data
Gambar 5. Menghilangkan data outlier
Gambar 6. Chi-Square Q-Q Plot
Gambar 7. Menggunkan data baru
Setelah data dibersihkan dari data outlier dan data missing didapat data baru, kemudian dari data baru tersebut dilihat summary data (deskriptif) didapat nilainya seperti output gambar diatas.
Gambar 8. Chi-Square Q-Q plot
Berdasarkan gambar diatas dapat dijelaskan bahwa secara visual data tidak berdistribusi normal, karena terdapat sejumlah data yang terletak jauh atau di luar garis lurus. Namun untuk memastikannya apakah data berdistribusi normal, dilakukan uji normalitas dengan hipotesis.
Gambar 9. Metode Henze-Zirkler’s
Setelah data dibersihkan kemudian saatnya melihat kenormalan dari 3 variabel tersebut dengan menggunakan metode Henze-Zirkler’s sehingga didapat nilaia. Uji Hipotesis
H0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 0,00011
d. Keputusan p-value < α yaitu 0,00011 < 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 0,00011 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.
Gambar 10. RoystonTest
a. Uji HipotesisH0 = Data berdistribusi normal multivariat
H1 = Data berdistribusi tidak normal multivariat
b. Tingkat signifikansi 5%
c. Statistic Uji yang digunakan adalah jika p-value < α maka tolak H0 dan sebaliknya jika p-value > α maka gagal tolak H0. Berdasarkan gambar nilai p-value 1.481031e-08
d. Keputusan p-value < α yaitu 1.481031e-08< 0,005 maka tolak H0. ¬
e. Kesimpulannya adalah berdasarkan keputusan yang diperoleh yaitu tolak H0 karena 1.481031e-08 < 0,005 maka dapat dikatakan data yang diberikan tidak berdistribusi normal multivariat.
Mungkin sekian untuk kali ini semoga puasanya pada lancar, thanksss
Pembahasan Pemeriksaan Data (Outlier, Missing dan Kenormalan)
Reviewed by Jimmy Pujoseno
on
May 27, 2017
Rating:
sumber data nya apa ya?
ReplyDelete