Pandas menjadi library utama yang menarik, ini berisi struktur data tingkat tinggi dan alat manipulasi yang dirancang untuk membuat data analisis cepat dan mudah dengan Python. pandas dibangun di atas NumPy dan membuatnya mudah untuk digunakan dalam aplikasi NumPy-sentris.
Untuk memulai dengan pandas, kamu harus merasa nyaman dengan dua workhorse struktur data yaitu Series dan DataFrame. Meskipun mereka bukan solusi universal untuk setiap problem yang ada, mereka memberikan dasar yang kokoh dan mudah digunakan untuk sebagian besar aplikasi.
Series
Series adalah objek seperti array satu dimensi yang berisi data array (Tipe data NumPy) dan array dari label data terkait. Yang paling sederhana Series terbentuk hanya dari array data:
In [4]:
import pandas as pd
object = pd.Series([4,3,-6,7])
In [5]: object
Out[5]:
0 4
1 3
2 -6
3 7
Representasi string dari Series yang ditampilkan secara interaktif menunjukkan indeks di sebelah kiri dan nilai-nilai di sebelah kanan. Karena kita tidak menentukan indeks untuk data, default yang terdiri dari bilangan bulat 0 hingga N - 1 (di mana N adalah panjang data). Kita bisa mendapatkan representasi array dan objek indeks dari Series melalui nilainya dan atribut indeks, masing-masing:
In [6]: object.values
Out[6]: array([ 4, 3, -6, 7], dtype=int64)
In [7]: object.index
Out[7]: RangeIndex(start=0, stop=4, step=1)
Seringkali akan diinginkan untuk membuat Series dengan indeks yang mengidentifikasi setiap data point :
In [8]: obj = pd.Series([4,3,-6,7], index=['d', 'b', 'a', 'c'])
In [9]: obj
Out[9]:
d 4
b 3
a -6
c 7
In [10]: obj.index
Out[10]: Index(['d', 'b', 'a', 'c'], dtype='object')
Dibandingkan dengan array NumPy biasa, kita dapat menggunakan nilai dalam indeks saat memilih
nilai tunggal atau sekumpulan nilai:
In [11]: obj['a']
Out[11]: -6
In [12]: obj['c'] =9
In [13]: obj[['c', 'a', 'd']]
Out[13]:
c 9
a -6
d 4
No comments: