Tutorial Python Pandas: Pelajari Pandas untuk Analisis Data



Dalam tutorial Python Pandas ini, anda akan mempelajari pelbagai operasi Pandas. Ini juga termasuk kasus penggunaan, di mana Anda dapat menganalisis data menggunakan Pandas.

Di blog ini, kita akan membincangkan analisis data menggunakan Pandas di Python.Hari ini, adalah kemahiran panas dalam industri yang melepasi PHP pada tahun 2017 dan C # pada tahun 2018 dari segi populariti dan penggunaan keseluruhan.Sebelum bercakap mengenai Pandas, seseorang mesti memahami konsep susunan Numpy. Kenapa? Kerana Pandas adalah perpustakaan perisian sumber terbuka yang dibina di atas . Dalam Tutorial Python Pandas ini, saya akan membincangkan topik berikut, yang akan menjadi asas untuk blog yang akan datang:

Mari kita mulakan. :-)





Apa itu Python Pandas?

Pandas digunakan untuk manipulasi data, analisis dan pembersihan. Panda Python sangat sesuai untuk pelbagai jenis data, seperti:

  • Data jadual dengan lajur yang ditaip secara heterogen
  • Data siri masa yang teratur dan tidak tersusun
  • Data matriks sewenang-wenang dengan label baris & lajur
  • Data tidak berlabel
  • Sebarang bentuk set data pemerhatian atau statistik yang lain

Bagaimana cara memasang Pandas?

Untuk memasang Python Pandas, pergi ke baris perintah / terminal anda dan ketik 'pip install panda' atau yang lain, jika anda telah memasang anaconda dalam sistem anda, cukup ketik 'conda install panda'. Setelah pemasangan selesai, pergi ke IDE anda (Jupyter, PyCharm dll) dan hanya mengimportnya dengan menaip: 'import panda sebagai pd'



Untuk maju dalam tutorial panda Python, mari kita lihat beberapa operasinya:

Operasi Python Pandas

Dengan menggunakan panda Python, anda boleh melakukan banyak operasi dengan siri, bingkai data, data yang hilang, kumpulan mengikut dll. Beberapa operasi biasa untuk manipulasi data disenaraikan di bawah:



PandasOperations - Tutorial Python Pandas - Edureka

Sekarang, mari kita fahami semua operasi ini satu persatu.

Memotong Bingkai Data

Untuk melakukan pemotongan data, anda memerlukan kerangka data. Jangan risau, bingkai data adalah struktur data 2 dimensi dan objek panda yang paling biasa. Jadi pertama, mari buat bingkai data.

Rujuk kod di bawah untuk pelaksanaannya di PyCharm:

import panda sebagai pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Pelawat': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) cetakan (df)

Pengeluaran :

Bounce_Rate Pelawat Hari 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Kod di atas akan mengubah kamus menjadi Panda Data Frame bersama dengan indeks ke kiri. Sekarang, mari kita potong lajur tertentu dari kerangka data ini. Rujuk gambar di bawah:

cetak (df.head (2))

Pengeluaran:

Pelawat Bounce_Rate Day 0 20 1 1000 1 20 2 700

Begitu juga, jika anda mahukan dua baris terakhir data, ketik perintah di bawah:

cetak (df.tail (2))

Pengeluaran:

Pelawat Bounce_Rate Day 4 10 5 400 5 34 6 350

Selanjutnya dalam tutorial Python Pandas, marilah kita melakukan penggabungan dan bergabung.

Menggabungkan & Bergabung

Dalam penggabungan, anda boleh menggabungkan dua bingkai data untuk membentuk satu bingkai data. Anda juga boleh menentukan lajur mana yang ingin anda umumkan. Izinkan saya melaksanakannya secara praktikal, pertama saya akan membuat tiga bingkai data, yang mempunyai beberapa pasangan nilai-kunci dan kemudian menggabungkan bingkai data tersebut. Rujuk kod di bawah:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Pengeluaran:

import panda sebagai pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) digabungkan = pd.merge (df1, df2) cetak (digabungkan)

Seperti yang anda lihat di atas, kedua bingkai data telah bergabung menjadi satu kerangka data tunggal. Sekarang, anda juga boleh menentukan lajur yang ingin anda umumkan. Sebagai contoh, saya mahu lajur “HPI” menjadi umum dan untuk semua yang lain, saya mahu lajur yang berasingan. Oleh itu, izinkan saya melaksanakannya secara praktikal:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) bergabung = pd.merge (df1, df2, on = 'HPI') cetakan (digabungkan)

Pengeluaran:

IND_GDP Int_Rate Low_Tier_HPI Pengangguran 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Seterusnya, mari kita fahami bergabung dalam tutorial python panda. Ini adalah kaedah lain yang mudah untuk menggabungkan dua kerangka data yang diindeks secara berbeza menjadi satu kerangka data hasil tunggal. Ini sangat mirip dengan operasi 'penggabungan', kecuali operasi bergabung akan berada di 'indeks' dan bukan 'lajur'. Marilah kita melaksanakannya secara praktikal.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Pengangguran': [1,3,5,6]}, indeks = [2001, 2003,2004,2004]) bergabung = df1. gabung (df2) cetak (bergabung)

Pengeluaran:

IND_GDP Int_Rate Low_Tier_HPI Pengangguran 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Seperti yang anda perhatikan pada output di atas, pada tahun 2002 (indeks), tidak ada nilai yang melekat pada lajur 'low_tier_HPI' dan 'pengangguran', oleh itu ia telah mencetak NaN (Bukan Nombor). Kemudian pada tahun 2004, kedua-dua nilai tersedia, oleh itu ia telah mencetak nilai masing-masing.

Anda boleh melalui rakaman tutorial Python Pandas ini di mana pengajar kami telah menerangkan topik secara terperinci dengan contoh yang akan membantu anda memahami konsep ini dengan lebih baik.

Python Untuk Analisis Data | Tutorial Python Pandas | Latihan Python | Edureka


Melangkah dalam tutorial Python pandas, mari kita memahami bagaimana menggabungkan dua bingkai data.

Gabungan

Gabungan pada dasarnya melekatkan kerangka data bersama. Anda boleh memilih dimensi yang ingin anda gabungkan. Untuk itu, cukup gunakan 'pd.concat' dan masukkan senarai bingkai data untuk digabungkan bersama. Pertimbangkan contoh di bawah.

perduaan hingga perpuluhan dalam java
df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) cetak (ringkas)

Pengeluaran:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Seperti yang anda lihat di atas, kedua kerangka data disatukan dalam satu bingkai data, di mana indeks bermula dari tahun 2001 hingga 2008. Seterusnya, anda juga dapat menentukan paksi = 1 untuk bergabung, bergabung atau dibatalkan sepanjang lajur. Rujuk kod di bawah:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) cetak (ringkas)

Pengeluaran:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

Seperti yang anda dapat di atas, terdapat banyak nilai yang hilang. Ini berlaku kerana kerangka data tidak mempunyai nilai untuk semua indeks yang ingin anda gabungkan. Oleh itu, anda harus memastikan bahawa anda mempunyai semua maklumat yang disusun dengan betul semasa anda bergabung atau bergabung pada paksi.

Tukar indeks

Selanjutnya dalam tutorial python panda, kita akan memahami cara mengubah nilai indeks dalam kerangka data. Sebagai contoh, marilah kita membuat kerangka data dengan beberapa pasangan nilai utama dalam kamus dan mengubah nilai indeks. Pertimbangkan contoh di bawah:

Mari kita lihat bagaimana ia sebenarnya berlaku:

import panda sebagai pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) cetakan df.set_index ('Day', inplace = True) (df)

Pengeluaran:

Bounce_Rate Pelawat Hari 1 20 200 2 45 100 3 60 230 4 10 300

Seperti yang anda perhatikan dalam output di atas, nilai indeks telah diubah sehubungan dengan kolom 'Hari'.

Tukar Tajuk Lajur

Mari kita ubah tajuk lajur dalam tutorial panda python ini. Mari kita ambil contoh yang sama, di mana saya akan mengubah tajuk lajur dari 'Pengunjung' menjadi 'Pengguna'. Oleh itu, izinkan saya melaksanakannya secara praktikal.

import panda sebagai pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (lajur = {'Pelawat': 'Pengguna'}) cetak (df)

Pengeluaran:

Pengguna Bounce_Rate Day 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Seperti yang anda lihat di atas, tajuk lajur 'Pengunjung' telah diubah menjadi 'Pengguna'. Selanjutnya dalam tutorial python panda, mari kita melakukan pemetaan data.

Data Munging

Dalam Data munging, anda dapat menukar data tertentu ke format yang lain. Sebagai contoh, jika anda mempunyai fail .csv, anda boleh menukarnya menjadi .html atau format data lain juga. Oleh itu, izinkan saya melaksanakannya secara praktikal.

import panda sebagai pd negara = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-employmentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Setelah anda menjalankan kod ini, file HTML akan dibuat bernama 'edu.html'. Anda boleh menyalin jalan fail secara langsung dan menampalnya di penyemak imbas anda yang memaparkan data dalam format HTML. Rujuk tangkapan skrin di bawah:


Selanjutnya dalam tutorial python panda, mari kita lihat kes penggunaan yang membicarakan pengangguran remaja global.

rekursi fibonacci c ++

Tutorial Python Pandas: Use Case untuk Menganalisis Data Pengangguran Remaja

Pernyataan masalah :Anda diberi set data yang merangkumi peratusan belia menganggur di peringkat global dari tahun 2010 hingga 2014. Anda harus menggunakan set data ini dan mencari perubahan peratusan belia untuk setiap negara dari tahun 2010-2011.

Pertama, mari kita memahami set data yang mengandungi lajur sebagai Nama Negara, Kod Negara dan tahun dari 2010 hingga 2014. Sekarang menggunakan panda, kita akan menggunakan 'pd.read_csv' untuk membaca file format fail .csv.
Rujuk tangkapan skrin di bawah:

Mari kita terus maju dan melakukan analisis data di mana kita akan mengetahui peratusan perubahan dalam jumlah belia yang menganggur antara tahun 2010 hingga 2011. Kemudian kita akan memvisualisasikan yang sama perpustakaan, yang merupakan perpustakaan yang kuat untuk visualisasi di Python. Ia dapat digunakan dalam skrip Python, shell, pelayan aplikasi web dan alat alat GUI yang lain. Anda boleh menggunakan baca lebih lanjut di sini:

Sekarang, mari kita laksanakan kod di PyCharm:

import panda sebagai pd import matplotlib.pyplot sebagai plt dari matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-employmentAPI_ILO_country_YU.csv', index_col = 0) df = negara. kepala (5) df = df.set_index (['Country Code']) sd = sd.reindex (columns = ['2010', '2011']) db = sd.diff (axis = 1) db.plot (jenis = 'bar') plt.show ()

Seperti yang anda lihat di atas, saya telah melakukan analisis pada 5 baris teratas kerangka data negara. Seterusnya, saya telah menentukan nilai indeks sebagai 'Kod Negara' dan kemudian mengindeks semula lajur ke 2010 dan 2011. Kemudian, kita mempunyai satu lagi db dataframe, yang mencetak perbezaan antara dua lajur atau peratusan perubahan pemuda pengangguran dari 2010 hingga 2011. Akhirnya, saya telah membuat plot barplot menggunakan perpustakaan Matplotlib di Python.


Sekarang jika anda perhatikan di plot di atas, di Afghanistan (AFG) antara tahun 2010 hingga 2011, terdapat peningkatan dalam jumlah pemuda pengangguran sekitar. 0.25%. Kemudian di Angola (AGO), terdapat kecenderungan negatif yang bermaksud bahawa peratusan belia yang menganggur telah dikurangkan. Begitu juga, anda boleh melakukan analisis pada kumpulan data yang berbeza.

Saya harap blog saya di 'Python Pandas Tutorial' relevan untuk anda. Untuk mendapatkan pengetahuan mendalam mengenai python bersama dengan pelbagai aplikasinya, anda boleh mendaftar secara langsung oleh Edureka dengan sokongan 24/7 dan akses seumur hidup.

Ada soalan untuk kami? Sila sebutkan di bahagian komen blog “Python Pandas tutorial” ini dan kami akan menghubungi anda secepat mungkin.