Kako izvesti čiščenje podatkov s programom Python in Pandas

Kako Izvesti Ciscenje Podatkov S Programom Python In Pandas



Naučiti se čiščenja podatkov s programom Python in Pandas je ključnega pomena za vsakogar, ki dela s podatki. Čiščenje podatkov se večinoma uporablja za natančno analizo in modeliranje z odstranjevanjem napak in nedoslednosti. Ta vodnik vodi skozi postopek korak za korakom, ki nam pokaže, kako ravnati z manjkajočimi podatki in opaziti ali identificirati odstopanja. S Pythonom in Pandami kot orodji lahko neurejene podatke pretvorimo v čiste, uporabne informacije. Ta vodnik nam tudi pomaga izboljšati kakovost naših podatkov in jih pripraviti za analizo in odločanje.

Čiščenje podatkov s Pythonom in Pandas

Podatki so kot gradniki današnjega odločanja. Toda predstavljajte si, da imate skupino blokov različnih oblik in velikosti iz te zbirke; težko je zgraditi karkoli smiselnega. Tukaj pride na pomoč čiščenje podatkov.

Ta vodnik raziskuje, kako očistiti podatke z uporabo ogrodja Python, ki je Pandas za boljše odločanje. Nujno je tudi čiščenje podatkov, saj delamo s seznamom prodajnih evidenc za trgovino. Na seznamu lahko opazimo manjkajoče številke, nenavadne datume in ponavljajoče se elemente brez razloga. Če naredimo izračune ali zapise na podlagi teh informacij, lahko te težave pokvarijo naše izračune in napovedi. Čiščenje podatkov pomaga odpraviti te težave in zagotavlja, da so naši podatki točni in pripravljeni za uporabo.







Čiščenje podatkov vključuje ravnanje z manjkajočimi podatki in kaj storiti, ko nekateri podatki manjkajo, odstranjevanje dvojnikov, odstranjevanje kopiranih stvari, popravljanje tipov podatkov, zagotavljanje, da je vse v pravilnem formatu, in obravnavanje izstopajočih vrednosti ali ravnanje s številkami ki se ne ujemajo. Zaradi teh napak so podatki videti enaki in standardizirajo videz podatkov.



Za začetek se najprej prepričajte, da imamo nameščena Python in Pandas. To lahko storimo tako, da vnesemo ukaze v terminal ali ukazni poziv našega računalnika. Za implementacijo kod, ki so omenjene v tem priročniku, lahko uporabimo Python Pycharm IDE, ki je nameščen v našem sistemu, ali spletno platformo Python, ki je »Google Colab«, in namestimo ukaze »pip« za namestitev pomembnih knjižnic.



Zdaj pa uvozimo Pande in naložimo naše vzorčne podatke. V tem primeru uporabljamo Google Colab za izvajanje kod. Torej, najprej uvozimo Pande z vnosom naslednjega ukaza:





! pip namestite pande

uvoz pande kot pd

uvoz numpy kot npr.

Nato naložimo nabor podatkov, ki ga želimo prikazati, z uporabo metode pd.read(), ki vzame pot datoteke kot svoj vhodni parameter.

# Naloži nabor podatkov

podatke = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Prikaži prvih nekaj vrstic

tiskanje ( podatke. glavo ( ) )



V naslednjem primeru uporabimo podatke o prodaji v majhni trgovini. Za obravnavo manjkajočih podatkov informacije včasih manjkajo v naših podatkih. Te manjkajoče dele imenujemo 'NaN' (kar pomeni 'ni številka'). Če želite najti te manjkajoče vrednosti v skriptu Python, najprej naložimo nabor podatkov, kot smo storili v prejšnjem primeru. Nato poiščemo morebitne manjkajoče vrednosti v naboru podatkov s funkcijo »missing_values ​​= data.isnull().sum()«. Ta funkcija najde vse manjkajoče vrednosti v naboru podatkov. Nato jih prikažemo s funkcijo print ().

! pip namestite pande
uvoz pande kot pd
uvoz numpy kot npr.

# Naloži nabor podatkov
podatke = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Prikaži prvih nekaj vrstic
tiskanje ( podatke. glavo ( ) )

# Preverite manjkajoče vrednosti
manjkajoče_vrednosti = podatke. ni ničelno ( ) . vsota ( )

# Prikaži manjkajoče vrednosti po stolpcu
tiskanje ( manjkajoče_vrednosti )

Ko najdemo manjkajoče podatke v kateri koli vrstici, ki izvaja prej omenjeno kodo, lahko te vrstice odstranimo, saj te vrstice nimajo veliko uporabnih podatkov. Te manjkajoče vrednosti lahko celo ugibamo in praznine zapolnimo z izobraženimi ugibanji z oceno podatkov, ki temeljijo na času, na podlagi bližnjih točk.

Zdaj odstranimo dvojnike, ki so kopije iste stvari, ker lahko zmedejo našo analizo. Za iskanje podvojenih vrednosti v naboru podatkov uporabimo funkcijo »duplicate_rows = data[data.duplicated()]«. Če želite odstraniti te podvojene vrednosti, pokličemo funkcijo data.drop_duplicates(). Najdemo in odstranimo jih lahko z naslednjo kodo:

! pip namestite pande
uvoz pande kot pd
uvoz numpy kot npr.
# Naloži nabor podatkov
podatke = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Prikaži prvih nekaj vrstic
tiskanje ( podatke. glavo ( ) )

# Preverite podvojene vrstice
podvojene_vrstice = podatke [ podatke. podvojeno ( ) ]

# Odstranite dvojnike
podatke = podatke. drop_duplicates ( )

# Prikaži prvih nekaj vrstic po odstranitvi dvojnikov
tiskanje ( podatke. glavo ( ) )

Podatkovni tipi določajo, kateri podatki se lahko shranijo, da se popravijo podatkovni tipi. Bistveno je, da imate pravo vrsto za vsako vrsto podatkov. Na primer, datumi morajo imeti podatkovni tip datum in čas, števila pa morajo biti podatkovnega tipa, kot so int, float itd. Za preverjanje podatkovnih tipov naših podatkov uporabljamo funkcijo »data.dtypes«. To funkcijo je mogoče uporabiti na naslednji način:

! pip namestite pande
uvoz pande kot pd
uvoz numpy kot npr.
# Naloži nabor podatkov
podatke = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Prikaži prvih nekaj vrstic
tiskanje ( podatke. glavo ( ) )
# Preverite vrste podatkov vsakega stolpca
tipi_podatkov = podatke. dtypes

# Prikaži vrste podatkov
tiskanje ( tipi_podatkov )

Če najdemo kakršne koli težave, lahko spremenimo vrsto podatkov s Pandas. Na primer, datume lahko pretvorimo v obliko datuma. Atribut »dtypes« DataFrame zagotavlja informacije o vrstah podatkov vsakega stolpca. Če ugotovimo, da se vrsta podatkov ne ujema, lahko uporabimo Pandasovo funkcijo astype() za pretvorbo stolpcev v želene vrste.

Za vrstami podatkov včasih naletimo na izstopajoče vrednosti, ki so zelo drugačne od drugih. Lahko nam pokvarijo izračune. Za obravnavo izstopajočih vrednosti definiramo funkcijo, ki uporablja funkcijo z-score »np.abs(stats.zscore(data))«, ki primerja vrednosti, ki obstajajo v naših podatkih, z vrednostjo praga. Vsaka vrednost, ki ni obseg tega praga, se šteje za izstopajočo vrednost . Poglejmo, kako poiskati in obravnavati izstopajoče vrednosti:

! pip namestite pande
uvoz pande kot pd
uvoz numpy kot npr.

# Naloži nabor podatkov
podatke = pd. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Prikaži prvih nekaj vrstic
tiskanje ( podatke. glavo ( ) )
od scipy uvoz statistika

def odkrij_izstopajoče ( podatke ) :
z_scores = npr. abs ( statistika. zscore ( podatke ) )
vrnitev npr. kje ( z_scores > 3 )

# Zaznajte in obravnavajte odstopanja v stolpcu »Prodaja«.
odstopanja = odkrij_izstopajoče ( podatke [ 'geografska dolžina' ] )
podatke [ 'geografska dolžina' ] . mesto [ odstopanja ] = podatke [ 'geografska dolžina' ] . mediana ( )

# Zaznajte in obravnavajte odstopanja v stolpcu 'Prodane enote'
odstopanja = odkrij_izstopajoče ( podatke [ 'zemljepisna širina' ] )
podatke [ 'zemljepisna širina' ] . mesto [ odstopanja ] = podatke [ 'zemljepisna širina' ] . mediana ( )

# Prikaži prvih nekaj vrstic po obdelavi izstopajočih vrednosti
tiskanje ( podatke. glavo ( ) )

Uporabljamo preprosto metodo za iskanje in popravljanje izstopajočih vrednosti v prejšnji kodi. Vključuje zamenjavo skrajnih vrednosti s srednjo vrednostjo podatkov. Ta koda uporablja metodo Z-score za odkrivanje izstopajočih vrednosti v stolpcih »geografska dolžina« in »širina« našega nabora podatkov. Izstopajoči vrednosti so nadomeščene z srednjimi vrednostmi ustreznih stolpcev.

Da bi bili podatki videti enaki, so lahko podatki včasih videti drugače, tudi če pomenijo isto stvar. Datumi so lahko na primer zapisani v različnih oblikah. Standardizacija vključuje zagotavljanje dosledne oblike in predstavitve podatkov. To lahko vključuje oblikovanje datumov, pretvorbo besedila v male črke ali normalizacijo številskih vrednosti. Standardizirajmo stolpec »Datum« v našem naboru podatkov in poskrbimo, da bodo naši podatki videti enaki:

uvoz pande kot pd
uvoz numpy kot npr. # Uvozi numpy

# Naložite podatke
podatke = pd. read_csv ( 'sales_data.csv' )

# Naj bo stolpec 'Datum' videti skladen
podatke [ 'Datum' ] = pd. do_datetime ( podatke [ 'Datum' ] )

# Poglejte, kako izgleda zdaj
tiskanje ( podatke. glavo ( ) )

V tem primeru standardiziramo obliko zapisa datuma v našem naboru podatkov v obliko zapisa datuma in časa Pythona z uporabo funkcije »pd.to_datetime(data['Date'])«. S pretvorbo stolpca »Datum« v enak format olajšamo delo s temi podatki. Izhod prikaže prvih nekaj vrstic nabora podatkov s standardiziranim stolpcem »Datum«.

Zaključek

Na našem popotovanju skozi čiščenje podatkov s programoma Python in Pandas smo se naučili izboljšati svoje podatke za analizo. Začeli smo z razumevanjem, zakaj je čiščenje podatkov tako pomembno. Pomaga nam sprejemati boljše odločitve. Raziskali smo, kako ravnati z manjkajočimi podatki, odstraniti dvojnike, popraviti vrste podatkov, ravnati z izstopajočimi vrednostmi in zagotoviti, da so naši podatki videti enaki. S temi veščinami smo bolje pripravljeni spremeniti neurejene podatke v nekaj, čemur lahko zaupamo in ga uporabimo za odkrivanje pomembnih informacij. Čiščenje podatkov je stalen proces, kot je vzdrževanje reda v naši sobi, zaradi česar je naša pot analize podatkov uspešnejša.