Pandas Qcut

Pandas Qcut



»Python vsebuje veliko knjižnic in ko želimo analizirati ali manipulirati s podatki, uporabimo te »Pythonove« knjižnice in »pande« so prav tako knjižnice. Knjižnica »pandas« se uporablja na področju podatkovnih znanosti, uporablja pa se tudi v dejavnostih strojnega učenja. Pri shranjevanju podatkov nam pomaga “pandas” DataFrame. V »pandah«, ko želimo združevanje podatkov, uporabimo metodo »qcut()«. Metoda “qcut()” se uporablja za pretvorbo zveznih funkcij v kategorične. V to metodo »qcut()« lahko dodamo različne vrste parametrov za pridobivanje različnih vrst rezultatov. Ta vadnica govori o metodi »qcut()« in tukaj bomo podrobno razložili metodo »qcut()«. V tej vadnici vam bomo razložili, kako izvajamo združevanje podatkov s pomočjo funkcije »qcut()« v »pandah«.

Primer št. 01

V teh kodah bomo uporabili metodo »qcut()«, te kode pa bomo naredili v aplikaciji »Spyder«. Ko moramo delati s »pandami«, lahko do njenih funkcij dostopamo šele, ko uvozimo knjižnico »pandas« v svoje kode. Najprej vnesemo 'uvozi', nato pa napišemo 'pande kot pd'. Zdaj moramo uporabiti metodo »qcut()«, zato tukaj ustvarjamo DataFrame. Konstruiramo »Random_df«, ki vsebuje »R_ID, R_name in R_age« kot stolpce, in tudi v »R_ID« postavimo »R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 in R_81«. Nato v stolpec »R_name« dodamo »Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob in Harper«. Za tem v stolpec »R_starost« vstavimo »21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 in 40«. Zdaj uporabljamo »print()«, ki vsebuje »Random_df«, in bo pomagal pri upodabljanju »Random_df« DataFrame. Pravkar smo ustvarili DataFrame in še ne uporabljamo metode »qcut()«.








Ikona “Zaženi” nam pomaga pri izvajanju kod. Ko pritisnemo to ikono 'zaženi', se rezultat te kode prikaže na terminalu aplikacije 'Spyder'. DataFarme »Random_df« je prikazan kot rezultat kode, ki smo jo napisali v tem primeru. Zdaj bomo uporabili metodo “qcut()” in prikazali tudi njen rezultat.




Podatke združujemo tukaj. Združujemo stolpec »R_age« in postavljamo metodo »pd.qcut()«, ki je metoda »pand«, ki pomaga pri združevanju podatkov. V to metodo vstavimo ime DataFrame in tudi ime stolpca, na katerem želimo uporabiti to metodo »qcut()«. Nastavili smo tudi vrednost »q« na »5« in se uporablja za rezanje podatkov stolpca »R_age« na pet enakih kvantilov. Metodo »qcut()« dodamo v »print()«, tako da bo na terminalu prikazala tudi podatke o združevanju.




Tukaj so prikazani podatki po združevanju in razreže »R_age« na pet kvantilov. Prikaže tudi kategorije, v katerih so zbrani podatki stolpca »R_age«. Kategorična serija predstavlja zabojnike »R_age«.






Tem zabojnikom lahko tudi prilagodimo etiketo. Te oznake za smeti dodamo, da jih je lažje razlagati. V stolpec »Random_df« dodamo stolpec »R_age_qcut«, v katerega dodamo oznake teh zabojnikov. Ponovno uporabljamo metodo »pd.qcut()« za njihovo označevanje. Vanj dodajamo oznake »malo, ne tako malo, povprečno, visoko in najvišje«. Nato znova vstavimo »Random_df« v »print()«.


Vsi zabojniki so označeni in predstavljeni v tem rezultatu. Stolpec »R_age_qcut« je prikazan v tem podatkovnem okviru, v katerem so prikazani označeni zabojniki.



Primer št. 02

Za ustvarjanje DataFramea najprej dodamo »ocene«, ki so »3, 6, 8, 7, 2, 5, 1, 9, 4, 7 in 8«. Nato dodamo imena učencev v »študente«, ki so »Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard in Alexander«. Nato ustvarimo »Grades_df«, kjer smo dodali metodo »pd.DataFrame()«, in v to metodo vnesemo »Std_name«, ki se bo prikazal kot ime stolpca, in temu dodelimo vrednosti »students«. Nato nastavimo »Students_grades« kot ime stolpca DataFrame in tukaj dodelimo tudi »ocene«, ki smo jih ustvarili zgoraj. Po tem imamo »print()«, v katerega dodamo »Grades_df« za tiskanje.


DataFrame, ki vsebuje dva stolpca, je prikazan v rezultatu te kode. Zdaj bomo uporabili metodo »qcut()« za stolpec »Students_grades« za združevanje podatkov vrednosti tega stolpca.


Tukaj dodamo nov stolpec »ocena«, v katerem smo uporabili »pd.qcut()« za stolpec »Students_grades«, poleg tega pa smo uporabili »4« za vrednost »q«, tako da bo zmanjšano podatke v štiri enake kvantile. Po tem tukaj določimo te kvantile tako, da v »q« vnesemo vrednosti, ki so »0, .4, .8 in 1«. Nato prikažemo tudi to. Zdaj označujemo te združene podatke in oznake, ki jih tukaj dodamo, so »D, C, A in B« in so prav tako shranjene v stolpcu »ocena«.


Tukaj so podatki po združevanju prikazani tukaj v stolpcu »ocena« in razreže podatke stolpca »Students_grades« na štiri enake kvantile.


DataFrame, ki ga dobimo po uporabi metode »qcut()« in podajanju kvantilov, je prikazan v tem izidu.


Zdaj so po dodajanju oznak v te koše upodobljene tudi v tem rezultatu v stolpcu »ocena« in lahko vidite, da dodeljuje oznake glede na vrednosti koša.

Primer št. 03

Uporabimo lahko tudi metodo 'qcut()' za podatke datoteke CSV. Za to najprej preberemo podatke datoteke CSV s pomočjo metode »read_csv()«. Beremo podatke iz datoteke »office2.csv«, nato pa se podatki iz te datoteke postavijo v »Office_df«. Ta metoda bo pretvorila podatke datoteke »office2« v DataFrame in jih shranila v »Office_df«. Nato prikažemo tudi te podatke tako, da vstavimo »Office_df« v »print()«. Po tem dodamo nov stolpec z imenom »Units_qcut«, za katerega uporabimo funkcijo »pd.qcut()« v stolpcu »Units«.

Poleg tega smo vrednost spremenljivke »q« nastavili na »5«, kar bo podatke razdelilo na pet enakih kvantilov. Podatki so po razrezu na 5 enakih kvantilov shranjeni v stolpcu »Units_qcut«, ta stolpec pa je prav tako dodan v »Office_df«, »Office_df« pa je tukaj ponovno upodobljen z uporabo »print()«. Zdaj označujemo te združene podatke, dodajamo oznake v metodi »qcut()«, ki so »Enota 1, Enota 2, Enota 3, Enota 4 in Enota 5« in jih prav tako shranjujemo v stolpec »Oznake«. . Upodobimo tudi ta DataFrame, v katerega je dodan stolpec »Oznake«.


Podatki, ki jih dobimo po branju datoteke »office2.csv«, so tukaj upodobljeni v obliki DataFrame. Nato se doda stolpec »Units_qcut«, v katerem so prikazane zbrane vrednosti stolpca »Units«. Po tem se doda tudi stolpec »Oznake«, ki dodeli oznake tem združenim vrednostim. Vse to se naredi z uporabo metode “qcut()” v “pandas”.

Zaključek

V tej vadnici smo podrobno razložili metodo »qcut()«, ki pomaga pri združevanju podatkov v »pandah«. Razpravljali smo o tem, da so podatki združeni glede na vrednost kvantila »q«, ki smo jo dodali v metodi »qcut()«, prav tako pa smo prilagodili oznake tem združenim podatkom. Raziskali smo metodo »qcut()« in jo uporabili za stolpce DataFrame, to metodo »qcut()« pa smo uporabili tudi za podatke datoteke CSV po branju datotek CSV. V tej vadnici smo predstavili rezultate vseh kod, da bi jasno razložili in prikazali rezultat metode »qcut()«.