Pridobite število stolpcev v R DataFrame

Pridobite Stevilo Stolpcev V R Dataframe



V R je pridobivanje števila stolpcev osnovna operacija, ki je potrebna v številnih situacijah pri delu z DataFrames. Pri podmnožitvi, analizi, manipulaciji, objavi in ​​vizualizaciji podatkov je število stolpcev ključna informacija, ki jo morate poznati. Zato R ponuja različne pristope za pridobitev vsote stolpcev navedenega DataFrame. V tem članku bomo razpravljali o nekaterih pristopih, ki nam pomagajo pridobiti število stolpcev DataFrame.

1. primer: uporaba funkcije Ncol().

ncol() je najpogostejša funkcija za pridobivanje vsote stolpcev DataFrames.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----Število stolpcev v podatkovnem okviru :', n)

V tem primeru najprej ustvarimo »df« DataFrame s tremi stolpci, ki so označeni kot »y1«, »y2« in »y3« s funkcijo data.frame() v R. Elementi v vsakem stolpcu so določeni z funkcija c(), ki ustvari vektor elementov. Nato se z uporabo spremenljivke »n« funkcija ncol() uporabi za določitev skupnega števila stolpcev v podatkovnem okviru »df«. Končno, z opisnim sporočilom in spremenljivko 'n', ponujena funkcija cat() natisne rezultate na konzoli.



Kot je bilo pričakovano, pridobljeni izhod kaže, da ima podani DataFrame tri stolpce:







Primer 2: Preštejte skupno število stolpcev za prazen podatkovni okvir

Nato uporabimo funkcijo ncol() za prazen DataFrame, ki prav tako dobi vrednosti skupnih stolpcev, vendar je ta vrednost nič.

prazen_df <- podatki.okvir()

n <- ncol(prazen_df)

cat('---Stolpci v podatkovnem okviru :', n)

V tem primeru generiramo prazen DataFrame, »empty_df«, s klicem data.frame(), ne da bi navedli stolpce ali vrstice. Nato uporabimo funkcijo ncol(), ki se uporablja za iskanje števila stolpcev v DataFrame. Funkcija ncol() je tukaj nastavljena s podatkovnim okvirom »empty_df«, da pridobi skupno število stolpcev. Ker je DataFrame »empty_df« prazen, nima stolpcev. Torej je rezultat ncol(empty_df) 0. Rezultate prikaže funkcija cat(), ki je tukaj nameščena.



Izhod prikazuje vrednost »0«, kot je bilo pričakovano, ker je DataFrame prazen.

Primer 3: Uporaba funkcije Select_If() s funkcijo Length().

Če želimo pridobiti število stolpcev katere koli posebne vrste, moramo uporabiti funkcijo select_if() v povezavi s funkcijo length() za R. Te funkcije se uporabljajo, ki se kombinirajo, da dobimo skupno število stolpcev vsake vrste . Koda za uporabo teh funkcij je implementirana v naslednjem:

knjižnica (dplyr)

x1<-ČRKE[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-vzorec(c('Poletje','Zima'),10,zamenjaj=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

dolžina(select_if(df1,is.numeric))

V tem primeru najprej naložimo paket dplyr, da lahko dostopamo do funkcije select_if() in funkcije length(). Nato ustvarimo štiri spremenljivke – »x1«, »x2«, »x3« oziroma »x4«. Tu 'x1' vsebuje prvih 10 velikih črk angleške abecede. Spremenljivki »x2« in »x3« sta ustvarjeni s funkcijo rpois() za ustvarjanje dveh ločenih vektorjev 10 naključnih števil s parametroma 2 oziroma 5. Spremenljivka 'x4' je faktorski vektor z 10 elementi, ki so naključno vzorčeni iz vektorja c ('Poletje', 'Zima').

Nato poskušamo ustvariti DataFrame »df1«, kjer so vse spremenljivke posredovane v funkciji data.frame(). Na koncu pokličemo funkcijo length(), da določimo dolžino podatkovnega okvira »df1«, ki je ustvarjen s funkcijo select_if() iz paketa dplyr. Funkcija select_if() izbere stolpce iz podatkovnega okvira »df1« kot argument, funkcija is.numeric() pa izbere samo stolpce, ki vsebujejo številske vrednosti. Nato funkcija length() dobi skupno število stolpcev, ki jih izbere select_if(), kar je rezultat celotne kode.

Dolžina stolpca je prikazana v naslednjem izhodu, ki označuje skupno število stolpcev DataFrame:

Primer 4: Uporaba funkcije Sapply().

Nasprotno, če želimo prešteti samo manjkajoče vrednosti stolpcev, imamo funkcijo sapply(). Funkcija sapply() ponavlja vsak stolpec DataFrame, da deluje posebej. Funkcija sapply() se najprej posreduje z DataFrame kot argumentom. Nato je potrebna operacija, ki se izvede na tem DataFrame. Izvedba funkcije sapply() za pridobitev števila vrednosti NA v stolpcih DataFrame je na voljo na naslednji način:

new_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, function(x) sum(is.na(x)))

V tem primeru ustvarimo DataFrame »new_df« s tremi stolpci – »c1«, »c2« in »c3«. Prva stolpca, »c1« in »c3«, vsebujeta številske vrednosti, vključno z nekaj manjkajočimi vrednostmi, ki jih predstavlja NA. Drugi stolpec, »c2«, vsebuje znake, vključno z nekaj manjkajočimi vrednostmi, ki jih prav tako predstavlja NA. Nato uporabimo funkcijo sapply() za »new_df« DataFrame in izračunamo število manjkajočih vrednosti v vsakem stolpcu z uporabo izraza sum() znotraj funkcije sapply().

Funkcija is.na() je izraz, ki je podan funkciji sum(), ki vrne logični vektor, ki označuje, ali vsak element v stolpcu manjka ali ne. Funkcija sum() sešteje vrednosti TRUE, da prešteje število manjkajočih vrednosti v vsakem stolpcu.

Zato izhod prikaže skupne vrednosti NA v vsakem od stolpcev:

Primer 5: Uporaba funkcije Dim().

Poleg tega želimo dobiti skupne stolpce skupaj z vrsticami DataFrame. Nato funkcija dim() zagotovi dimenzije DataFrame. Funkcija dim() vzame predmet kot argument, katerega dimenzije želimo pridobiti. Tukaj je koda za uporabo funkcije dim():

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

točke=c(8, 10, 7, 4))

dim (d1)

V tem primeru najprej definiramo podatkovni okvir »d1«, ki je ustvarjen s funkcijo data.frame(), kjer sta dva stolpca nastavljena »ekipa« in »točke«. Po tem prikličemo funkcijo dim() nad DataFrame 'd1'. Funkcija dim() vrne število vrstic in stolpcev DataFrame. Zato, ko zaženemo dim(d1), vrne vektor z dvema elementoma – prvi odraža število vrstic v podatkovnem okviru »d1«, drugi pa število stolpcev.

Izhod predstavlja dimenzije DataFrame, kjer vrednost »4« označuje skupno število stolpcev, vrednost »2« pa vrstice:

Zaključek

Sedaj smo izvedeli, da je štetje števila stolpcev v R preprosta in pomembna operacija, ki jo je mogoče izvesti na DataFrame. Med vsemi funkcijami je funkcija ncol() najbolj priročen način. Zdaj smo seznanjeni z različnimi načini pridobivanja števila stolpcev iz podanega podatkovnega okvira.