Funkcija Sample() v R

Funkcija Sample V R



V R dobimo naključne vzorčne vrednosti iz vektorja ali seznama s funkcijo sample(). Omogoča nam, da naključno izberemo podmnožico podatkov, kar je uporabno v številnih statističnih aplikacijah. Če je vhod seznam v funkciji sample(), bo izhod prav tako seznam z enakim številom elementov, vendar z izbranimi elementi. Ta članek prikazuje funkcijo sample() R z implementacijo, ki nastavi različne argumente.

1. primer: uporaba funkcije Sample() s podatkovnim argumentom

Funkcija sample() za R mora biti opremljena z vzorčnimi podatki za naključno generiranje števila. Vzorčni podatki so zahtevani argument funkcije sample(), katere koda je podana v naslednjem:

podatkiX < - c ( 10 , dvajset , 30 , 40 , petdeset , 60 , 70 , 80 , 90 , 100 )

vzorec ( podatkiX , 3 )

vzorec ( podatkiX , 3 )

Tukaj najprej generiramo vektorje celih elementov v spremenljivki »dataX«. Nato v kodi dvakrat pokličemo funkcijo sample() in ji kot argument posredujemo vektor »dataX«, ki smo ga prej ustvarili. Prva uporaba vzorca (dataX, 3) vzame naključni vzorec treh elementov iz vektorja »dataX«. Rezultati so naključna permutacija treh elementov iz »dataX«. Po tem ponovno uporabimo vzorec (a, 5), ki vzame še en neodvisen naključni vzorec treh elementov iz vektorja »dataX«. Tokrat je rezultat povsem drugačen od prejšnjega.







Izhod prikazuje različne elemente ob dvakratnem klicu funkcije sample(). Upoštevajte, da vsakič, ko naključno ustvarimo vzorec, dobimo različne elemente iz vektorjev:





2. primer: uporaba funkcije Sample() z argumentom Replace

Poleg tega imamo argument »zamenjaj« funkcije sample(), ki sprejme logične vrednosti. Podoben element je mogoče izbrati večkrat, če je element vzorčen z možnostjo zamenjave TRUE. Vendar, če je vrednost nastavljena na FALSE, je lahko samo en izbor vsakega elementa, zaradi česar se elementi vzorčijo brez zamenjave.





naključna_števila = c ( enajst , 25 , 12 , 89 , Štiri, pet , 16 , 67 , 38 , 96 , 55 , 73 )

vzorec ( naključna_števila , 4 , zamenjati = PRAV )

vzorec ( naključna_števila , 5 , zamenjati = PRAV )

Tukaj najprej definiramo vektor z nekaterimi številskimi vrednostmi v spremenljivki »random_numbers«. Po tem pokličemo funkcijo sample(), kjer se 'random_numbers' posreduje kot argument. Vrednost »4« je določena za funkcijo sample(), kar pomeni, da izbere samo štiri naključne vrednosti iz vektorjev v »random_numbers«.

Nato zamenjaj=TRUE v funkciji sample() določa, da je vsako vrednost mogoče izbrati več kot enkrat. Nato znova uporabimo funkcijo sample(), ki tokrat iz vektorjev izbere »5« naključnih vrednosti. Podobno nastavimo zamenjavni argument z »TRUE« kot prej za več izbirnih možnosti za vsako vrednost.



Kot lahko vidimo, prvi izhod prikazuje vektor 4 naključno izbranih elementov iz vektorja “random_numbers”. Naslednji izhod pa prikaže vektor '5' naključno izbranih elementov:

3. primer: uporaba funkcije Sample() z argumentom velikosti

Naslednji argument, ki ga posreduje funkcija sample(), je 'velikost'. 'Velikost' je izbirni parameter, ki označuje vrednost vzorcev, ki jih je treba izvleči. Koda funkcije sample() s parametrom »size« je podana v naslednjem:

vektorji < - 1 : 10

vzorec ( vektorji , velikost = 5 )

Tu je numerični vektor definiran kot zaporedje celih števil od 1 do 10 v spremenljivki »vektorji«. Funkcija sample() se nato uporabi za izbiro naključnih elementov iz vektorja. Kot lahko vidimo, funkcija sample() sprejme dva argumenta. Prvi argument so vektorji, iz katerih dobimo vzorec. Naslednji argument je velikost, ki je določena z vrednostjo »5«, kar pomeni, da je v vektorju na voljo samo pet elementov, ki jih je treba izbrati.

Zato so izbrani elementi vrnjeni v naključnem vrstnem redu kot nov vektor v naslednjem izhodu:

Primer 4: Uporaba funkcije Sample() za seznam R

Poleg tega lahko funkcijo sample() uporabite za seznam v R. Ta del primera pridobi naključne vrednosti s seznama.

R_list < - seznam ( 1 : 4 ,

913 ,

c ( 'X' , 'YYY' , 'DOBRO' ) ,

'ZZZ' ,

5 )

rezultat < - R_seznam [ vzorec ( 1 :dolžina ( R_list ) , velikost = 4 ) ]

rezultat

Tu je seznam »R_list« definiran z elementi različnih vrst, vključno z vektorjem številk, eno številko, vektorjem znakov, nizom in drugo številko. Po tem ustvarimo spremenljivko »result«, kjer se prikliče funkcija sample().

Znotraj funkcije sample() smo nastavili izraz »1:length(R_list)«, ki označuje vektorje indeksov za vzorčenje. Nato imamo argument 'velikost', da določimo število elementov, ki jih je treba vzorčiti, kar je '4'. Zato 'R_list' ustvari tri naključno izbrane elemente s seznama 'R_list'. Ker so elementi na seznamu »R_list« različnih vrst, so lahko nastali elementi v »result« prav tako različnih vrst.

Izhod predstavlja nov seznam, ki vsebuje naključno podmnožico izvirnega seznama:

Primer 5: Uporaba funkcije Sample() z argumentom Prob

Poleg tega imamo parameter 'prob' funkcije sample(). Argument »prob« daje verjetnost izbranega elementa v vektorju. Upoštevajte, da se domneva, da imajo vsi elementi enako verjetnost, če argument »prob« ni uporabljen.

moji_podatki = c ( 31 , 99 , 5 , 24 , 72 )

vzorec ( moji_podatki , velikost = 10 , zamenjati = PRAV ,

verjetnost = c ( 0,5 , predstavnik ( 0,1 , 4 ) ) )

Tu se elementi numeričnih vektorjev nanašajo na »my_data«. V naslednjem koraku pokličemo funkcijo sample(), kjer se »my_data« posreduje naključno izbranim 10 elementom iz nje. Nato je definiran argument »velikost«, ki določa, da mora biti vrednost, ki jo želite naključno izbrati, velikosti »10«. Nato argumentu »replace« dodelimo »TRUE«, kar pomeni, da se vsak izbrani element zamenja v vektor, preden izberemo naslednjega. Tretji argument, ki je definiran v funkciji sample(), je 'prob', ki definira verjetnost, da bo izbran vsak element v vektorju 'my_data'. Verjetnost prvega elementa je nastavljena na '0,5'. Za preostale štiri vektorske elemente je verjetnost '0,1'.

Naslednji izhod je pridobljen z največjo verjetnostjo prvega elementa v vektorjih, kot je pričakovano:

Primer 6: Uporaba funkcije Sample() za upodabljanje črtne ploskve

Nazadnje se funkcija sample() uporablja za izdelavo črtičnega grafikona v R za vizualizacijo porazdelitve kategorične spremenljivke z dano porazdelitvijo verjetnosti.

vzorec_podatkov = c ( 1 , 2 , 3 )

barplot ( tabela ( vzorec ( vzorec_podatkov , velikost = 500 , zamenjati = PRAV , verjetnost = c ( .30 , .60 , .10 ) ) ) )

Tu po definiranju »sample_data« z vektorjem celoštevilske vrednosti ustvarimo črtni grafikon z uvedbo funkcije sample(). Najprej pokličemo črtni grafikon, ki prikliče funkcijo table(), da ustvari frekvenčno tabelo dobljenega vzorca. Nato določimo funkcijo sample() v funkciji table(), kjer je naključni vzorec velikosti 1000 izvlečen iz vektorja celih števil od 1 do 3. Nato se uporabi argument »prob« za določitev verjetnosti izbire vsakega celega števila. .

Kot lahko zdaj vidimo, je črtni grafikon upodobljen v naslednjem primeru s tremi stolpci, po eno za vsako celo število, višina stolpcev pa je pomembna za celo število, ki se pojavi v vzorcu:

Zaključek

Na različnih primerih smo videli, kako deluje funkcija sample(). Funkcija sample() se uporablja z različnimi argumenti, kjer so potrebni vzorčni podatki, vsi drugi argumenti pa so neobvezni in se kličejo v posebnih primerih. Vendar pa je funkcija sample() uporabna pri statistični analizi ali pri delu z velikimi nabori podatkov.