Kako analizirati besedilne podatke v R: Osnove manipulacije nizov

Kako Analizirati Besedilne Podatke V R Osnove Manipulacije Nizov



Nizi so druga najbolj priljubljena podatkovna vrsta v programiranju R, manipulacija z nizi pa je ključna naloga v R. Operacija manipulacije z nizi v R je sestavljena iz več funkcij za uporabo in spreminjanje besedilnih podatkov, vključno s spreminjanjem in razčlenjevanjem nizov. V tem članku se bomo poglobili v nekaj funkcij, ki nam pomagajo pri manipulaciji z nizi. Te funkcije so vgrajene v R in se uporabljajo za različne namene za izvajanje nizovnih nalog.

1. primer: pridobite položaj vzorca iz niza s funkcijo Grep() v R

Če želite izvleči položaj podanega vzorca iz niza, se uporabi funkcija grep() za R.

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, value=FALSE)

Tu uporabljamo funkcijo grep(), kjer je vzorec »+i« določen kot argument, ki se ujema znotraj vektorja nizov. Nastavimo vektorje znakov, ki vsebujejo štiri nize. Po tem nastavimo argument »perl« z vrednostjo TRUE, ki nakazuje, da R uporablja knjižnico regularnih izrazov, združljivo s perlom, parameter »value« pa je določen z vrednostjo »FALSE«, ki se uporablja za pridobivanje indeksov elementov v vektorju, ki ustreza vzorcu.







Položaj vzorca »+i« iz vsakega niza vektorskih znakov je prikazan v naslednjem izhodu:





Primer 2: Ujemanje z vzorcem s funkcijo Gregexpr() v R

Nato s funkcijo gregexpr() pridobimo položaj indeksa skupaj z dolžino določenega niza v R.





char_vec <- c('PROGRAMMINGLANGUAGE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Tukaj smo nastavili spremenljivko 'char_vect', kjer so nizi opremljeni z različnimi znaki. Po tem definiramo funkcijo gregexpr(), ki prevzame vzorec niza »GRAMM«, ki se ujema z nizi, ki so shranjeni v »char_vec«. Nato nastavimo parameter useBytes z vrednostjo »TRUE«. Ta parameter nakazuje, da je treba ujemanje doseči bajt za bajtom in ne znak za znakom.

Naslednji izhod, ki je pridobljen iz funkcije gregexpr(), predstavlja indekse in dolžino obeh vektorskih nizov:



Primer 3: Preštejte skupno število znakov v nizu s funkcijo Nchar() v R

Metoda nchar(), ki jo implementiramo v nadaljevanju, nam prav tako omogoča, da določimo, koliko znakov je v nizu:

Res <- nchar('Preštej vsak znak')
natisni (res)

Tukaj kličemo metodo nchar(), ki je nastavljena znotraj spremenljivke »Res«. Metoda nchar() je opremljena z dolgim ​​nizom znakov, ki jih prešteje metoda nchar() in zagotavlja število števčnih znakov v podanem nizu. Nato posredujemo spremenljivko »Res« metodi print(), da vidimo rezultate metode nchar().

Rezultat je prejet v naslednjem izhodu, ki kaže, da podani niz vsebuje 20 znakov:

4. primer: ekstrahiranje podniza iz niza s funkcijo substring() v R

Za ekstrakcijo določenega podniza iz niza uporabljamo metodo substring() z argumentoma »start« in »stop«.

str <- podniz('JUTRO', 2, 4)
natisni (str)

Tukaj imamo spremenljivko »str«, kjer je priklicana metoda substring(). Metoda substring() vzame niz »JUTRO« kot prvi argument in vrednost »2« kot drugi argument, kar označuje, da je treba ekstrahirati drugi znak iz niza, vrednost argumenta »4« pa označuje, da četrti znak je treba ekstrahirati. Metoda substring() izvleče znake iz niza med podanim položajem.

Naslednji izhod prikazuje ekstrahiran podniz, ki leži med drugim in četrtim mestom v nizu:

Primer 5: Združite niz s funkcijo Paste() v R

Funkcija paste() v R se uporablja tudi za manipulacijo z nizi, ki združi podane nize z ločevanjem ločil.

msg1 <- 'Vsebina'
msg2 <- 'Pisanje'

prilepi (msg1, msg2)

Tukaj določimo nize za spremenljivke »msg1« oziroma »msg2«. Nato uporabimo metodo paste() za R, da združimo podani niz v en sam niz. Metoda paste() vzame spremenljivko nizov kot argument in vrne en sam niz s privzetim presledkom med nizi.

Po izvedbi metode paste() izhod predstavlja en sam niz s presledkom v njem.

Primer 6: Spremenite niz s funkcijo Substring() v R

Poleg tega lahko niz tudi posodobimo tako, da v niz dodamo podniz ali kateri koli znak s funkcijo substring() z naslednjim skriptom:

str1 <- 'Heroji'
podniz(str1, 5, 6) <- 'ic'

cat('    Spremenjeni niz:', str1)

Niz »Heroes« nastavimo znotraj spremenljivke »str1«. Nato uvedemo metodo substring(), kjer je podana »str1« skupaj z vrednostmi indeksa »start« in »stop« podniza. Metoda substring() je dodeljena s podnizom »iz«, ki je postavljen na položaj, ki je določen znotraj funkcije za dani niz. Po tem uporabimo funkcijo cat() za R, ki predstavlja posodobljeno vrednost niza.

Izhod, ki prikaže niz, se posodobi z novim z uporabo metode substring ():

Primer 7: Oblikujte niz s funkcijo Format() v R

Vendar pa operacija manipulacije nizov v R vključuje tudi ustrezno oblikovanje niza. Za to uporabljamo funkcijo format(), kjer lahko niz poravnamo in nastavimo širino določenega niza.

placement1 <- format('Programi', width = 10, justify = 'l')
placement2 <- format('Programi', width = 10, justify = 'r')
placement3 <- format('Programi', width = 10, justify = 'c')

natisni (umestitev1)
natisni (umestitev2)
natisni (umestitev3)

Tukaj nastavimo spremenljivko »placement1«, ki je na voljo z metodo format(). Niz »programi«, ki ga je treba formatirati, posredujemo metodi format(). Širina je nastavljena in poravnava niza je nastavljena na levo z uporabo argumenta »justify«. Podobno ustvarimo še dve spremenljivki, »placement2« in »placement2«, in uporabimo metodo format(), da ustrezno oblikujemo navedeni niz.

Izhod prikazuje tri sloge oblikovanja za isti niz na naslednji sliki, vključno z levo, desno in sredinsko poravnavo:

Primer 8: Pretvorite niz v male in velike črke v R

Poleg tega lahko niz pretvorimo v male in velike črke s funkcijama tolower() in toupper(), kot sledi:

s1 <- 'DOBRA HRANA DOBRO ŽIVLJENJE'
rezultat1 <- tolewer(s1)

natisni (rezultat1)

s2 <- 'Programski jezik r v '
rezultat2 <- zgornji(s2)

natisni (rezultat2)

Tukaj podajamo niz, ki vsebuje velike in male črke. Po tem se niz ohrani v spremenljivki 's1'. Nato pokličemo metodo tolower() in ji posredujemo niz »s1«, da pretvorimo vse znake v nizu v male črke. Nato natisnemo rezultate metode tolower(), ki je shranjena v spremenljivki »result1«. Nato nastavimo še en niz v spremenljivki “s2”, ki vsebuje vse znake z malimi črkami. Uporabimo metodo toupper() za ta niz »s2«, da pretvorimo obstoječi niz v velike črke.

Izhod prikaže oba niza v podanem primeru na naslednji sliki:

Zaključek

Naučili smo se različnih načinov upravljanja in analiziranja nizov, kar imenujemo manipulacija z nizi. Iz niza smo ekstrahirali položaj znaka, združili različne nize in niz preoblikovali v podane male in male črke. Prav tako smo formatirali niz, spremenili niz in tukaj se izvajajo različne druge operacije za manipulacijo niza.