Metoda filtra objemanja obraza ().

Metoda Filtra Objemanja Obraza



Hugging Face ima več modelov in naborov podatkov za obdelavo naravnega jezika (NLP). Ti ogromni nabori podatkov vsebujejo veliko informacij, ki pomagajo pri natančnem usposabljanju modela. Vendar včasih ne potrebujemo celotnega nabora podatkov, ker potrebujemo le majhen del za izpolnitev naših trenutnih potreb. Če želimo uporabiti isti nabor podatkov kot običajno z vsemi informacijami, usposabljanje modela in optimizacija vzameta veliko časa, kar je izguba časa.

Torej potrebujemo nekakšno metodo ali paket, ki lahko iz podatkovnih nizov izvleče ustrezne informacije. V preprostem jeziku lahko rečemo, da potrebujemo dodatno možnost filtra za filtriranje naborov podatkov v skladu z našimi zahtevami.

Hugging Face ponuja različne možnosti za filtriranje naborov podatkov, kar uporabnikom pomaga ustvariti prilagojene nabore podatkov, ki vsebujejo samo primere ali informacije, ki izpolnjujejo določene pogoje.







Metoda Select().

Ta metoda deluje na seznamu indeksov, kar pomeni, da moramo definirati seznam. Znotraj tega seznama moramo omeniti vse vrednosti indeksov teh vrstic, ki jih želimo izluščiti. Toda ta metoda deluje samo za majhne nabore podatkov in ne za velike nabore podatkov, saj ne moremo videti celotnega nabora podatkov, če je v GB (gigabajtih) ali TB (terabajtih).



Primer :

nov_nabor_podatkov = nabor podatkov. izberite ( [ 0 , enajst , enaindvajset , Štiri, pet , petdeset , 55 ] )

tiskanje ( samo ( nov_nabor_podatkov ) )

V tem primeru smo uporabili metodo »izberi« za filtriranje zahtevanih informacij iz nabora podatkov.



Metoda Filter().

Metoda filter() odpravi težave s procesom select(), saj ni posebnega pogoja. Metoda filter() vrne vse vrstice, ki se ujemajo z določeno situacijo ali pogojem.





primer: Ta program Python shranimo z imenom »test.py«.

od nabori podatkov uvoz load_dataset

# 1. korak: naložite nabor podatkov
nabor podatkov = load_dataset ( 'imdb' )

# 2. korak: Določite funkcijo filtriranja
def filter_po meri ( primer ) :
'''
Funkcija filtriranja po meri za ohranjanje pozitivnih primerov
občutek (oznaka == 1).
'''

vrnitev primer [ 'oznaka' ] == 1

# 3. korak: uporabite filter, da ustvarite nov filtriran nabor podatkov
filtered_dataset = nabor podatkov. filter ( filter_po meri )

# 4. korak: Preverite razpoložljiva imena stolpcev v filtriranem nizu podatkov
tiskanje ( 'Razpoložljivi stolpci v filtriranem naboru podatkov:' ,
filtered_dataset. imena_stolpcev )

# 5. korak: dostop do informacij iz filtriranega nabora podatkov
filtrirani_primeri = filtered_dataset [ 'vlak' ]
št_filtriranih_primerov = samo ( filtrirani_primeri )

# 6. korak: Natisnite skupno število filtriranih primerov
tiskanje ( 'Skupno filtriranih primerov:' , št_filtriranih_primerov )

Izhod:



Pojasnilo:

Vrstica 1: Zahtevani paket load_dataset uvozimo iz naborov podatkov.

Vrstica 4: naložimo nabor podatkov »imdb« z uporabo load_dataset.

Vrstice od 7 do 12: Določimo funkcijo filtriranja po meri filter_po meri da ohranimo primere s pozitivnim občutkom (oznaka == 1). Ta funkcija vrne samo tiste vrstice, katerih vrednost oznake je 1.

Vrstica 15: Ta vrstica prikazuje, da ima nabor podatkov podatke o pregledu filma »imdb«. Zdaj uporabimo funkcijo filtra za to bazo podatkov, da ločimo pozitivne ocene od baze podatkov, ki je nadalje shranjena v »filtered_dataset«.

Vrstici 18 in 19: Zdaj preverimo, katera imena stolpcev so na voljo v filtered_dataset. Koda »filtered_dataset.column_names« torej zagotavlja podrobnosti naših zahtev.

Vrstici 22 in 23: V teh vrsticah filtriramo stolpec »train« filtered_dataset in natisnemo skupno število (dolžino) stolpca vlaka.

Vrstica 26: V tej zadnji vrstici natisnemo rezultat iz vrstice številka 23.

Filter() z indeksi

Metodo filter() lahko uporabite tudi z indeksi, kot jih vidite v načinu select(). Toda za to moramo omeniti, da mora biti ključna beseda »with_indices=true« navedena zunaj metode filter(), kot je prikazano v naslednjem primeru:

odd_dataset = nabor podatkov. filter ( lambda primer , idx: idx % 2 != 0 , z_indeksi = Prav )

tiskanje ( samo ( odd_dataset ) )

V tem primeru smo uporabili metodo filter() za filtriranje zahtevanih informacij iz nabora podatkov, vključno samo s tistimi vrsticami, ki so lihe.

Celotne podrobnosti o vsakem parametru metode filter() najdete tukaj povezava .

Zaključek

Knjižnica nabora podatkov Hugging Face ponuja zmogljiv in uporabniku prijazen nabor orodij za učinkovito delo z različnimi nabori podatkov, zlasti v kontekstu obdelave naravnega jezika (NLP) in nalog strojnega učenja. Funkcija filter(), predstavljena v programu, omogoča raziskovalcem in praktikom, da izločijo ustrezne podnabore podatkov z definiranjem uporabniško določenih meril filtriranja. Z uporabo te funkcionalnosti lahko uporabniki brez napora ustvarijo nove nabore podatkov, ki izpolnjujejo posebne pogoje, kot je ohranjanje pozitivnega občutka v filmskih ocenah ali pridobivanje določenih besedilnih podatkov.

Ta predstavitev po korakih ponazarja, kako enostavno je naložiti nabor podatkov, uporabiti funkcije filtra po meri in dostopati do filtriranih podatkov. Poleg tega prilagodljivost funkcijskih parametrov omogoča operacije filtriranja po meri, vključno s podporo za večkratno obdelavo za velike nize podatkov. S knjižnico nabora podatkov Hugging Face lahko uporabniki poenostavijo svoje podatke.