Kako uporabljati nabore podatkov o objemajočih se obrazih

Kako Uporabljati Nabore Podatkov O Objemajocih Se Obrazih



Uporabnost in uporabnost modelov strojnega učenja se testira na podatkih. Zanesljivost testov je v veliki meri odvisna od količine in kakovosti podatkov, na katerih so ti modeli uporabljeni. Ustvarjanje, pridobivanje in čiščenje primerno velikega nabora podatkov za testiranje vašega » Obdelava naravnega jezika (NLP) ” Model strojnega učenja.

Hugging Face ponuja lepo rešitev za to s svojo izjemno veliko knjižnico naborov podatkov, med katerimi lahko izbirate in poiščete tistega, ki popolnoma ustreza vašim zahtevam. Tukaj vam bomo pokazali, kako najti idealen nabor podatkov in ga pripraviti za ustrezno testiranje vašega modela.







Kako uporabljati nabore podatkov o objemajočih se obrazih?

Pokazali vam bomo, kako uporabljati nabore podatkov o objemajočih obrazih na primeru » TinyStories ” Nabor podatkov iz Hugging Face.



Primer

Nabor podatkov TinyStories ima več kot 2 milijona vrstic podatkov v razdelku vlaka in ima več kot 2 tisoč prenosov na platformi Hugging Face. Uporabili ga bomo v spodaj navedeni kodi v storitvi Google Colab:



! pip namestite transformatorji
! pip namestite nabori podatkov

iz naborov podatkov uvozi load_dataset

nabor podatkov = naloži_nabor podatkov ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
primer_niza = niz podatkov [ 'vlak' ] [ TinyStories_Story ] [ 'besedilo' ]

tiskanje ( primer_niza )


V tej kodi upoštevajte spodaj navedene korake:





Korak 01 : Prvi korak je ' namestitev ” podatkovnih nizov transformatorjev.

Korak 02 : Nato uvozite zahtevani nabor podatkov, “ TinyStories ” v vaš projekt.



Korak 03 : Nato naložite izbrani nabor podatkov s pomočjo » load_dataset() ”.

Korak 04 : Zdaj določimo številko zgodbe, ki jo želimo iz nabora podatkov TinyStories. V našem primeru kode smo določili številko 03.

Korak 05 : Na koncu bomo uporabili metodo »print()« za prikaz izhoda.

Izhod



Opomba: Kodo in izhod si lahko ogledate tudi neposredno v naši Google Colab .

Zaključek

Podatkovni nizi Hugging Face ” omogoča uporabnikom neverjetno učinkovito preizkušanje njihovih modelov strojnega učenja, medtem ko neposredno uvažajo velike nabore podatkov iz svoje spletne knjižnice. Posledično je uporaba algoritmov NLP postala enostavnejša in hitrejša, saj lahko programerji svoje projekte testirajo glede na nabor podatkov, ki ima tako kakovost kot količino.