Pandas Join vs Merge

Pandas Join Vs Merge



»Pandas« je visoko zmogljivo orodje za okolje python. Je »odprta« koda za analizo podatkov. Metoda pandas join in pandas merge se uporabljata za združevanje dveh podatkovnih okvirov v en sam podatkovni okvir. Pri obeh metodah pand je razlika v tem, da se funkcija »join« pande pridruži podatkovnemu okvirju z uporabo indeksa. Medtem ko funkcija pandas “merge” združi podatkovni okvir z uporabo metode indeksa in stolpca, v kateri lahko sami izberemo želeni stolpec. Metoda združevanja pand se večinoma uporablja v primerjavi z metodo združevanja pand. Programska oprema, ki jo bomo uporabili za implementacijo, je programska oprema »spyder«, ki je v okolju python in nam bo zagotovila prednosti za implementacijo kode metode pandas join method() in funkcije metode pandas merge().

Sintaksa metode Pandas Join().

“df1. pridruži se ( df2 )

»df« v zgornji sintaksi je okrajšava za »dataframe«. V sintaksi sta dva podatkovna okvira s funkcijo »dot join«, ki je namenjena klicanju metode. To je pandas metoda združevanja dveh podatkovnih okvirov. Deluje tako, da z indeksom združi podatkovne okvire v enega.







Sintaksa metode Pandas Merge().

“df1. združiti ( df2 , na = 'ime_stolpca' )

Sintaksa metode spajanja pandas ima dva podatkovna okvira kot »df1« in »df2«. Funkcija »spojitev s pikami« prikliče metodo združevanja obeh podatkovnih okvirov z videzom obrnjenih stolpcev.



Pokrivali bomo naslednje načine združevanja dveh podatkovnih okvirov za uporabo metod panda merge in pandas join:



  • Prekrivanje metode Pandas Join.
  • Pande se pridružijo metodi s ponastavitvijo indeksa.
  • Metoda spajanja Pandas (stolpec “levo in desno”).
  • Eksplicitna metoda spajanja Pandas.

Ustvarjanje podatkovnih okvirjev za implementacijo metode Pandas Merge in Pandas Join

Najprej moramo ustvariti podatkovni okvir. Za to bomo uporabili orodje 'spyder'. Ko ga odprete, začnite pisati kodo. Uvozite pande kot »pd« za povezavo knjižnice pand. Imamo spremenljivke podatkovnega okvira kot »x«, »y«, »p« in »q« ustrezno ter »a« z vrednostmi »1« in »b« z vrednostjo, dodeljeno kot »2«.





Izhod je 'df', ustvarjen z dodeljenimi vrednostmi. Lahko ga naredimo tako velikega, kot so podatki.



Ustvarjanje drugega podatkovnega okvira

Narediti moramo še en podatkovni okvir, da bi jasno razumeli metode združevanja pand in združevanja pand. Tukaj imamo »df«, ustvarjen enako kot zgornji »df«, le vrednosti, ki so dodeljene spremenljivkam, so drugačne. Imamo 'h', 'j', 's' in 'd', medtem ko vrednosti 'b' priredimo z vrednostjo '8' in 'Y' z vrednostjo '3'.

Izhod prikazuje preprost ustvarjen »df«.

Primer št. 01: Metoda združevanja pand (prekrivanje)

Zdaj bomo videli, kako združiti dva podatkovna okvira z metodo združevanja pandas. Za to metodo lahko iz podatkovnega okvira izberemo stolpec po vaši izbiri, na katerem želimo delati. Vzeli smo primer s prekrivajočim se stolpcem 'levo' iz 'df', tako da lahko to popravimo s 'pripono', da premagamo prekrivanje podatkov. Tu so uporabljene spremenljivke 'x', 'z', 'v', 'd'. “p”, “o”, “l” in “y” z vrednostmi, dodeljenimi kot “3”, “6”, “7” in “9”. ».join« pokliče metodo, pri čemer je poravnava nastavljena na levo združevanje z desno pripono »df«. ”. »Pripona«, uporabljena v kodi, je zato, ker sta v podatkovnem okviru dva stolpca z enakim imenom, ki je »ključ« in ki ne bo prekrivalo podatkov.

Izhod ne prikaže nobenih prekrivajočih se podatkov z metodo združevanja dveh »df« z uporabo metode združevanja pandas.

Primer # 02: Metoda Pandas Join z uporabo ponastavitve indeksa

V tem primeru bomo ločeno določili stolpec s parametrom »on«, ki bo uporabljen kot »ključ« v metodi joint, ki pomaga pri združevanju dveh podatkovnih okvirov. kombinirana stvar se izvede s tem parametrom. Tudi indeks enega od dveh 'df' mora biti podoben, da ju združi. Podobne vrste podatkov ali podatki, ki se uporabljajo za isti namen, so lahko skupaj za obdelavo. To bo še naprej uporabljalo indeks z uporabo z desne. Spremenljivke so 's', 't', 'u', 'v', 'n', 'w', 'k' in 'q'. Dodeljene vrednosti so '3', '6', '7' in '9'. 'Reset dot index' je metoda pand za ponastavitev indeksa 'df'. Indeks ponastavitve nastavi vsa cela števila vašega seznama podatkovnega okvira od 0, dokler se podatki podatkovnega okvira tam ne podaljšajo.

Tukaj je prikazan izhod z metodo združevanja 'ključ' indeksa pand.

Primer # 03: Metoda spajanja Pandas (stolpec »levo in desno«)

Metoda spajanja izvaja podobno operacijo kot metoda spajanja pand. Obe metodi sta namenjeni združevanju podatkov v podobnem podatkovnem okviru. Metoda spajanja je bolj vsestranska, saj zahteva navedbo ključa. Določimo ga lahko tudi v levem in desnem stolpcu, odvisno od dela vašega podatkovnega okvira. Spremenljivke v kodi so 's', 'd', 'g', 'f', 'k', 'j', 'b' in 'q'. dodeljene vrednosti so '9', '5', '6' in '7'. Zunanja izvedba »join« se izvede na obeh »df« z uporabo parametra »how« funkcije metode spajanja pandas.

Izhod, ki ga vidimo, prikazuje združene podatke dveh podatkovnih okvirov. »NaN« predstavlja »ni številko«, kar pomeni, da kadar v podatkih ni dodeljene številke, se tam prikaže »NaN«.

Primer # 04: Eksplicitna metoda spajanja

Tukaj, v tem primeru, je metoda spajanja uničenje indeksa in vrednost indeksa ni predpostavljena v podatkovnem okviru. To metodo bomo izvajali v skladu z delom, ki ga je treba opraviti, kjer je eksplicitna specifikacija nadaljevanje. Podatke bo združil na podlagi levega ali desnega indeksa s parametrom. Spremenljivke v tem podatkovnem okviru so 't', 'r', 'I', 'u', 'h', 'o', 'e' in 'e'. Dodeljene vrednosti so '2', '4', '6' in '4'. Zgornji primer metode združevanja pand z izbiro stolpcev glede na potrebe je najbolj predstavljiva in dragocena metoda združevanja dveh podatkovnih okvirov. Preverjanje na koncu vrstice kode, ali je ključ združevanja edinstven v naboru podatkov.

V spodnjem izhodu indeks ni prikazan brez indeksa, ampak se funkcija izvaja na podlagi desnega in levega indeksa.

Zaključek

Metodi merge() in join() sta metodi, ki sta zelo priročni in učinkoviti. Obe funkciji se uporabljata za združevanje dveh ločenih podatkovnih okvirov v istem podatkovnem okvirju, vendar imata različno uporabo, odvisno od primera. V tem članku smo se naučili ključnih razlik med metodo spajanja in spajanja pandas. Ko bomo opravili primere in razumeli metodo združevanja pandas, jo bomo zaključili z zavedanjem, da je, če želimo bolj prilagodljivo združevanje v slogu baze podatkov, bolje uporabiti metodo združevanja pandas. Po drugi strani pa, če želimo podatkovni okvir obsežno kombinirati z indeksom, lahko uporabimo funkcijo metode pandas join().