Kaj so podatkovni tipi Amazon Redshift?

Kaj So Podatkovni Tipi Amazon Redshift



Amazon Redshift je rešitev v oblaku, ki jo ponuja AWS in izpolnjuje namen podatkovnega skladišča. Podatkovno skladišče je velik prostor v oblaku, ki shranjuje ogromne količine podatkov. Razlika med podatkovnim skladiščem in zbirko podatkov je v tem, da prvo ne hrani samo trenutnih podatkov, temveč tudi celotno zgodovino podatkov.

Ta članek bo izvedel več o Amazon Redshift by AWS in vrstah podatkov, ki jih ta storitev podpira.







Kaj je Amazon RedShift?

Gre za rešitev v oblaku za shranjevanje podatkov, ki temelji na 'PostgreSQL' . Uporablja tehnologijo, imenovano »Masovno vzporedno procesiranje (MPP)« za obdelavo petabajtov podatkov z bliskovito hitrostjo. To zagotavlja enostavno rešitev za napovedovanje v realnem času na podlagi zgodovinskih podatkov in rešitev za pretakanje.



Naslednja slika prikazuje mehanizem delovanja Amazon Redshift:







Ta grafična razlaga delovanja Amazon Redshift je zelo preprosta in jasna. Daje nam informacije o tem, kako se podatki pridobivajo in nadalje obdelujejo za ustvarjanje rezultatov in ustvarjanje aplikacij, ki temeljijo na podatkih.

Arhitekturo skladišča podatkov Amazon Redshift lahko vidite tudi na spodnji sliki:



Zdaj pa se bomo posvetili uporabi in funkcijam te storitve.

Lastnosti

Kot že omenjeno, Amazon Redshift temelji na PostgreSQL in uporablja tehnologijo, imenovano Massively Parallel Processing, ki mu omogoča obdelavo petabajtov podatkov v hipu. Zato Redshift ponuja lepo število funkcij in uporab. Nekatere od teh funkcij so spodaj:

  • Varnost podatkov in šifriranje.
  • Poslovna analitika.
  • Podpora za aplikacije, ki temeljijo na podatkih.
  • Prediktivna analiza.
  • Samodejno ponavljanje nalog.
  • Sočasno skaliranje podatkov.
  • Skladiščenje podatkov.

Nekatere dodatne funkcije te storitve lahko vidite na spodnji sliki:

To je bila večina funkcij, ki jih ponuja Redshift, zdaj pa se bomo premaknili na vrste podatkov, ki jih podpira ta storitev.

Vrste podatkov

Amazon Redshift je rešitev za shranjevanje podatkov z velikim številom funkcij. Podpira tako strukturirane kot nestrukturirane tipe podatkov. Ker temelji na PostgreSQL, je mogoče s podatki manipulirati s preprostimi poizvedbami SQL.

Sedaj pa se pojavi še eno vprašanje, kako se ti formati podatkov med seboj razlikujejo? Razpravljajmo o teh dveh formatih podatkov.

Strukturirani podatki

Visoko formatiran podatkovni tip, ki ga algoritmi strojnega učenja zlahka prevedejo, imenujemo strukturirani podatki. Baza podatkov SQL deluje s strukturiranimi podatki. Strukturirani podatki so v obliki tabele, kot so podatki, ki jih uporabljajo relacijske baze podatkov

Eden izmed pogosto uporabljenih sistemov za upravljanje baz podatkov SQL je MYSQL. Njegovo arhitekturo si lahko ogledate na spodnji sliki:

Nestrukturirani podatki

Nestrukturirani podatki so brez vzorcev in formatov, kot so podatki, ki se uporabljajo v nerelacijskih bazah podatkov. MongoDB je znana nerelacijska zbirka podatkov. Poizvedbe SQL ne delujejo na nerelacijskih zbirkah podatkov, zato se te baze podatkov imenujejo tudi baze podatkov NoSQL.

Kot je bilo že omenjeno, je MongoDB nestrukturiran sistem za upravljanje baz podatkov in njegovo arhitekturo lahko vidite na spodnji sliki:

Preučili smo dva temeljna podatkovna tipa, ki se uporabljata v zbirkah podatkov, zdaj pa se bomo posvetili dejanskim podatkovnim tipom, ki jih podpira Amazon Redshift. Te vrste podatkov so:

  • Številčni podatki
  • Znakovni podatki
  • Podatki o datumu in času
  • Logični podatki
  • Podatki HLLSKETCH
  • SUPER podatki
  • PODATKI ZA ZAMENJAVO

Razpravljajmo o teh vrstah podatkov:

Številčni podatki

Ta tip podatkov je samoumeven. Podpira podatke, ki so v obliki celih števil, decimalnih mest, plavajoče vejice in drugih številskih tipov podatkov.

Značilnosti podatkovnega tipa integer so vidne na spodnji sliki:

Decimalni tip podatkov shrani podatke na podlagi natančnosti uporabnika. Njegove značilnosti so naslednje:

Znakovni podatki

Podatkovni tipi CHAR in VARCHAR spadajo v kategorijo znakovnih podatkovnih tipov. NCHAR in NVARCHAR sta tudi podatkovna tipa znakovnega tipa. Za razliko od CHAR in VARCHAR ti dve podatkovni vrsti shranjujeta znake Unicode s fiksno dolžino. Oglejmo si lastnosti teh podatkovnih vrst, kot so:

  • CHAR, CHARACTER, NCHAR imajo obseg 4KB.
  • VARCHAR, NVARCHAR ima obseg 64 KB.
  • BPCHAR ima obseg 256 bajtov.
  • BESEDILO ima obseg 260 bajtov.

Podatki o datumu in času

Podatkovni tipi datuma in časa so DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ. Funkcionalne zmožnosti teh tipov podatkov so naslednje:

  • DATE preprosto shrani koledarske datume.
  • TIME shranjuje čas brez sklicevanja na kateri koli časovni pas. Privzeto je UTC.
  • TIMETZ shranjuje čas glede na časovni pas. V uporabniških in sistemskih tabelah je privzeto UTC.
  • TIMESTAMP ne vključuje samo časa, ampak tudi datume. Privzeto je UTC v uporabniških in sistemskih tabelah.
  • TIMESTAMPTZ ne vključuje le časa, ampak tudi datume. Privzeto je UTC samo v uporabniških tabelah.

Logični podatki

Logični podatkovni tip je binarni podatkovni tip, kar pomeni, da obstajata samo dve vrednosti. Tabela značilnosti za tip podatkov Boolean je podana spodaj na sliki:

Podatki HLLSKETCH

Ta vrsta podatkov se uporablja za shranjevanje skic. Rdeči premik lahko predstavlja skice v redki ali gosti obliki. Skice se začnejo kot redke in postopoma postanejo goste, ko gosta oblika zagotovi večjo učinkovitost s sledenjem povezavi.

SUPER podatki

Ta vrsta podatkov obravnava nestrukturirane podatke, ki so lahko v obliki nizov, ugnezdenih struktur ali JSON. Ni modela ali oblike podatkov. Uporabniki lahko raziščejo več informacij s povezavo.

PODATKI ZA ZAMENJAVO

Ta vrsta podatkov shranjuje tudi znake. Vendar je dolžina omejena. Amazon Redshift omogoča pretvorbo podatkov VARBYTE v kateri koli celoštevilski ali znakovni tip podatkov. Za več informacij o tej vrsti podatkov sledite spodnji povezavi.

To je vse za Amazon Redshift in vrste podatkov, ki jih podpira.

Zaključek

Amazon Redshift je storitev AWS, ki v svoji osnovni obliki služi namenu podatkovnega skladišča, vendar je zelo zmogljiva in funkcionalna rešitev za analitiko in napovedovanje. Ta članek je obravnaval Redshift in vrste podatkov, ki jih podpira. Te tipe podatkov smo na kratko razložili skupaj z njihovimi značilnostmi.