Top 3 sniegpārslu veiktspējas regulēšanas taktika

Izmēģiniet Mūsu Instrumentu Problēmu Novēršanai

Sniegpārsliņu datu noliktavai ir lieliska reputācija kā analīzes platformai, kas nodrošina ātru vaicājumu veiktspēju, bet bez indeksiem. Tātad, kā jūs varat noregulēt sniegpārsliņu datu bāzi, lai palielinātu vaicājuma veiktspēju? Šajā rakstā ir izskaidrotas trīs galvenās metodes, kā noregulēt sistēmu līdz maksimālajai caurlaidspējai, tostarp datu ievadīšana, datu pārveidošana un galalietotāju vaicājumi.

Sniegpārsliņu vaicājuma veiktspēja

Viena no manām iecienītākajām frāzēm ir: Kādu problēmu mēs cenšamies atrisināt? Būdami tehniķi, mēs bieži sākam risinājumus, pirms pat saprotam problēmas patieso būtību. Veiktspējas problēmas jebkurā analītikas platformā parasti ietilpst vienā no trim kategorijām:

  1. Datu ielādes ātrums: iespēja pēc iespējas ātrāk ielādēt milzīgus datu apjomus.
  2. Datu pārveidošana: iespēja palielināt caurlaidspēju un ātri pārveidot neapstrādātus datus tādā formā, kas piemērota vaicājumiem.
  3. Datu vaicājumu ātrums: tā mērķis ir samazināt katra vaicājuma latentumu un pēc iespējas ātrāk nodrošināt rezultātus biznesa informācijas lietotājiem.

1. Sniegpārsliņu datu ielāde

Izvairieties no failu skenēšanas

Zemāk redzamā diagramma ilustrē visizplatītāko datu lielapjoma ielādes metodi sniegpārsliņā, kas ietver datu pārsūtīšanu no lokālās sistēmas uz mākoņa krātuvi un pēc tam komandas COPY izmantošanu, lai ielādētu sniegpārsliņā. Virtuālā noliktava un faili



Pirms datu kopēšanas sniegpārsla pārbauda, ​​vai fails vēl nav ielādēts, un tas ir pirmais un vienkāršākais veids, kā maksimāli palielināt ielādes veiktspēju, ierobežojot komandu COPY līdz noteiktam direktorijam. Tālāk esošajā koda fragmentā ir redzama KOPĒŠANA, izmantojot dažādas iespējas.

SQL

1

vue materiālu dizaina ikonas
-- Slowest method: Scan entire stage

2

copy into sales_table

3

from @landing_data

4

pattern='.*[.]csv';

5

6

-- Most Flexible method: Limit within directory

7

copy into sales_table

8

at&t paroles atiestatīšanas rīks
from @landing_data/sales/transactions/2020/05

9

pattern='.*[.]csv';

10

vienpadsmit

-- Fastest method: A named file

12

copy into sales_table

13

from @landing_data/sales/transactions/2020/05/sales_050.csv;

14

Lai gan absolūti ātrākā metode ir konkrēta faila nosaukšana, aizstājējzīme ir elastīgākā. Alternatīva iespēja ir noņemt failus tūlīt pēc ielādes.

Izmēru virtuālā noliktava un faili

Zemāk redzamā diagramma ilustrē izplatītu kļūdu, ko pieļāva dizaineri, ielādējot lielus datu failus sniegpārsliņā, kas ietver palielināšanu līdz lielākai virtuālajai noliktavai, lai paātrinātu ielādes procesu. Patiesībā noliktavas palielināšanai šajā gadījumā nav ieguvumu no veiktspējas.

Sniegpārsliņas automātiskā paralēlā izpilde

Iepriekš minētais COPY paziņojums atvērs 10 GB datu failu un secīgi ielādēs datus, izmantojot vienu pavedienu vienā mezglā, atstājot atlikušos serverus dīkstāvē. Etalona testi liecina, ka ielādes ātrums ir aptuveni 9 Gb minūtē, kas ir ātrs, bet to varētu uzlabot.

Zemāk redzamā diagramma parāda labāku pieeju, kas ietver viena 10Gb faila sadalīšanu 100 x 100 MB failos, lai izmantotu sniegpārslas automātisko paralēlo izpildi.

#datu bāze #datu noliktava #veiktspējas regulēšana #sniegpārsla skaitļošana

dzone.com

Top 3 sniegpārslu veiktspējas regulēšanas taktika

Sniegpārslu datubāzē nav izveidojamu indeksu, nav statistikas, ko uztvert, vai nodalījumiem, ko pārvaldīt. Kā noskaņot sniegpārsliņu, lai panāktu maksimālu sniegumu? Sniegpārsliņu datu noliktavai ir lieliska reputācija kā analīzes platformai, kas nodrošina ātru vaicājumu veiktspēju, bet bez indeksiem.

dexa monētu cenas prognoze

Skatīt Arī: