Sniegpārsliņu datu noliktavai ir lieliska reputācija kā analīzes platformai, kas nodrošina ātru vaicājumu veiktspēju, bet bez indeksiem. Tātad, kā jūs varat noregulēt sniegpārsliņu datu bāzi, lai palielinātu vaicājuma veiktspēju? Šajā rakstā ir izskaidrotas trīs galvenās metodes, kā noregulēt sistēmu līdz maksimālajai caurlaidspējai, tostarp datu ievadīšana, datu pārveidošana un galalietotāju vaicājumi.
Sniegpārsliņu vaicājuma veiktspēja
Viena no manām iecienītākajām frāzēm ir: Kādu problēmu mēs cenšamies atrisināt? Būdami tehniķi, mēs bieži sākam risinājumus, pirms pat saprotam problēmas patieso būtību. Veiktspējas problēmas jebkurā analītikas platformā parasti ietilpst vienā no trim kategorijām:
- Datu ielādes ātrums: iespēja pēc iespējas ātrāk ielādēt milzīgus datu apjomus.
- Datu pārveidošana: iespēja palielināt caurlaidspēju un ātri pārveidot neapstrādātus datus tādā formā, kas piemērota vaicājumiem.
- Datu vaicājumu ātrums: tā mērķis ir samazināt katra vaicājuma latentumu un pēc iespējas ātrāk nodrošināt rezultātus biznesa informācijas lietotājiem.
1. Sniegpārsliņu datu ielāde
Izvairieties no failu skenēšanas
Zemāk redzamā diagramma ilustrē visizplatītāko datu lielapjoma ielādes metodi sniegpārsliņā, kas ietver datu pārsūtīšanu no lokālās sistēmas uz mākoņa krātuvi un pēc tam komandas COPY izmantošanu, lai ielādētu sniegpārsliņā.
Pirms datu kopēšanas sniegpārsla pārbauda, vai fails vēl nav ielādēts, un tas ir pirmais un vienkāršākais veids, kā maksimāli palielināt ielādes veiktspēju, ierobežojot komandu COPY līdz noteiktam direktorijam. Tālāk esošajā koda fragmentā ir redzama KOPĒŠANA, izmantojot dažādas iespējas.
SQL
1
vue materiālu dizaina ikonas
-- Slowest method: Scan entire stage
2
copy into sales_table
3
from @landing_data
4
pattern='.*[.]csv';
5
6
-- Most Flexible method: Limit within directory
7
copy into sales_table
8
at&t paroles atiestatīšanas rīks
from @landing_data/sales/transactions/2020/05
9
pattern='.*[.]csv';
10
vienpadsmit
-- Fastest method: A named file
12
copy into sales_table
13
from @landing_data/sales/transactions/2020/05/sales_050.csv;
14
Lai gan absolūti ātrākā metode ir konkrēta faila nosaukšana, aizstājējzīme ir elastīgākā. Alternatīva iespēja ir noņemt failus tūlīt pēc ielādes.
Izmēru virtuālā noliktava un faili
Zemāk redzamā diagramma ilustrē izplatītu kļūdu, ko pieļāva dizaineri, ielādējot lielus datu failus sniegpārsliņā, kas ietver palielināšanu līdz lielākai virtuālajai noliktavai, lai paātrinātu ielādes procesu. Patiesībā noliktavas palielināšanai šajā gadījumā nav ieguvumu no veiktspējas.
Iepriekš minētais COPY paziņojums atvērs 10 GB datu failu un secīgi ielādēs datus, izmantojot vienu pavedienu vienā mezglā, atstājot atlikušos serverus dīkstāvē. Etalona testi liecina, ka ielādes ātrums ir aptuveni 9 Gb minūtē, kas ir ātrs, bet to varētu uzlabot.
Zemāk redzamā diagramma parāda labāku pieeju, kas ietver viena 10Gb faila sadalīšanu 100 x 100 MB failos, lai izmantotu sniegpārslas automātisko paralēlo izpildi.
#datu bāze #datu noliktava #veiktspējas regulēšana #sniegpārsla skaitļošana
dzone.com
Top 3 sniegpārslu veiktspējas regulēšanas taktika
Sniegpārslu datubāzē nav izveidojamu indeksu, nav statistikas, ko uztvert, vai nodalījumiem, ko pārvaldīt. Kā noskaņot sniegpārsliņu, lai panāktu maksimālu sniegumu? Sniegpārsliņu datu noliktavai ir lieliska reputācija kā analīzes platformai, kas nodrošina ātru vaicājumu veiktspēju, bet bez indeksiem.
dexa monētu cenas prognoze
Skatīt Arī:
- Izmaksu funkcijas samazināšana: gradienta nolaišanās
- Kā strukturēt un pārvaldīt dabiskās valodas apstrādes (NLP) projektus
- Kas ir Ridge (RIDGE) | Kas ir RIDGE marķieris
- Populārākie progresīvas tīmekļa lietotņu izstrādes ietvari
- Kā nosūtīt reāllaika paziņojumu lietotājam, izmantojot Node.JS un Socket.io