Hirdetés

2024. június 9., vasárnap

Gyorskeresés

Hozzászólások

(#1) jocomen


jocomen
aktív tag

"Az SSD adottságai révén egy új, inline deduplikációs eljárást használnak, aminek köszönhetően jelentősen csökken a fölöslegesen, többszörösen tárolt adatmennyiség,"

Ha a "0" & "1"-esek redundanciáját is ki tudnák küszöbölni, akkor csak egy 2 bites tárolóra lenne szükség, ami a processzor cash-ében is elférne, ezáltal :
- teljesen elhagyható lenne az SSD
- akár 89 kg-al is csökkenne a szerver súlya,
- akár 100%-al csökkehetne az SSD működéséből adódó fogyasztás és hűtési költség
- további jelentős gyorsulás következne be az IOPS műveletekben
- a megtakarított összegből be lehetne fejezni az amd épp küszöbön álló, a számítástechnikát forradalmasító fejlesztéseit.
;)
[/troll off]

(#2) QwErTy42


QwErTy42
addikt

Ezen aztán hasíthat a felnőtt tartalom. ;]

...oktalan embert észérvekkel meggyőzni nem lehet...

(#3) rudi válasza jocomen (#1) üzenetére


rudi
nagyúr

Teljesen más szintű redundancia kiszűréséről van itt szó. Leegyszerűsítve arról, amikor van egy rahedli mindenféle képed, lekezded őket oda-vissza rendezgetni, válogatni, másolgatni és a végén másfélszer annyi helyet foglal a duplikálás miatt, mert egyik-másik képet több helyre is elmentetted. Aztán ugyanezt megjátssza a haverod is ugyanezekkel a képekkel a saját tárolóján. Aztán mind a ketten felpakoljátok a hálózatotokban lévő NAS-ra a saját csomagotokat. És akkor a NAS elkezd dedupliálni és kiszűri az egyformákat, ezzel megtakarít egy csomó helyet.

Szigorúan leegyszerűsítve írtam le a dolog lényegét. Vállalati szinten, sok-sok felhasználóval állítólag akár 5:1-hez is lehet a feltöltött és az effektíven hasznos, nem duplikált adatok aránya.

Resistance Is Futile. You will be assimilated!

(#4) #06658560 válasza rudi (#3) üzenetére


#06658560
törölt tag

"Vállalati szinten, sok-sok felhasználóval állítólag akár 5:1-hez is lehet a feltöltött és az effektíven hasznos, nem duplikált adatok aránya."

Egyszerű eset: egy prezentációt elküldesz E-mailben n embernek. Mivel nem mindenki cégen belüli, így nem elég a linket. mindenki megnézni, megkapja, lesz egy lokál mentése, minimum ideiglenesen, ha esetleg rendesen szervez, akkor tartósan is. Majd persze visszafele is hat példányban érkezik meg az anyag.

(#5) stutga


stutga
tag

Ennyi pornó nincs is.

(#6) AgFRjkUZT_3 válasza rudi (#3) üzenetére


AgFRjkUZT_3
tag

Ez érdekes. Köszi.

Csak vártam, és vártam, és mikor nem jött semmi, tudtam, csak Tőled lehet...

(#7) ASdS válasza stutga (#5) üzenetére


ASdS
csendes tag

De, pont hogy abból van ennyi. :DDD

[ Szerkesztve ]

(#8) Jaffafa válasza rudi (#3) üzenetére


Jaffafa
aktív tag

"Aztán mind a ketten felpakoljátok a hálózatotokban lévő NAS-ra a saját csomagotokat. És akkor a NAS elkezd dedupliálni és kiszűri az egyformákat, ezzel megtakarít egy csomó helyet."

Annyi külöbséggel, hogy itt inline-ban történik minden, tehát a deduplikálás már az adatok SSD-re való mentése elött megtörténik. Más kérdés, hogy a deduplikálás nem mindig müxik, hisz ha kódolt (Encrypted) adatot küldünk a cuccra, akkor nagy valószínüség szerint semmit sem fog tudni deduplikálni.

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#9) #29810176 válasza stutga (#5) üzenetére


#29810176
törölt tag

Hidd el ennek a többszöröse van. Főleg ha Full HD/4K/8K!? :DDD
Egyik legnagyobb ipar....

[ Szerkesztve ]

(#10) Patice válasza rudi (#3) üzenetére


Patice
nagyúr

A Fujitsu is bevezette ezek szerint a btrfs-t? :U

Eladó: TP-Link 24-es switch, Xbox 360, Daewoo Matiz

(#11) Peter13


Peter13
senior tag

Azert en ilyenkor huledezek egy sort, hogy hova jutottunk alig egy evtized alatt: kivaltsagosok draga jatekszerebol vallalatoknal is alkalmazhato alternative lett. A megbizhatosag es az adatsururuseg kimondottan meglepett, nem semmi hogy ebben is lelepte mar a hagyomanyos merevlemezt. :R

Azert arra meg kivancsi lennek, hogy mindezt hanyszoros aron merik (mert ennyi elonyt akkor szoktak hangsulyozni, ha utana nagy levegot kell venni a szamla lattan ;] )

Az ekezetek miatt pedig mindenkitol bocs, de ezen a gepen nincs magyar klavi (es nem is lehet beallatani)

"No, I'm not immortal: I'm just not good at dying..."

(#12) .mf


.mf
veterán

"Az igazán meredek adat a berendezés[...] "

... ára ;]

A dedupe megy hagyományos forgótányérossal is, ez így nemkicsit marketing-bullshit ízű.

Fotóim és kalandjaim a világ körül: https://www.facebook.com/fmartinphoto/

(#13) Jaffafa válasza Peter13 (#11) üzenetére


Jaffafa
aktív tag

SSD már nagyon régóta jelen van a hálózati adattárolókban. Az áruk jutott talán mára oda, hogy a "kisebb" cégeknek is megéri beruházni rá. Az árak nagyon cégfüggöek és nem mindegy, hogy mekkora mennyiséget rendelsz. Jelenleg az árak nagyjából 4-8ezer € / Netto (tánylegesen használható) Terrabyte körül alakulnak. Csak viszonyításul a SAS-Diskek kb 800-1500€ / TB fájnak.
Persze a deduplikációval számolva a marketingben eleve úgy számolnak, hogy ha a valós 1 TB 8e €-ba fáj, akkor 1:4 deduppal számolva (,ami egy ESX vagy Hyper-V környezetben simán elérhetö) az mindjárt "csak" 2e € :DD

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#14) tecsu válasza #06658560 (#4) üzenetére


tecsu
addikt

Persze, sokkal jobb, ha egy példányban van valami központi helyen. Ha az besz@rik, ugrott minden dokumentum. :W

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#15) tecsu válasza #29810176 (#9) üzenetére


tecsu
addikt

A nagyságrendje többszörös.

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#16) .mf válasza tecsu (#14) üzenetére


.mf
veterán

A közös használatú fájlszerver (ahol mindenkinél meglehet ugyanaz a doksi, tehát feleslegesen van sok példány belőle) és a backup fogalmát azért ne keverjük.

Fotóim és kalandjaim a világ körül: https://www.facebook.com/fmartinphoto/

(#17) #06658560 válasza tecsu (#14) üzenetére


#06658560
törölt tag

Normális helyen van biztonsági mentés.

(#18) tecsu válasza #06658560 (#17) üzenetére


tecsu
addikt

Az is behalhat, max majd abból állítják vissza a rendszert. Nehogy már egy-egy iraton vagy képen spóroljunk.
A cloudokban sem lehet megbízni, ha fontos dolgokról van szó.

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#19) Jaffafa válasza tecsu (#18) üzenetére


Jaffafa
aktív tag

Nem érted. Tegyük fel, hogy van pl. 10.000 User és mindegyiknek van egy 20 GB-os saját hálózati tárhelye a cégben. Ez ugye nem sok. Namármost 10.000 x 20 GB az majd 200 TB adat. Ha a dedup "csak" 1:2 arány, akkor az alapból a fele. (Fentebb írtam, hogy mi mennyibe kerül, szal nem keveset spórolt a cég ezzel a funkcióval.) Erröl mindenképpen lesz egy backup, de nem mindegy, hogy 200 vagy 100 TB-ot kell backupolni.
(Hozzá kell tenni, hogy manapság már a jobb backupszoftverek is imerik a dedupot.)

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#20) tecsu válasza Jaffafa (#19) üzenetére


tecsu
addikt

"Namármost 10.000 x 20 GB az majd 200 TB adat. Ha a dedup "csak" 1:2 arány, akkor az alapból a fele. "

Ez egy irreális példa, ugye.
Ilyen esetben persze, szükséges lenne csökkenteni a többszörös másolatok számát; de ha néhány példány van csak valamiből vagy mondjuk egy kis fájl (mondjuk űrlap) sok embernél, azt nem kell redukálni és általában ez a helyzet, nem az a szélsőség, amit te vázoltál.

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#21) #06658560 válasza tecsu (#20) üzenetére


#06658560
törölt tag

Miért irreális? Nem csak öt fős kkv-k léteznek a világon.

"Ez egy irreális példa, ugye.
Ilyen esetben persze, szükséges lenne csökkenteni a többszörös másolatok számát; de ha néhány példány van csak valamiből vagy mondjuk egy kis fájl (mondjuk űrlap) sok embernél, azt nem kell redukálni és általában ez a helyzet, nem az a szélsőség, amit te vázoltál."

Jól sejtem, hogy még véletlenül sem volt szerencséd belülről nagyvállalati rendszerhez?

(#22) Jaffafa válasza tecsu (#20) üzenetére


Jaffafa
aktív tag

Ehm, amit én írtam az a valóság. Nálunk pl. kb 8000 céges felhasználó van és mindnek van egy 20GB-os hálózati lemeze. Nyilván nem fog kijönni az 1:2 deduplikálás, de ha csak 15-20%-ot nyerek a dolgon már megérte. S akkor a mi cégünk még nem is olyan nagy, az anyacéghez képest, ahol további 190000 ember dolgozik szerte a világban ^^.

[ Szerkesztve ]

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#23) tecsu válasza Jaffafa (#22) üzenetére


tecsu
addikt

Na látod, mégsem 1:2 az arány. És ezekután az általad becsült 15-20% is maximum 10% lehet, ami szerintem belefér és nem érdemes azzal foglalkozni.

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#24) Jaffafa válasza tecsu (#23) üzenetére


Jaffafa
aktív tag

Na akkor a kedvedért lemegyek békába, mert még mindig hülyeségeket írsz...
1 PB tárhelyünk van jelenleg az egyik filer-ünkben. Ha csak 10%-ot takarítok a deduppal, akkor is 100TB-ot spóroltam (alsó hangon is 100TB = 100.000€-t), plusz 100TB-al kevesebbet kell backupolnom. Ha még mindig nem vágod, akkor nem velem van a baj.

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#25) #06658560 válasza tecsu (#23) üzenetére


#06658560
törölt tag

A másik pont, ahol elvérzik az érvelésed: hogy tartod szinkronban az elő dokumentumokat, ha millió helyen van tárolva egy példány belőle? Pláne, ha még dolgoznak is vele? Szerinted miért terjedt el, hogy hálózatra dolgozzanak az emberek, ha nagyobb cégnél ülnek és kell a csoportmunka?

(#26) rudi válasza tecsu (#23) üzenetére


rudi
nagyúr

Nyilván nem az ujjukból szopták ki a Fujitsunál, hogy a deduplikálással akár 5:1 tárhely megtakarítási arány is kihozható. Jaffafa esetében 10%-ot nyertek, de idézek innen akár 30:1 arányút is:

Deduplication domain: the wider the scope of the inspection and comparison process, the higher the likelihood of detecting duplicates. Local deduplication refers to the examination of redundancy at the local resource, while global deduplication refers to inspecting data across multiple sources to locate and eliminate duplicates. For example, a daily full backup of data changing at a rate of 1% or less that is retained for 30 backups has 99% of every backup duplicated. After 30 days, the ratio could reach 30:1. If, on the other hand, weekly backups were retained for a month, then the ratio would reach only 4:1.

Átlagos emberi halandó számára varázslatos dolgok vannak a "nagyipari" adattárolásban. Érdemes megnézni a pl. a storage poolokat vagy a slim/thick volume struktúrákat. Igyekszünk majd a QNAP blogban foglalkozni ezekkel a dolgokkal is.

Resistance Is Futile. You will be assimilated!

(#27) tecsu válasza rudi (#26) üzenetére


tecsu
addikt

Oké, de ha van egy adatbázis, amihez mindenki hozzáfér - értelemszerűen az egész adatbázist nem hordozza magával mindenki az utolsó laptopig -, az eleve felhőben volt, vagy egy központi szerveren, azzal csak átállnak egy másik rednszerre, helyet nem igazán spórolva.

Gondolom ez a Fujitsu nem az óriás adattárakhoz való, ez olyan középvállalatok számára tűnik megoldásnak, vagy ebből építenek kisvárosnyi parkokat is?

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#28) #06658560 válasza tecsu (#27) üzenetére


#06658560
törölt tag

Mondok egy példát.
Ülésfejlesztés járműiparban. Van egy autó, mondjuk Ford Transit. Az összes változatában van 150 ülésvariáció. Ezekhez a csapatban van beszerző, sales, gyártásfolyamat tervező, prototípus koordinátor, FMEA koordinátor, programmanager, lead engineer, tervezőmérnök. Az összes ülésre többen vannak. A BOM Excelben van tárolva, képekkel minden alkatrészről, összeállításról. Ennyi üléshez van vagy tizenöt Excel file. Ezt módosítja gyakorlatilag mindenki, aki fenn fel lett sorolva. A file ugyan adatbázisban van, de ahhoz csak a mérnökök férnek hozzá. Ezért kell lokális másolat. E mellé vannak 3D pdf modellek minden ülésről, minden alkatrészről és részösszeállításról. Egy ülésben van vagy kétszáz ilyen. Plusz DFMEA és PFMEA exportok excelbe, PPAP, Control Plan, QOP, Cost break down, timing, Open Issues, stb. Na, szerinted mennyire jó ötlet mindent lokálisan tárolni, a helyett, hogy van egy elő dokumentum mindenből, mellette archív mappa, s ahhoz nyúl mindenki?

(#29) tecsu válasza #06658560 (#28) üzenetére


tecsu
addikt

Eredetileg prezentációról volt szó (a példádban). ;)

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#30) #06658560 válasza tecsu (#29) üzenetére


#06658560
törölt tag

Az ugyanolyan dokumentum, mint ezek. Miben különbözik szerinted?

(#31) tecsu válasza #06658560 (#30) üzenetére


tecsu
addikt

Méretében, felhasználásában. De ha te az előbbit is prezentációnak hívod...

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#32) #06658560 válasza tecsu (#31) üzenetére


#06658560
törölt tag

A ppt-k jellemzően szintén nagyok, mert nem szöveget tartalmaznak és nem két slideosok. S szintén többen is szerkeszthetik.

Szóval miért éri meg a globális tárolás és a duplikációk kisöprése helyett lokálisan tárolni mindenkinek, majd mailen küldözgetni ész nélkül, a levelezési tárhelyet és egymás türelmét is emésztve?

(#33) rudi válasza tecsu (#27) üzenetére


rudi
nagyúr

Honnan jön ide az adatbázis? Szerintem nagyon elbeszélünk egymás mellett. Angol példát fordítsam le, nem jött át?

A Fujitsu és hasonló kaliberű vállalatok az otthoni júzertől a Google szintű mega tárhely igénylőkig mindenféle formátummal és felhasználással foglalkoznak, van 1-2 fiókos házi NAS-uk és van temérdek rack alakpú gépük, amiben akár Skylake alapú Xeon is dolgozhat, nem beszélve az olyanokról, ahol a tároló rackek szekrényét külön szerver "hajtja meg".

Rengetegféle adatstruktúra és tárolási stratégia létezik náluk, amiknek a megismerése és a megfelelő implementálása külön szakma. Mondok egy kiragadott példát, de nem azért hogy elkezdj a részleteibe beleturkálni, hanem hogy hátha megvilágosodsz belőle, milről lehet itt szó:

Legyen az az igény, hogy egy 20 tagú fejlesztőcsapat dolgozik ugyanazokon a terveken (ezek lehetnek 3d modellek, prezentációk, nagyfelbontású képek, akármik, ez lényegtelen) heti szinten 1 TB adatot generálva. És szeretnénk biztonságban tudni a gépeki fejenként 8 TB-os merevlemezét, illetve szeretnénk, ha az éppen aktuális verziókból kb. 1 TB adat minden csoporttag által a legkisebb késleltetéssel elérhetőek legyenek.

Mezei ember úgy állna neki a dolognak, hogy hozzunk össze egy tárolót, amire rá lehet menteni mind a 20 emberke 8 TB-os merevlemezéből a három legutóbbi teljes állapotot, ergo kell 20 x 8 x 3 = 480 TB. Meg kell valami 1 TB gyors online elérés is - nyilvános vagy privát felhőben. Végig tiszta tárhelyben gondolkodunk, ahol az adatbiztonságot RAID6 tömb oldja meg.

Kicsit okosabban már csak inkrementális mentést csinálnak minden júzernél, amihez erősebb hardver kell a NAS-ban, de nem kell háromszoros tárhely, mert mentésenéként a júzereknél kb. 1 TB a frissülő adat. Így az állás 20 x 8 x 1,2 = 192 TB meg az 1 TB felhős tár.

Rákapcsolva erre még a deduplikációt rájövünk, hogy a 20 fejlesztő ugyanazon az adattömegen dolgozik, ha Pista gépe bekakál, akkor lényegében Jóska mentéséből is újra tudjuk húzni az adatait. Kis analízis, kis elemzés és hopp máris nem kell 20 külön ember, hanem mondjuk csak 5 mentése 4:1 deduplikációs arány. Ergo tárhelyben 5 x 8 x 1,2 = 48 TB. Meg a felhős 1 TB.

Következő szintként elkezdhetjük elemezni, hogy a júzerek a 8 TB-ból mennyit használnak valójában. Ha kijön, hogy átlagban csak 4 TB-ot, akkor akkor felezhető a tárhely és csinálhatunk egy olyan storage poolt, amiben minden júzerre 4 TB-tal számolnak, de ha valaki túlmegy rajta, akkor dinamikusan kap teret más júzer nem használt helyéből. Az ilyen rednszerek tudnak jelezni, amikor fogy a valódi tárhely és kvázi pillanatok műve rájuk kapcsolni még egy csomó adattárat. Ergo 5 x 4 x 1,2 = 24 TB-nál tartunk. Meg az 1 TB felhő.

Bár a példámhoz nem igazán illik, inkább valami gyors, sok lekéréses adatbázishoz passzolna, de a felhős 1 TB helyett betehetünk a saját tárolónkba 2 TB-os SSD-t. Bedobva ezt a gyors táhelyet a storage poolba használhatjuk gyorsítótárnak a júzerek inkrementális mentési folyamataihoz. Sőt, lehet nem is kell majd használni, mert csinálható úgy, hogy amikor Jóska inkrementális mentését csináljuk, akkor összehasonlítjuk az 1 TB-os felhős adatcsomaggal a munkáját, és ami azonos verziójú, azt nem ráncigáljuk át a hálózaton, hanem szépen a sokkal gyorsabb storage poolban másolgatun, akár időben eltolva olyankorra, amikor kisebb a tároló terhelése.

És még ezer apró finomítás, amihez nekem nem elég mélyek az ismereteim ;)

[ Szerkesztve ]

Resistance Is Futile. You will be assimilated!

(#34) tecsu


tecsu
addikt

Köszi az infót. A költségek vajon hogy viszonyulnak egymáshoz a különböző megoldások esetében?

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#35) rudi válasza tecsu (#34) üzenetére


rudi
nagyúr

Maradjunk SATA volnalon és nemenjünk a gyorsabb, de jóval drágább SAS meghajtókhoz, és számoljunk RAID6 tömbbel. A korábbi példámban 480 TB-ról le tudtuk faragni az nettó tárkapacitást 24 TB-ra. A 24 TB-os tárkapacitáshoz RAID6 alapon elég nekünk 6 darab, fejenként 6 TB-os, vagy 5 darab, fejenként 8 TB-os merevlemez, amivel akkor is jók vagyunk, ha valami oknál fogva egyszerre kettő kihal.

Ha nem csúcs adatcenter, de nem is szittya mezei merevlemezben gondolkodsz, akkor a WD Red Pro széria környékén illik nézelődnöd, ott a 6 TB-os 90 000 forint körül fogható, a 8 TB-os jóval drágábbb, valami 140 000 forint. Summázva 6 x 90k = 540k forint merevlemezre.

Ennyi merevlemez alá elég egy kis/középvállalati NAS, valami a QNAP TS-653A-tól fölfelé, legalábbis én ott nézelődnék. A QNAP TS-563 már 10 Gbps-os Ethernetet is tud, a TVS-882 meg már Core i3-as, a 6 merevlemez mellé van két 2,5"-os SSD foglalata és M.2-es SSD-ket is lehet beletenni gyorsítótárnak, virtualizációhoz meg mindenhez elég erős, de talán már sok is. Az első két NAS olyan 250 000 forint körül van, a harmadik viszont már közel egymillió forint, itt már nálam jobban képben kell lenni, hogy a rendszermérnök ne költtessen el több mint félmilliót olyanra, amit nem használnak ki.

A végösszeg tehát valahol 800 000 forintnál indulna (kellhet legalább egy tartalék HDD esetleg) abban az esetben ha optimalizáltan 24 TB-ban gondolkodunk.

Ha maradnánk 480 TB-on RAID6 tömbben, akkor 82 darab 6 TB-os merevlemez kellene, de ugyanúgy csak kettő darab meghibásodását bírnánk el adatvesztés nélkül, ez sokkal kellemetlenebb mint az előző példában, nem beszélve a merevlemezek 7,4 millió forintos áráról. Ráadásul ennyi merevlemezhez már valami rack szekrény kellene. A 2U magas fiókok max 12 HDD-t szoktak megenni, azokból kellene a NAS mellé hat darab. NAS szinten megint a QNAP TS-1263U környékéről lehetne indulni, az 500 000 forint körül van, mellé 6 drab kiegészítő fiók (nem tudom, hogy kezel-e annyit) lenne még egyszer annyi.

A végösszeg tehát a korábbi példámhoz, brute force alapon 8 millió fölötti lenne, ami egy nagyságrenddel az átgondolt tervezési ár fölött van. És hasonló mértékben magasabb lenne az üzemeltetési költség is.

Most szólok, mielőtt a témában nálam sokkal jobban jártas kommentelők szétszednének, hogy ezek csak amolyan becslések, egy lehet itt-ott sarkított példa a nagyüzemi adattárolás érdekességeinek megmutatásához.

[ Szerkesztve ]

Resistance Is Futile. You will be assimilated!

(#36) tecsu válasza rudi (#35) üzenetére


tecsu
addikt

Köszönöm a részletes választ.

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#37) Jaffafa válasza rudi (#35) üzenetére


Jaffafa
aktív tag

Jó összefoglalás, és csak annyiban egészíteném ki, hogy nagyvállalati környezetben, ahol több száz/ezer júzert kell kiszolgálni, ott már egy ilyen "mezei" NAS sajna nem elég. Ott bizony röpködnek hardverenként a 25-100 millió FT-ok. (S, akkor ez még csak egy sima nagyobb cég és nem egy Google, Facebook, vagy Microsoft.)

@Tecsu: Azt többek közt én is elfelejtettem leírni, hogy a deduplikásnak is több fajtája van. Nem feltétlenül fájl alapú (az leginkább az Object-Storage-okban van). A Block-Storage deduplikálása jellemzöen nem fájl alapú, hanem pl. minden 4KB-os block analizálva van és ha két vagy több egyforma van, akkor csak egy lesz lementve a többi meg erre az egy lementett blockra fog mutatni. Hidd el, rettentö sok helyet lehet így megtakarítani. Írok egy példát:
Adott pl. egy virtualizációs környezet, ahol van néhány szerver és mondjuk 400 kliens. A szerverek különbözöek, de a kliensek adattartalma (OS, driver és egyéb) 90%-ban megegyezik. Legyen egy kliens foglalt tárhelye 100GB a (az egyszerüség kedvéért és thick-provisionnel számolva). Tehát ebben az esetben, ha nincs deduplikáció akkor 400 x 100GB tárhelyre van szükség. Deduplikációval viszont elég lesz 1 x 90GB + gépenként 10GB is!!!

[ Szerkesztve ]

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#38) tecsu válasza Jaffafa (#37) üzenetére


tecsu
addikt

"Ott már egy ilyen "mezei" NAS sajna nem elég. Ott bizony röpködnek hardverenként a 25-100 millió FT-ok. (S, akkor ez még csak egy sima nagyobb cég és nem egy Google, Facebook, vagy Microsoft.)"

Na igen, arra gondoltam, hogy itt (közép esetleg kisebb vállalati szinten) a tárkapacitáson való spórolás talán nem érhet annyit, amibe az egész analizáló rendszer kerül (hardver, szoftver, szabványok).

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#39) rudi válasza Jaffafa (#37) üzenetére


rudi
nagyúr

Vállalati szinten hogyan csinálják a nagy adatmennyiség RAID tömbözését? Értem ez alatt a 12-24 disknél többet igénylőket, ahol a RAID6 két kieshető diszkje már nem olyan csodás arány mint 5-6 darabnál.

Resistance Is Futile. You will be assimilated!

(#40) Patice válasza rudi (#39) üzenetére


Patice
nagyúr

Szerintem sima poolozással...

Eladó: TP-Link 24-es switch, Xbox 360, Daewoo Matiz

(#41) Jaffafa válasza rudi (#39) üzenetére


Jaffafa
aktív tag

Ez változó, de egyre inkább az a trend (nagyon helyesen), hogy a RAID-tömbök nem fizikális merevlemezekböl épülnek fel, hanem chunkletekböl. A chunklet alatt egy fizikális lemez egy kisebb szeletét kell érteni. Tehát nagyon sokáig az volt a trend (és egyes gyártóknál még mindig így van), hogy van több száz merevlemezem a boxban és ezeket összefüzöm RAID-tömbökbe (attól függöen, hogy éppen mire kell a dolog, R1, R5, R6, R10) és a RAID-tömbökböl pedig csinálok egy un. poolt. A poolból pedig készítem a logikai merevlemezeket a szervereknek (LUN). Szal ez volt eddig a trend, de mára már egyre több gyártó eljut oda, ahol pl. a HP 3PAR már vagy 5-6 éve eljutott. Nevezetesen, hogy a létezö összes fizikai merevlemezemet felosztom szeletekre (=chunkletekre), pl 128MB-os szeletekre és ezekböl a szeletekböl hozom létre a a majdani RAID-tömbjeimet. A technológiát wide-striping-nak is szokták nevezni. Hogy miért jó ez? Hát azért, mert ha kellöen nagy a szerver felé megosztott LUN, akkor ideális esetben az összes fizikai merevlemezem dolgozik, szemben a másik variációval, ahol maximum egyszerre 1-4 RAID-tömb dolgozott. Nagyon nem mindegy, hogy 500 vagy 30 fizikai merevlemezröl kapja az adatot a szerver.

De a kérdésedre felelve: Igazából a Raid6 az nálunk csak nagy (NL-SAS) merevlemezeknél releváns, máshol mi raid5 vagy raid1-et használunk. Extrém esetben raid10-et. Van olyan gyártó, (pl. NetApp vagy EMC), ahol ún. spare-diskek vannak mindegyik poolban. Ezek sima fizikális merevlemezek, amik akkor ugranak be, ha kiesik egy merevelemez. Pooltól függöen akár 10 is lehet, hisz simán elöfordulhat, hogy a poolból egyszerre (vagy, ha nem is egyszerre, de amíg a rebuild tart, ami akár 24 óráig is eltarthat) több merevlemez kiesik. Így nem gond, ha csak a következö napon cserélik a kihullott lemezeket. (Ha kiesik egy merevlemez, sohasem gond, mert nagyvállalati szinten sohasem te cseréled a merevlemezeket, hanem az a cég, akivel szerzödésben vagy. Normál esetben nálunk 4 órán belül ki van cserélve a kihullott lemez, de a legrosszabb esetben is 24 órán belül.)
S van olyan hálózati adattároló (remélem ez a storage box magyar neve), ahol még mindig csak sima raid-tömbök vannak és mindegyik raid tömbben van max. 1 spare. Tehát ha kiesik egymásután 3 merevlemez (a nagy számok törvénye alapján márpedig kiesik), akkor gebasz van.
A HP 3PAR-hoz visszatérve viszont a chunkletek mellett, vannak ún. spare-chunkeletek is és azok ugranak be ha szükség van rájuk. A wide-striping miatt a rebuild (rebuild = az az idö, amíg a kiesett merevlemez helyére beugró lemez meg nem kapja az adatokat a többi lemeztöl) is sokkal gyorsabb, hisz ha kiesik egy disk, akkor nem csak 4-18 merevlemezröl jönnek a visszaállításhoz szükséges adatok, hanem akár több száztól is egyszerre. Régebben nem volt ritka, hogy 24 óráig is eltartott, hogy a rebuild megvolt, ez a wide-stripinggal simán 1-2 órára csökkent.
Mi pl. ma már szinte mindenhol raid-5-öt használunk. Ez alól kivétel a NL-SAS, tehát a lassú nagy lemezek, ahol 2-6TB-nál nem engedhetjük meg, hogy hosszú rebuild alatt adatvesztés legyen. Arról nem is beszélve, hogy a NL-SAS merevlemezek tetü lassúak.
(Bocs, ha túl hosszú voltam :P )

[ Szerkesztve ]

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

(#42) tecsu válasza Jaffafa (#41) üzenetére


tecsu
addikt

Van egy távoli backup is ezekhez, vagy arra nincs igény, hogy egy messzi épületben is legyen biztonsági mentés?

https://www.youtube.com/watch?v=F7uwRuF6pYw

(#43) rudi válasza Jaffafa (#41) üzenetére


rudi
nagyúr

Hú, köszi az infókat! Néhány dolog megvilágosodott bennem, amit majd a QNAP blogban hasznosítani tudok :) Szerintem megkereslek majd privátban további kérdésekkel.

Resistance Is Futile. You will be assimilated!

(#44) Jaffafa válasza tecsu (#42) üzenetére


Jaffafa
aktív tag

Backup-ra sokféle koncepció van. A nagyobb cégek nyilván több fizikailag elkülönített helységekben,(vagy pl. ahogy nálunk van akár egymástól több (tíz vagy száz) km-re lévö adatközpontokban) tárolják mind a szervereket és az adatokat. Ezekben az adatközpontokban van hütés is, mert ha több száz szerver van egy teremben, azzal elég jól lehet füteni :)
A backup éppúgy lehet lokális, vagy éppen több adatközpontba replikált. Csak pénz kérdése a dolog :)
Jellemzöen a kritikus alkalmazások (pl. egy mobilszolgáltató, vagy egy banki alkalmazás) eleve úgy vannak felépítve, hogy a hardver két különbözö adatközpontban van és a hozzá tartozó storage is. Az adatokat pedig vagy a host, vagy a storage replikálja a két adatközpont közt. Már eleve ezt is nevezhetnénk egyfajta "backup"-nak, de valójában ez csak a rendelkezésre állási idöt növeli. Tehát ha le is áll egy adatközpont (tüz, természeti katasztrófa etc.), attól még az alkalmazás tovább futhat. De nyilván ez nem tekinthetö valódi backupnak, ezért erröl készül még egy biztonsági másolat, amit jellemzöen egy szoftver végez és adatokat merevlemezre, vagy szalagra menti le, akár több adatközpontban is.

"Most már ideje lefeküdni. De előtte elolvasom a NENYI-t, hogy merjek nagyokat álmodni." by Szözö

Copyright © 2000-2024 PROHARDVER Informatikai Kft.