Blog

Blog

Globalna deduplikacja – dlaczego warto…

 

Efekt kuli śniegowej, to nie tylko pojęcie zaczerpnięte z opowieści z wysokimi, ośnieżonymi szczytami w tle, czy synonim dziecinnych igraszek przy lepieniu bałwana… W terminologii ekonomicznej, gospodarczej czy społeczno-politycznej to termin posiadający zdecydowanie negatywny wydźwięk. To zapowiedź trudności, zwykle przebiegających dynamicznie, trudnych do opanowania i narastających w nieprzewidywalnych warunkach, obrazowo rzecz ujmując, to proces o charakterze lawinowym.
W sektorze IT nie brakuje również tak dynamicznych i poważnych problemów do rozwiązania. Trudności z jakimi mierzą się specjaliści w zakresie bezpieczeństwa oferowanych rozwiązań technologicznych i usług, łączności z zachowaniem nieprzerwanej ciągłości i integralności biznesowej można przyrównać do tego typu efektu. Ma to miejsce zwykle, gdy pojedyncze zagadnienie generuje trudności na kolejnych, czasem znacznie odległych strukturalnie poziomach architektury IT.
Zarządzanie zasobami danych w tak istotnej dziedzinie gospodarki jak technologie informatyczne ma fundamentalne znaczenie. Właściwie obrany kierunek cyfryzacji w administracji, bankowości, telekomunikacji czy dowolnie wybranej komórce przemysłu nadaje tym sektorom adekwatnie dynamiczny kurs rozwoju, wykorzystując ich potencjał i założenia strategiczne.
Opierając się na ostatnim raporcie Polskiej Izby Informatyki i Telekomunikacji rozbudowa nowoczesnej infrastruktury informatycznej, rozszerzenie zasięgu nowoczesnych usług i cyfryzacja procesów to najistotniejsze z czynników warunkujących kondycję polskiej gospodarki.
Jednym z poważniejszych wyzwań dla specjalistów zarządzających zasobami IT jest efektywne panowanie nad lawinowym przyrostem danych. Zwykle próby usprawnienia procesów zarządzania nimi oraz ich ochrony uruchamiają zapotrzebowanie do zastosowania pamięci masowej, na potrzeby kopii zapasowych, wymuszają poprawę wydajności sieci SAN czy budowanie centrów przetwarzania danych.
Eskalacja kosztów spowodowana koniecznością rozbudowy struktur IT jest czynnikiem obciążającym dla podmiotów gospodarczych, których codziennością jest walka z ograniczeniem wydatków. Wobec tego jednym z priorytetów wszelkich modernizacji w tym zakresie jest unikanie kosztownych propozycji.
Nadmiar spływających danych jest głównym powodem gwałtownego i tak naprawdę nie do końca kontrolowanego wzrostu ich ilości w zasobach firmy.
Sposobem na rozwiązanie tego zagadnienia jest proces deduplikacji. Początkowo skupiała się ona na eliminacji redundancji danych w przypadkach:
– zapełnienia kopii zapasowych,
– nagromadzenia zawartości załączników do wiadomości e-mail,
– gromadzenia obrazów systemu operacyjnego.

Pomimo wdrożenia procesów deduplikacji wobec posiadanych zasobów, z czasem, i tak klienci sygnalizowali wszechobecność powielania danych. Przyczyniały się do tego min.:
– namnażające się w obrębie całej organizacji dane testowe i programistyczne,
– replikacja danych pomiędzy poszczególnymi serwerami i bazami danych,
– archiwizacja zasobów przy wielokrotnym tworzeniu kopii zapasowych w obrębie całej struktury danej sieci firmowej,
– kopiowanie danych przez użytkowników do wielu lokalizacji spowodowane chęcią ułatwienia do nich wygodnego dostępu.

Na podstawie przeprowadzonych badań i analiz dla Storage Networking Industry Associated (SNIA) szacuje się, że tworzenie wielu zapasowych kopii danych, w zależności od organizacji rozwiązania oferowanego przez producenta, prowadzi do używania i administrowania od 2 do 50 razy większą ilością pamięci, niż ma to miejsce przy wykorzystaniu deduplikacji.
Uwzględniając wpływ wykorzystania tej technologii na wynik finansowy danego podmiotu gospodarczego, należy przyjąć że musi ona stać się zintegrowanym i obowiązkowym elementem ogólnej strategii IT dla każdej jednostki gospodarczej, gdyż z uwagi choćby na jej rzeczywistą efektywność nie może być uznawana i traktowania jak technologia niszowa.
Temu zagadnieniu w dniu 10 listopada br. poświęcony zostanie webinar zorganizowany przez SNIA, podczas którego prowadzący: Abhishek Rajimwale – Dell, John Kim – NVIDA oraz Alex Mcdonald – SNIA NSF wyjaśniać będą jak wybrnąć z „szaleństwa duplikacji” oraz omówią zagadnienia w zakresie:
– eliminacji duplikatów na komputerze stacjonarnym, serwerze, urządzeniu pamięci masowej lub urządzeniu do tworzenia kopii zapasowych,
– technologi Dedupe, w tym deduplikacja lokalna i globalna,
– unikania lub ograniczania tworzenia kopii danych (brak powielania),
– deduplikacja na poziomie bloku a deduplikacja na poziomie plików lub obiektów,
– deduplikacji in line a post proces,
– bardziej wydajnych techniki tworzenia kopii zapasowych.

Deduplikacja rewolucjonizuje sposób przechowywania i ochrony danych. Korzyści biznesowe jakie płyną z deduplikacji przyczyniają się do obniżenia kosztów ochrony danych, jak również prowadzą do osiągnięcia jeszcze lepszego czasu odzyskania utraconych plików i środowisk. Wynika to między innymi ze znacznie zmniejszonej ilości miejsca na dysku potrzebnego do tworzenia kopii zapasowych we wszystkich warstwach pamięci masowej.
Dzięki obniżeniu kosztów zakupu, a także zmniejszonym wymaganiom dotyczącym mocy, miejsca i chłodzenia możemy sprawnie przechowywać nasze bieżące dane jak i te z przedłużona retencją.

Commvault inżynier wsparcia

Wdrożenie Commvault

Rozwiązania alternatywne?

 

Producenci kopii zapasowych, w swoich ofertach wskazują własne sposoby i pomysły jak uporać się z zagadnieniem danych nadmiarowych. Dostępne są w tym zakresie zarówno rozwiązania programowe jak i sprzętowe.
Zwrócić jednak należy tutaj szczególną uwagę, na fakt, iż niejednokrotnie producenci mniej zaawansowanych rozwiązań programowych, w celu podniesienia efektywności swoich narzędzi deduplikacyjnych, posiłkują się sprzętowymi urządzeniami przejmującymi zadanie pozbycia się nadmiarowych danych.
Niestety tego rodzaju propozycje, z założenia narażone są na wyższe koszty nabycia jak i późniejszego użytkowania. Należy bowiem pamiętać, że zakup dodatkowo fizycznego sprzętu jak i jego wsparcia nie należy do rozwiązań tanich. Dodatkowo, pojawiają się trudności przy obsłudze danych przez sprzętowe duplikatory w zakresie ich poziomów skalowalności. Nie zawsze można je skalować liniowo przez dokładanie urządzeń do rozszerzenia globalnej puli deduplikacyjnej.
Sytuacja komplikuje się znacznie bardziej w środowiskach na wyższym stopniu wymagań, operujących niejednokrotnie na wielu serwerach fizycznych a także wirtualnych, dysponujących maszynami i bazami wieloterabajtowymi. Czy wówczas, będące w naszym posiadaniu, deduplikatory sprzętowe poradzą sobie z obsługą takiego środowiska? Zapewne tak, ale takie rozwiązanie będzie znacznie bardziej obciążone nakładem środków jakich zmuszeni będziemy użyć przy zakupie odpowiednich, czytaj bardziej kosztownych, urządzeń lub dodatkowych usług chmurowych.
Poza aspektem opłacalności takiego projektu, dostrzegalny jest również dodatkowo problem związany z czasem niezbędnym do odzyskania naszego środowiska, biorąc pod uwagę, istniejący obecnie, chorobliwy trend do gigantyzmu i przerostu naszego otoczenia IT, wynikający z przekonania o konieczności zachowania danych lub nabytej niechęci kasowania mniej znaczących danych. W świetle zagrożeń związanych z włamaniami do sieci i atakami ransomware ten parametr staje się niezwykle istotnym kryterium.
Niezależnie od tego, co twierdzą przedstawiciele poszczególnych firm oferujących takie rozwiązania zdecydowana większość dostępnych na rynku deduplikatorów sprzętowych nie może się pochwalić satysfakcjonującym dla użytkownika czasem odzyskiwania danych. Działanie tych urządzeń oparto na dużych, ale wolniejszych dyskach magnetycznych, bywa że często wspomaganych poprzez drobne przestrzenie SSD.
Co raz liczniejsze grono klientów wykazuje chęć posiadania mechanizmów deduplikacyjnych w oparciu o dyski SSD, niektórzy spośród nich podejmują próby dopasowania backupu na jeszcze szybszych zasobach. Wyjściem naprzeciw ich oczekiwaniom jest propozycja instalacji wirtualnych aplikacji (appliance), umieszczonych na przestrzeni SSD lub SSD NVMe, FCM, SCM itp. w postaci wirtualnych maszyn.
Niestety aktualne ograniczenia licencyjne skutecznie blokują tego typu projekty do przestrzeni kilkudziesięcio terabajtowych (no. Do 96TB).
Pocieszającym jest fakt, iż jeden z producentów tej technologii, w rozmowie ze specjalistami z Vernity zapowiedział wykorzystanie wirtualnego appliance deduplikacyjnego o rozmiarze 256TB.

 

Rozwiązania programowe

 

Nie wszystkie produkty wykorzystywane do deduplikacji dostarczają kompletne rozwiązanie. Pomocnymi, jak zwykle w takich sytuacjach, okazują się rozwiązania programowe zintegrowane z posiadanym oprogramowaniem do backupu. Naturalnie i na tej płaszczyźnie dostrzec można wiele trudności, które spowodowane są min. wąskimi gardłami transferu, niepełnymi kopiami zapasowymi czy niewystarczającą redukcją danych.
Wiodące na rynku rozwiązania, a takim zdecydowanie jest Commvault Backup & Recovery, obejmują globalną deduplikację jako zintegrowany komponent kompletnego rozwiązania do zarządzania danymi. Deduplikację w swojej ofercie posiada wielu producentów. Najczęściej nie jest to jednak deduplikacja globalna a tylko per zadanie, dająca znacznie mniejszy uzysk i większe wymagania sprzętowe.
Projektując mechanizm systemu deduplikacji specjaliści IT oraz ich zleceniodawcy powinni zwrócić szczególną uwagę na następujące rozwiązania i ich funkcje:
– większą liczbę punktów przywracania i krótszy czas odzyskiwania zasobów,
– możliwość zarządzania deduplikacją typu wskaż i kliknij,
– możliwość skalowania bez kosztownych aktualizacji sprzętu,
– posiadanie wbudowanego raportowania deduplikacji dla różnych dostawców, typów danych, źródeł i platform,
– prostotę pojedynczego rozwiązania ułatwiającą wdrażanie i administrację,
– możliwość szybkiego i bezpiecznego odzyskiwania krytycznych danych biznesowych we wszystkich lokalizacjach, aplikacjach, nośnikach pamięci masowej i punktach w czasie,
– integralność danych oraz funkcje bezpieczeństwa,
– szybkość i kompleksowość wyszukiwania ułatwiające odzyskiwanie danych,
– pojedynczy punkt zarządzania,
– kompleksowość deduplikacji globalnej obejmującej środowisko bez podziału na deduplikację typu per zadanie.

Commvault Backup & Recovery bezpośrednio rozwiązuje holistyczne wyzwania związane z zarządzaniem danymi, a także integruje wszystkie podstawowe funkcje rozwiązań do deduplikacji. Stosuje unikalne podejście do zarządzania informacjami, mianowicie wykorzystuje pojedynczą, wydajną, skalowalną platformę do wykonywania pełnego zakresu funkcji zarządzania danymi, oferując jednocześnie rozszerzalny zakres modułów aplikacji.
Commvault zapewnia wiele opcji tworzenia kopii zapasowych i odzyskiwania zgromadzonych zasobów. Zawiera elastyczną infrastrukturę informatyczną do ochrony danych na serwerach fizycznych i wirtualnych, w tym również szybkie i ekonomiczne przywracanie po awarii zapewniające ciągłość biznesową. Oprócz deduplikacji oprogramowanie to wykonuje archiwizację danych, tworzy kopie zapasowe i odzyskuje, replikuje i zarządza migawkami oraz zasobami danych.
Połączenie wszystkich tych funkcji zapewnia unikatowe korzyści w zakresie zarządzania danymi – a wszystko to z poziomu jednej, zintegrowanej konsoli.
Commvault Backup & Recovery eliminuje wszelkie zduplikowane kopie, w tym także kopie zapasowe i archiwalne danych zarządzanych zgodnie z wytycznymi Globalnej polityki przechowywania danych. Wykonuje te operacje niezależnie od źródła, typu danych czy platformy.
Rozwiązanie to zakłada połączenie deduplikacji uwzględniającej konkretną zawartość danych opartej na segmentach wraz ze skalowalną bazą danych deduplikacji, tym samym zapewniając lepsze wyniki w porównaniu z innymi podejściami opartymi na blokach.
Korzystając z bazy danych deduplikacji, podpis cyfrowy danych unikatowych jest porównywany z każdym innym segmentem danych w ramach globalnej polityki przechowywania. Maksymalizuje to deduplikację w 100% danych kopii zapasowych i archiwalnych.
Połączenie generowania mieszania sygnatur na kliencie ze zintegrowanymi możliwościami kompresji i szyfrowania danych minimalizuje wymagania dotyczące przepustowości sieci i maksymalizuje szybkość i bezpieczeństwo sieci typu end-to-end, od klientów po warstwy dyskowe i taśmowe.
Niezwykle istotnym jest fakt, że przy stosunkowo niewielkich wymaganiach sprzętowych jakie charakteryzują globalne bazy deduplikacyjne uzyskujemy m.in.:
– olbrzymią oszczędność przestrzeni,
– możliwość zachowywania bardzo dużej liczby punktów odzyskiwania, co wynika z tego, że przy globalnej deduplikacji nasze kolejne punkty odzyskiwania zajmują bardzo mało miejsca,
– kolosalne transfery również przy słabych łączach typu 1Gb/s pozwalające nam na znaczne ograniczenie wymagań sieciowych przy jednoczesnym przerzucaniu bardzo dużych ilości danych źródłowych

Ponadto w odróżnieniu od zamkniętych rozwiązań sprzętowych wykorzystując globalne bazy deduplikacyjne otrzymujemy zdolność do elastycznego partycjonowania naszych baz, dzięki czemu zyskujemy poprawę wydajności na żądanie, oraz możliwość m.in. migracji i zamykania baz deduplikacyjnych na żądanie.
Co niezwykle istotne, w rozwiązaniu Commvault bazy deduplikacyjne nie są potrzebne do odzyskania danych. Same globalne bazy deduplikacyjne służą do zniwelowania potrzeby zapisywania danych powtarzalnych, co bezpośrednio przekłada się na szereg korzyści związanych z większą szybkości i pewnością backupu, mniejszym zapotrzebowaniem na przestrzeń i przepustowość sieci oraz na uzyskanie większej elastyczności związanej z retencją danych.
Commvault Backup & Recovery jest liderem w magicznym kwadracie Gartnera. Co ich wyróżnia? Inni producenci rozwiązań backupu również stosują deduplikację, ale w odróżnieniu od technologii Commvault ich oferta jest mniej zaawansowana. Przede wszystkim najczęściej nie jest to deduplikacja globalna tylko per zadanie, charakteryzująca się znacznie mniejszym uzyskiem i większymi wymaganiami sprzętowymi.
Dodatkowo wielu producentów oprogramowania do kopii zapasowych wymaga, żeby dane deduplikacyjne były zawarte w backupie w celu ich odzyskania. Ponadto znaczna część globalnych baz deduplikacyjnych, uruchamiana jest post proces, co oznacza że zadania w tle wymagają uprzedniego zrzucenia danych nie zdeduplikowanych. W tym przypadku to jest wymogiem do prawidłowego odzyskania danych.
Oprogramowanie wchodzące w skład Commvault łączy również wspólny indeks tj. katalog z unikalnym silosem do śledzenia i pobierania tylko wymaganych danych, bez konieczności długotrwałego przywracania i przeszukiwania całych wolumenów danych. Przynosi to korzyści w obszarach zwiększonej wydajności, jak również w zakresie lepszych możliwości zarządzania zasobami.

Globalna deduplikacja Commvault

Backup danych Commvault

Zwiększona wydajność

 

Celem zoptymalizowania wydajności Commvault promuje politykę „inteligentnej deduplikacji”. Założono bowiem, że zamiast wielokrotnie tworzyć kopie zapasowe tych samych danych w sieci, tylko po to, aby je odrzucać post proces, można wskazać inteligentniejszą strategię wyboru danych, która pozwala na przeniesienie tylko zmienionych obiektów na media bez wpływu na odzyskiwanie.
Ponadto Commvault utrzymuje globalne odniesienie do istniejących segmentów danych, które są przesyłane do zasobów backupu. Przetwarzanie w pamięci zapewnia, że nadmiarowe dane nigdy nie docierają do biblioteki na dysku. To, z kolei, znacznie poprawia skalowalność rozwiązania i wydajność tworzenia kopii zapasowych.
Chcąc zapewnić szybkie przywracanie zdeduplikowanych kopii zapasowych postanowiono połączyć zaawansowany model indeksowania z losowym dostępem do dysku. W następstwie tego zbiegu, podczas odzyskiwania danych oprogramowanie odczytuje segmenty danych we właściwej kolejności i przenosi je do miejsca docelowego przywracania bez ponownego składania, co zapewnia maksymalną wydajność przywracania zdeduplikowanych kopii zapasowych.
Uzyskując poprawę wydajności tworzenia kopii zapasowych, Commvault umożliwiło przechowywanie większej liczby kopii zapasowych z określonego punktu w czasie, obejmując dłuższe okresy. W skutego tego przechowywanie większej liczby kopii zapasowych na dyskach o wysokiej wydajności zapewnia ich szybkie odzyskanie.
Nienaruszona migracja zdeduplikowanych danych na taśmę zapewnia również, że przywracanie starszych danych jest jeszcze szybsze i bardziej szczegółowe niż w przypadku metod alternatywnych. W rezultacie odzyskiwanie danych nigdy wcześniej nie było tak łatwe, szybkie ani wydajne.
Podsumowując oprogramowanie Commvault Backup & Recovery umożliwia korzystne finansowo spełnienie nawet najbardziej rygorystycznych umów SLA dotyczących tworzenia kopii zapasowych i odtwarzania po awarii, eDiscovery i wymagań zgodności.

 

Ulepszone zarządzanie

 

Funkcje pełnego oprogramowania Commvault do tworzenia kopii zapasowych, archiwizacji i zarządzania danymi bezproblemowo współpracują również z funkcją deduplikacji. Posiadają wspólną strukturę obejmującą pojedynczą platformę produktu. Przechodząc na oprogramowanie Commvault, otrzymujemy nie tylko całościowe i zupełne rozwiązanie zagadnienia deduplikacji, ale także ujednolicony widok wszystkich procesów zarządzania zasobami posiadanych danych.
Będąc w posiadaniu takiego narzędzia faktycznie integrujemy deduplikację z szerszymi obszarami funkcjonalnymi na poziomie zarządzania danymi. Commvault upraszcza wdrażanie i zarządzanie, zapewnia lepszy zwrot z inwestycji w zdecydowanie krótszym czasie.
Umożliwia czerpanie korzyści z lepszego bezpieczeństwa przy niższych nakładach kosztów na utrzymanie odpowiedniej jakości zabezpieczenia. Ponadto wykorzystanie zdalnej replikacji zdeduplikowanych danych w oparciu o sieć WAN eliminuje znaczne koszty i słusznie uzasadnione obawy związane z bezpieczeństwem podczas wysyłania dużych ilości danych do lokalizacji DR (disaster recovery).
Oprogramowanie Commvault daje nam integralność i bezpieczeństwo danych, zapewniając natychmiastowe alerty, wygenerowane na podstawie kontroli integralności danych wbudowanej bezpośrednio w model globalnej polityki przechowywania. Jakiekolwiek odchylenie od pierwotnego składu danych choćby z powodu przypadkowej zmiany danych podczas przesyłania lub przechowywania, uruchamia sekwencję komunikatów alarmowych.
Dostarczając oprogramowanie Commvault mamy uzasadnioną pewność, że to jedyne kompleksowe rozwiązanie do zarządzania danymi, które zapewnia globalną deduplikację danych w ramach funkcji replikacji, tworzenia kopii zapasowych i archiwizacji.
Unikalność jednoplatformowej architektury umożliwia przechowywanie skompresowanych danych we współużytkowanych zasobach pamięci masowej, zapewniając tym samym szybkie przywracanie i kontrolę nad wszystkimi funkcjami zarządzania danymi z poziomu jednej konsoli.
Zintegrowane rozwiązanie do deduplikacji firmy Commvault pozwala realnie zmniejszyć nakład kosztów i złożoność infrastruktury IT. Zapewniając równocześnie skuteczniejszą wydajność, udoskonalone procedury zarządzania zasobami danych i efektywną wydajność pamięci masowej.

Dariusz Michałek
Inżynier systemowy w Vernity

 

Zainteresował Ciebie ten artykuł?
Potrzebujesz wsparcia lub konsultacji z naszym inżynierem?
Napisz do nas

 

 

 

 

 

 

 

 

Powrót do listy

Blog

Nasza strona internetowa używa plików cookies w celach statystycznych oraz funkcjonalnych. Dzięki nim możemy indywidualnie dostosować stronę do Twoich potrzeb. Dowiedz się więcej.