Страхувате се да изтриете данни? Помисли отново

Не можахте ли да присъствате на Transform 2022? Разгледайте всички сесии на върха в нашата библиотека по заявка сега! Гледайте тук.


Данни е ценен корпоративен актив, поради което много организации имат стратегия никога да не изтриват нищо от него. И все пак, тъй като обемите на данните продължават да растат, съхраняването на всички данни може да стане много скъпо. Приблизително 30% от данните, съхранявани от организациите, са излишни, остарели или тривиални (ROT), докато проучване от Splunk установи, че 60% от организациите казват, че половината или повече от техните данни са тъмни – което означава, че стойността им е неизвестна.

Някои остарели данни могат да представляват риск, тъй като компаниите се справят с нарастващите заплахи от ransomware и кибератаки; тези данни може да са недостатъчно защитени и ценни за хакерите. Като добавим към това, вътрешните политики или индустриалните разпоредби може да изискват от организациите да изтрият данни след определен период – като например данни за бивши служители, финансови данни или данни, позволяващи лична информация.

Друг проблем със съхраняването на големи количества остарели данни е, че претрупва файловите сървъри, изтощавайки производителността. Проучване от 2021 г. на Wakefield Research установяват, че 54% от американските офис специалисти са съгласни, че прекарват повече време в търсене на документи и файлове, отколкото в отговаряне на имейли и съобщения.

Да бъдеш отговорен стопанин на ИТ бюджета на предприятието означава, че всеки файл трябва да се запази до последния байт. Това също означава, че данните не трябва да се изтриват преждевременно, ако имат стойност. Отговорната стратегия за изтриване трябва да се изпълнява на етапи: неактивните студени данни трябва да консумират по-евтини ресурси за съхранение и архивиране, а когато данните остареят, има методичен начин да ги ограничите и изтриете. Въпросът е — как ефективно да се създаде процес за изтриване на данни, който идентифицира, намира и изтрива данните по систематичен начин?

Бариери пред изтриване на данни

Културни: Всички сме хора, които съхраняват данни по природа и без някои анализи, които да ни помогнат да разберем кои данни наистина са остарели, е трудно да променим организационния начин на мислене за запазване на всички данни завинаги. За съжаление това вече не е устойчиво предвид астрономическия растеж през последните години неструктурирани данни — от геномика и медицински изображения до поточно видео, електрически автомобили и IoT продукти. Въпреки че изтриването на данни, които нямат настояща или потенциална бъдеща цел, не е загуба на данни, повечето администратори на хранилища са претърпели гнева на потребители, които неволно са изтрили файлове и след това са обвинили ИТ.

Правни/регулаторни: Някои данни трябва да се съхраняват за определен срок, но обикновено не завинаги. В някои случаи данните могат да се съхраняват само за определен период от време в съответствие с корпоративната политика – като например лични данни. Как да разберете кои данни се управляват от какво правило и как да докажете, че го спазвате?

Липса на систематични инструменти за разбиране на използването на данни: Ръчното установяване на това кои данни са остарели и карането на потребителите да действат по тях е досадно, отнема много време и следователно никога не се извършва.

Съвети за изтриване на данни

Създайте добре дефинирана политика за управление на данни

Разработването на устойчива политика за управление на жизнения цикъл на данните изисква правилния анализ. Ще искате да разберете използването на данни, за да идентифицирате какви данни могат да бъдат изтрити въз основа на типове данни, като междинни данни, и използване на данни, като например данни, които не са използвани дълго време. Това също помага да се спечели подкрепа от бизнес потребителите, тъй като изтриването се основава на обективни критерии, а не на субективно решение.

С тези знания можете да начертаете как данните ще се прехвърлят с течение на времето: от основно хранилище към по-хладни нива, вероятно в облака, към архивно хранилище, след това ограничаване извън потребителското пространство на скрито място и накрая изтриване.

Съображения, които могат да повлияят на политиката, включват разпоредби, потенциална дългосрочна стойност на данните и разходите за съхранение и архивиране на всеки етап от основното до архивното съхранение. Тези решения могат да имат огромни последици, ако, да речем, наборите от данни бъдат изтрити и след това по-късно необходими за анализи или прогнози.

Разработете комуникационен план за потребителите и заинтересованите страни

За дадено работно натоварване или набор от данни, собствениците на данни трябва да разбират цената спрямо ползите от запазването на данни. В идеалния случай решението за политиката за жизнения цикъл на данните се съгласува от всички заинтересовани страни — ако не е продиктувано от индустриален регламент. Комуникирайте анализа на използването на данни и политиката със заинтересованите страни, за да сте сигурни, че разбират кога данните ще изтекат и ако има гратисен период, тези данни се съхраняват в ограничен или „неизтрит“ контейнер. Ограничаването улеснява потребителите да се съгласят с работни потоци за изтриване на данни, когато разберат, че ако имат нужда от данните, те могат да ги „освободят“ в рамките на гратисния период и да си ги върнат.

За дългосрочни данни, които трябва да се съхраняват, уверете се, че потребителите разбират цената и всички допълнителни стъпки, необходими за достъп до данни от дълбоко архивно хранилище. Например, достъпът до данните, ангажирани към AWS Glacier Deep Archive, може да отнеме няколко часа. Често се прилагат изходни такси.

Планирайте технически проблеми, които могат да възникнат

Изтриването на данни не е операция с нулеви разходи. Обикновено мислим само за скоростта на R/W, но изтриването отнема и производителността на системата. Вземете този пример от тематичен парк: снимки на гости (100K) на ден се запазват до 30 дни, след като клиентът е напуснал парка. На 30-ия ден натоварването на системата за съхранение се удвоява; има нужда от капацитет за приемане на 100K снимки и изтриване на 100K.

Заобиколни решения за ефективността на изтриване, известни като „мързеливи изтривания“, може да деприоритизират работното натоварване при изтриване – но ако системата не може да изтрие данни поне толкова бързо, колкото се поглъщат нови данни, ще трябва да добавите хранилище за съхранение на изтекли данни. В мащабираните системи може да се наложи да добавите възли за обработка на изтривания.

По-добър подход е да отделите студените данни от основната файлова система и след това да ги ограничите и изтриете, смекчавайки проблема с нежеланото натоварване и влияние върху производителността на активната файлова система.

Приведете в действие плана за управление на данни

След като политиката бъде определена за всеки набор от данни, ще ви трябва план за изпълнение. Независима платформа за управление на данни предоставя унифициран подход, обхващащ всички източници на данни и технологии за съхранение. Това може да осигури по-добра видимост и отчитане на корпоративни масиви от данни, като същевременно автоматизира действията за управление на данни. Сътрудничеството между ИТ и LOB екипите е неразделна част от изпълнението, което води до по-малко търкания, тъй като LOB екипите чувстват, че имат думата в управлението на данни. Ръководителите на отдели често са изненадани да открият, че 70% от техните данни се осъществяват рядко.

Като се има предвид текущата траектория на нарастване на данните в световен мащаб, данните се предвиждат да почти двойно от 97 ZB през 2022 г. на 181 ZB през 2025 г. — предприятията нямат голям избор освен да преразгледат политиките за изтриване на данни и да намерят начин да изтрият повече данни, отколкото са правили в миналото.

Без подходящите инструменти и сътрудничество това може да се превърне в политическо бойно поле. И все пак, превръщайки изтриването на данни в друга добре планирана тактика в цялостната стратегия за управление на данни, ИТ ще разполага с по-управляема среда за данни, която осигурява по-добри потребителски изживявания и стойност за парите, изразходвани за съхранение, архивиране и защита на данните.

Кумар Госвами е главен изпълнителен директор и съосновател на Компресирайте.

DataDecisionMakers

Добре дошли в общността на VentureBeat!

DataDecisionMakers е мястото, където експертите, включително техническите хора, работещи с данни, могат да споделят свързани с данните прозрения и иновации.

Ако искате да прочетете за авангардни идеи и актуална информация, най-добри практики и бъдещето на данните и технологиите за данни, присъединете се към нас в DataDecisionMakers.

Може дори да помислите допринасяне на статия от вашите собствени!

Прочетете повече от DataDecisionMakers

Leave a Comment