SysElegance Consulting Services


Управление данными и построение иерархических систем хранения


Page URL:
http://syselegance.ru/ru/support/consulting/data_management.php
Copyright:
© 2003-2017 SysElegance Ltd. All rights reserved.

За многие годы работы нам приходиться сталкиваться с терабайтами данных. Данные разношерстные и неоднородные: финансовые, коммерческие, почтовые архивы, базы данных, документация, среды разработчиков, среды тестировщиков, модели сетей, модели клиентских инфраструктур, файловые архивы, дистрибутивы программ разных подверсий, дизайнерские и полиграфические материалы, мультимедийная информация записи конференций и семинаров, обучающее видео, фотоотчеты, личные архивы. Вдобавок, в каждой категории данных есть свои критерии и подкатегории по правам доступа, принадлежности, приоритетности и доступности, ценности и уникальности.

Но объединяет их одно общее свойство: постоянный рост (накопление). Дополнительно, так как в большинстве компаний данные хранятся на выделенной системе, они смешаны. И это – большая проблема.

Наша компания решила эту проблему. Все этапы внедрения описаны ниже.

Чем свойственны современные системы хранения данных?

  • Зависимость от одного поставщика системы хранения
  • Сложная процедура миграции данных (не всегда возможная) на новый массив
  • Дорогое дублирование
  • Отсутствующее или нерегулярное резервное копирование
  • Единая точка отказа
  • Практически всегда - простой
  • При краже, пожаре, изъятии обычно пропадают все и сразу

На наш взгляд, логическая инфраструктура хранения данных, близкая к идеальной, выглядит следующим образом:

  • Виртуализация системы хранения и аппаратно-независимых дисковых массивов (с нулевыми или минимальными потерями производительности)
  • Создание распределенной иерархической (многоуровневой) системы хранения
  • Автоматизированное иерархическое управление данными HSM
  • Автоматизированая дифференциальная система резервного копирования с использованием снепшотов и опциональной возможностью использования дедупликации данных
  • Система непрерывного копирования критических для бизнеса данных между аппаратно-независимыми системами хранение
  • Дифференциальная синхронизация и/или непрерывное копирование критических для бизнеса данных между георгафически-распределенными сайтами (датацентрами)

Как показала практика, проблему системы управления данными надо решать комплексно, так как пренебрежение одной (или несколькими) из задач списка снижает степень защиты данных от всех потенциальных рисков.

Ниже мы опишем все этапы внедрения системы управления данными и объясним, какие из задач решает каждый этап.

Виртуализация системы хранения и аппаратно-независимых дисковых массивов

Мы начали с внедрения виртуализированных систем хранения и аппаратно-независимых дисковых массивов (с нулевыми или минимальными потерями производительности). Она доступна как локально, так и с использованием основных протоколов доступа к данным (iSCSI, SMB/CIFS и т. п.) Используется многоуровневое поблочное кеширование частоиспользуемых данных. Отказоустойчивые и обычные дисковые массивы не зависят от контроллеров и их характеристик. В случае выхода из строя оборудования сервера, дисковый массив может быть подключен к другому серверу и и использоваться в своей первичной конфигурации. Таким образом, минимизирован риск потери данных. Дополнительно доступны возможности горячей замены дисков, увеличение емкости массивов и миграция массивов на другие уровни защищенности/производительности (ORLM).

Что не решает данная система? Система получается однородной и несбалансированной. Для одних типов данных она имеет избыточную производительность и объем, для других – этих характеристик всегда недостаточно. Как решить описанную проблему?

Создание распределенной иерархической (многоуровневой) системы хранения

Стоимость системы хранения обратнопропорциональна ее скорости. Отказоустойчивость системы хранения обычно удваивает ее стоимость. Разным типам данных нужна разная степень и скорость доступности. Мы классифицировали и внедрили 4 уровня систем хранения от сверхбыстрой и дорогой до архивной и дешевой, но, при этом с отличными показателями надежности и доступности.

И теперь у нас есть возможность распределять данные по массивам, но как определить, каким место на дорогом, а каким – в архиве? Кто будет это отслеживать и сортировать данные при их постоянном движении и увеличении объема? Как потом, при необходимости, с этими данными работать и где их искать? И если пользователя (очень теоретически) и можно заставить последовательно перепроверять все возможные места хранения, то как это объяснить рабочей программе, которой неожиданно понадобился перемещенный файл?

Автоматизированное иерархическое управление данными

Перечисленные проблемы решает система автоматизированного иерархического управления данными (HSM). Для пользователей и программ данные представлены унифицировано, не зависимо от их физического местоположения (которое может постоянно меняться по заданным критериям). Дополнительно, доступен программный интерфейс (API) для создания собственных и многоуровневых правил управления критериями перемещения данных.

Идеально? Нет. Риск потери данных хоть и минимизирован, но есть. Чего не хватает?

Системы резервного копирования

Мы используем автоматизированную дифференциальную систему резервного копирования с использованием снепшотов и опциональной возможностью использования дедупликации данных. Под нее обычно задействована часть массивов четвертого уровня (архивные массивы).

В случае остановки системы хранения или потери связи с ней теряется доступ к данным. На их восстановление требуется время, а учитывая современные объемы данных – много времени. Все это приводит к простою. Помочь его избежать призвана система непрерывного копирования критических для бизнеса данных.

Система непрерывного копирования критических для бизнеса данных между аппаратно-независимыми системами хранения

На каждой их систем хранения находится идентичная всегда актуальная копия необходимых данных. При недоступности основной из систем, доступна резервная, которая, при возврате основной системы может как автоматически, так и вручную синхронизироваться с резервной. Существует гибкий механизм обеспечения непрерывности доступа к данным, например автоматическое переопределение записей DNS серверов в случае недоступности основного системы хранения, и т. п.

От чего еще не спасает весь перечисленный каскад технологий? Не спасает от пожара, наводнения, землетрясения, молний или (что наиболее вероятно) - от кражи или изъятия. Для этого у нас применяется дифференциальная синхронизация и непрерывное копирование критических для бизнеса данных между георгафически-распределенными сайтами.

Дифференциальная синхронизация и/или непрерывное копирование критических для бизнеса данных между георгафически-распределенными сайтами (датацентрами)

Дополнительно, задействована функциональность расписания передачи данных, компрессия передаваемых данных и динамическое ограничение пропускной полосы в зависимости от времени суток.

 

Есть ли у описанной системы недостатки? Конечно же, есть. Нет предела совершенству, как и во всех продуктах и технологиях, всегда есть к чему стремиться и дорабатывать.

Например, на сегодняшний день ни одна из существующих систем автоматизированного иерархического управления данными не работает на блочном уровне, а только на файловом. Это ограничение не позволяет системе понимать, что происходит внутри, например, баз данных или дисков виртуальных машин. Или, технология дедупликации данных эффективна только при резервировании однородных данных, плохо портируется (виртуализируется), а также имеет проблемы с производительностью.

Зная эти, и множество других нюансов, мы имеем возможность эффективно использовать достоинства каждой из технологий и обходить стороной их недостатки.

Мы постоянно ищем и, что самое важное, - находим пути и методы повышения эффективности систем хранения данных, что делает их быстрее, надежнее и дешевле.

Все перечисленное реализовано на гетерогенном оборудовании (разных поколений и производителей) без использования "заоблачных технологий" и выделенных фабрик (систем) хранения (хотя их наличие в инфраструктуре также приветствуется).

Полученный опыт и технологии нашей компании ценен государственным учреждениям, банкам, страховым и финансовым компаниям, телекоммуникационным компаниям и провайдерам, заводам, фабрикам, торговым сетям. Основываясь на собственных наработках и опыте, наша компания готова предоставлять консалтинговые, аудиторские, внедренческие и поствнедренческие услуги управления информационными потоками.

Многие из крупных клиентов уже воспользовались нашими услугами для внутренней оптимизации систем хранения данных. Так, например, в "Альфа-Банке" удалось добиться 30% улучшения скорости работы систем хранения при взаимодействии с терминальными серверами и при работе резервного копирования без модернизации существующего оборудования.

Хотим отметить, что это не типовое и не коробочное решение. Каждая компания имеет свои уникальные информационные потоки, набор оборудования и географию. Для достижения наилучшего результата, в каждом случае требуется индивидуальный подход к аудиту и проектированию.

В последние годы информация становится одним из самых ценных активов большинства компаний.

Общей же чертой всех компаний, имеющих дело с данными, является следующее: независимо от того, чем занимается компания и какого рода ее бизнес, описанные проблемы управления данными для нее будут актуальны всегда.