О конфигурации СХД для Big Data

О конфигурации СХД для Big Data
ПО RAIDIX для внедрения программно-определяемых СХД позволяет снизить расходы и потенциальные риски, связанные с возможным дефицитом «железа».

Хранилища для big data содержат большой объем неструктурированных данных, подлежащих анализу. Выбор конфигурации хранения big data обычно сводится к двум наиболее популярным опциям — NAS или объектным хранилищам.

В самых крупных проектах, как правило, внедряют объектное хранение с возможностями неограниченного масштабирования. Это вариант для крупнейших проектов, где объемы данных исчисляются петабайтами и существуют серьезные вычислительные ресурсы для обеспечения быстрой работы таких систем.

Компаниям, внедряющим работу с big data в системах среднего объема, имеет смысл воспользоваться NAS как способом организации файлового доступа. Эта система хорошо зарекомендовала себя на протяжении нескольких десятилетий. Кроме того, у многих компаний NAS является стандартным подходом к организации хранения данных и пользуется популярностью там, где высока потребность в чтении/записи данных большими блоками.

Что касается типов накопителей, то, как и в любых СХД, используются три конфигурации — на основе HDD, гибридных решений и all-flash. В тех случаях, если нет необходимости задачи обеспечить сверхпроизводительность таких вычислений, производительности шпиндельных дисков вполне достаточно. В более требовательных инфраструктурах, где скорость обработки данных важна, владельцы систем обоснованно выбирают SSD.

Возможности ПО RAIDIX

Можно сказать, что оптимизация инфраструктуры стала вынужденным трендом 2022 года. ПО RAIDIX для внедрения программно-определяемых СХД позволяет снизить расходы и потенциальные риски, связанные с возможным дефицитом «железа».

RAIDIX 5.X помогает оптимизировать расходы для самих накопителей и обеспечить их сохранность благодаря экономичным уровням RAID 5 и RAID 6, а также RAID-уровнями собственной собственной разработки компании — RAID 7.3 и RAID N+M (с тройной четностью и свободным выбором количества дисков под контрольные суммы соответственно).

Для гибридных и all-flash-систем существует опция ERA Engine — инновационный программный массив с технологиями параллелизации вычислений и lockless-архитектуры. Он обеспечивает рост количества операций ввода/вывода до 4 раз и минимальное время отклика даже в режиме смешанной нагрузки.

В RAIDIX 5.X реализован и другой функционал, повышающий надежность системы, — например, упреждающая реконструкция, которая позволяет временно отключать от 1 до 3 наиболее медленных дисков в RAID. Также предусмотрена защита от скрытого повреждения данных — благодаря ей ошибки сканируются и исправляются с помощью контрольных сумм в фоновом режиме и с минимальной потерей производительности. Важно и то, что даже при отказе диска в системе просадка производительности СХД на базе ПО RAIDIX 5.X составляет меньше 10% — вне зависимости от того, какого типа накопители используются в системе.

Опубликовано 29.04.2022