Обработка больших данных в QoE Stor

14 мая 2024
DPI QoE СКАТ
Обработка больших данных в QoE Stor
Клиенты VAS Experts - это операторы связи, предоставляющие услуги конечным абонентам, которые, в свою очередь, генерируют трафик. Для эффективного управления этим потоком данных команда VAS Experts разработала систему контроля и анализа трафика, СКАТ DPI, которая позволяет операторам не только анализировать трафик, но и выгружать статистику. С увеличением числа абонентов операторы получают все больше данных, что усложняет процесс их хранения и обработки. В этой статье мы подробно рассмотрим, как обрабатывается и хранится информация в сервере статистики СКАТ DPI - QoE Stor.

Большие данные оператор может использовать для следующих сценариев:

  1. Понимать структуру трафика по протоколам и приложениям и динамику ее изменения для формирования привлекательных тарифных планов, определения точек пиринга и оптимизации маршрутов.
  2. Мониторить качество аплинков по конкретным приложениям и быстро реагировать на проблемы с трафиком из WAN-сети.
  3. Выявлять проблемных абонентов на основе задержек и перезапросов пакетов для устранения неисправности и повышения лояльности абонентов.
  4. Проактивно мониторить киберугрозы на основе статистики обращений абонентов по базе фидов Касперского с целью снижения количества BotNet в сети.
  5. Мониторить DDoS-атаки и вовремя реагировать на всплески трафика.

3 минуты для построения отчета по 1 петабайту данных

Рассмотрим пример оператора с 1 млн. абонентов. По нашему опыту, предполагается, что оператор такого размера имеет около 2 Тбит/с пикового трафика.

Для работы с типовыми бизнес-кейсами операторы: 

  • Хранят ‘сырую’ статистику IPFIX сутки, что составляет примерно 45 ТБ
  • Затем, с помощью алгоритмов QoE Stor, данные агрегируются для хранения, и их объем сокращается в 5 раз. Агрегированные данные обычно хранятся 3 месяца, что составляет около 900 ТБ. 

В сумме с другими видами данных (например, NAT-лог или GTP-лог) у нашего эталонного оператора выходит около 1 петабайта.

Однако важно не только получить данные, но и обеспечить их доступность и быструю обработку. Инженеры и маркетологи оператора работают с ними каждый день: строят отчеты по самым разным полям и фильтрам на всю глубину хранения данных. Для комфортной работы пользователей время построения отчетов по фильтрам не должно превышать 3-х минут.

Также данные из базы на регулярной основе используются для рассылки периодических отчетов службам оператора по e-mail/telegram и построения дашбордов.

Вычислить объем статистики вашего оператора можно с помощью калькулятора.

Компоненты решения

Получение данных проходит в несколько этапов:

  1. Пропуск трафика через СКАТ DPI с целью анализа по сигнатурам (протоколы и приложения). 
  2. Отправка статистики со СКАТ DPI по протоколу IPFIX (NetFlow v10), которая осуществляется через балансировщик ipfixcol2 с целью равномерного распределения статистики по нодам и отказоустойчивости при выходе одной ноды из строя.
  3. Прием статистики на QoE Stor с помощью ipfixreceiver2.

В случае, если объем трафика больше, чем может обработать один СКАТ DPI, используется кластер DPI. Трафик извлекается из центральной части сети и направляется на балансировщик нагрузки СКАТ Load Balancer, который равномерно распределяет нагрузку между несколькими серверами СКАТ DPI. Балансировщик способен обрабатывать до 800 Гбит/с зеркалированного трафика. 

Более подробную информацию о работе Load Balancer можно найти в нашей базе знаний.

QoE Cluster

QoE Stor в основе использует базу данных ClickHouse с возможностью создания кластера из нескольких node:

  • В кластере назначается master-node, которая принимает запрос от GUI и отправляет запросы на slave-node. 
  • Каждая slave-node создает отчет на основании собственных данных и передает его на master-node. 
  • Master-node агрегирует полученные ответы от slave-node и делает результирующее представление для визуализации в GUI. 

Такая иерархия позволяет реализовать линейное масштабирование кластера при добавлении новых node без необходимости наращивать производительность master-node. GUI работает с кластером в специальном режиме (включается отдельной опцией в настройках), модифицируя запросы SQL таким образом, чтобы узлы строили готовые к склеиванию отчеты. Без этого режима кластер представляет собой лишь распределенное хранилище, а производительность ограничивается лишь производительностью master-node и пропускной способностью сети между узлами QoE.

QoE Stor осуществляет обработку данных в несколько этапов:

  1. ipfixreceiver2 осуществляет прием и запись сырых данных в текстовый файл с заданной периодичностью (10 сек.-10 мин.) на default-диск.
  2. Пост-процесс осуществляет агрегацию сырых данных с целью уменьшения объема хранения и наполнения таблиц для построения отчетов. Шаг агрегации длится от 1 минуты до 1 часа.

Для оптимизации стоимости хранения используется несколько типов дисков:

  • default — быстрые диски для приема данных и осуществления процесса агрегации, рекомендуется использовать SSD NVMe.
  • hot — диски для хранения в период когда будет большая вероятность запроса отчетов по этим данных, обычно до 3 месяцев.
  • cold — медленные диски большого объема для долгосрочного хранения, рекомендуется использовать HDD.

Срок хранения на каждом уровне задается в конфигурации через GUI. Перемещение данных между дисками и очистка данных происходит автоматически в соответствии с настройками. Также предусмотрен механизм контроля за переполнением с целью защиты базы данных.

Более подробную информацию о преимуществах СКАТ DPI и модуля аналитики QoE вы можете узнать у специалистов компании VAS Experts. Оставьте заявку на тестирование, чтобы объективно оценить возможности и функциональность программного обеспечения.

 

Мы используем файлы cookies для оптимизации функциональности сайта и улучшения качества услуг. Нажимая «Принять», вы даете согласие на работу с этими файлами. Чтобы узнать больше, пожалуйста, прочтите нашу Политику конфиденциальности.