Экономия на спичках и несколько способов выстрелить себе в ногу. Критические ошибки в строительстве сетей операторов связи

26.04.2018 | Андрей Роднищев

Критические ошибки в строительстве сетей операторов связи

Недавно, на сети одного транзитного оператора произошла крупномасштабная авария. Изучая причины ее возникновения, мы решили собрать в данной статье основные ошибки, которые нельзя допускать при строительстве сети. Описанные случаи – это практический опыт коллег по цеху, неожиданно для себя узнавших, что в их сети есть критические проблемы. Итак, коллекция способов выстрелить себе в ногу.

Способ первый: Резервирование

Сколько лет существует данная отрасль – столько лет говорится о том, что все, что может привести к критическим сбоям, должно быть зарезервировано. Но, несмотря ни на что, регулярно встречаются примеры того, как делать не надо:

  • Два ввода электропитания от одной подстанции. Отключаются всегда синхронно… Зарезервировано? – Нет!
  • Два магистральных кабеля, в которых идут волокна к двум аплинкам… в одной кабельной канализации. Любой экскаваторщик одним движением докажет, что это не резерв.

Резервирование

Способ второй: ЗИП

Логично, что любая электронная железяка рано или поздно выходит из строя, при этом операторы допускают несколько, казалось бы, нелогичных фактов:

  • Модули, которые лежат в ЗИП, да при этом хранятся рядом с работающим устройством практически не выходят из строя.
  • Двойной и тройной бекап данных продляет жизнь серверов и жёстких дисков в несколько раз. И наоборот: если админ говорит, что бекап лежит где-то на флешке – жди беды. И именно в тот момент, когда все сломается, флешка окажется забытой в машине, машина в сервисе, а у сервиса в этот день будет выходной.

Способ третий: Техническое обслуживание и профилактика

«Работает – не трогай» это самый вредный совет из всех, которые мне приходилось слышать. Техобслуживание оборудования должно быть регулярным… Иначе возможны такие казусы:

  • Отключили питание на узле, через 20 минут ИБП разрядился. Весь техперсонал бегает кругами с дикими воплями: ИБП рассчитывали на 12 часов, а как же так-то… А о том, что 4 года никто не обслуживал АКБ, все забыли.
  • В ту же копилку: ИБП вот-вот разрядится, привезли генератор, не смогли завести. Почему – вопрос второстепенный. Он бы не возник, если бы генератор регулярно заводили для профилактики.
  • От перегрева сгорел один из блоков питания на одном из коммутаторов агрегации. Вскрытие показало, что перегрелся он из-за огромного количества пыли. Сеть не остановилась, но расходы оператор понес.
  • В московском дата-центре произошла остановка по причине перегрева. Разумеется, дата-центр оснащен мощной системой охлаждения, и кондиционеры работали в штатном режиме. Внезапно один за другим они начали отказывать. Выяснилось, что чиллеры, которые стоят на улице, выключились из-за… перегрева! Виной всему оказался тополиный пух, который забил решетки радиаторов.

Способ четвертый: Доступ к оборудованию

Где бы ни было установлено ваше оборудование – регулярно убеждайтесь в том, что персонал может до него добраться.

  • Центральный узел на важной магистрали. Оборудование стоит в контейнере, контейнер – на территории государственного учреждения. Письмо на допуск сотрудников отправили почтой и забыли проверить, что оно доставлено и пропуска продлены. Сотрудники провели в командировке лишние три дня. А если бы авария?
  • Специалисты крупного интегратора обновляют модули по оптической линии вдоль нефте- или газопровода. К одному из узлов можно добраться только вертолетом. Он поломался. Парней закидывают вездеходами, но не доезжают около 20 км. 20 км парни идут по трубе. Около контейнера выясняют, что ключ не подходит, а на счету спутникового телефона нет денег. Пока пытались открыть замок – наступил вечер. Сломали дверь, ночевали в контейнере…

Способ пятый: Непродуманные настройки и архитектура

Самые неочевидные проблемы кроются именно в архитектуре и настройках сетевого оборудования. Именно они зачастую срабатывают как мина замедленного действия.

  • Сеть построена по кольцевой топологии с STP и забыли про bpdu-фильтры на клиентских портах: клиент включает stp (зачем – и сам не знает) – в сети шторм… И хорошо, если в одном сегменте.
  • Белые IP и открытые порты, например dns, на некоторых роутерах делают их публичными. Через какое-то время появляется паразитный DNS-трафик и все ресурсы роутера уходят на его обработку. Клиент недоволен, техподдержка ничего сделать не может.
  • Попытка сэкономить на DPI, маршрутизируя через него только часть трафика, как рекомендует (раз и два), например, регулятор и один из производителей DPI. Данная рекомендация и схема включения с предмаршрутизацией заложили мину замедленного действия в сети реализовавших ее операторов. Об этом уже писали. Вкратце: один хакер, сидя в «Макдональдсе», складывает огромную Сеть в масштабах всей страны.
  • Сетевые устройства имеют доступ в Интернет через интерфейсы управления или, что еще хуже, публичные IP-адреса. Недавняя проблема с уязвимостью в коммутаторах Cisco (если пропустили, то вот) в очередной раз показала, что злоумышленники реагируют на опубликованные уязвимости достаточно оперативно, и в их руках есть серьезные инструменты, чтобы потрепать нервы администраторам всех мастей.

Способ шестой: Мониторинг

Меньше знаешь – крепче спишь. Но быть не в курсе событий в своей сети – однозначно шаг в никуда.

  • Сервер баз данных – мониторим загрузку ЦП, память, сеть. Вроде молодцы, но не мониторим состояние дисков в raid-массиве. Итог: когда сервер вышел из строя, выяснилось, что в raid-е вышел из строя третий диск, убив файловую систему. Потеряли сервис. Полностью. Восстанавливали больше суток.
  • Аплинк начал анонсировать в BGP миллион лишних маршрутов, роутер не смог их все обработать и ушел в себя. Поиск проблем показал лишь резко возросшую загрузку CPU перед остановкой сервисов. Источник проблемы обнаружили только после ручной перезагрузки роутера.
  • DPI – хороший и красивый, работает долго и качественно, вдруг начинает вести себя неадекватно, режет трафик не тот и не так. Система мониторинга рапортует админам о резком аномальном падении трафика на внешних интерфейсах. За 5 минут легким движением руки DPI переводится в bypass, абоненты не пострадали. DPI починили, но это уже совсем другая история…

Разумеется, перечень далеко не полный. Отсутствие схем и инструкций, равно как и контактной информации арендодателей, техперсонала присоединенных операторов, незадокументированные скрипты – список можно продолжить. Некоторые примеры из вышеприведенных – реальные случаи из жизни, некоторые – просто байки сетевиков. Зачем мы обращаем на это внимание? Чтобы вы остановились на минуту и задумались: в каком месте у вас лежит мина замедленного действия или каким способом вы можете выстрелить себе в ногу?

Более подробную информацию о построении сетей операторов связи, механизмах и способах фильтрации запрещенных ресурсов вы можете узнать у специалистов компании VAS Experts, разработчика и поставщика системы анализа трафика СКАТ DPI.

 Подписывайтесь на рассылку новостей блога, чтобы не пропустить новые материалы.

Поделиться в социальных сетях