Před dvěma týdny jsme oznamovali chystaný velký upgrade sítě na nové routery (Juniper MX960) a další zajímavá zařízení (Nexus řady 7000). Servisní práce jsme oznamovali na čas mezi 1 a 5 ráno středoevropského času s možností výpadků v řádu až jedné hodiny. Při akci jsme se setkali s pár komplikacemi. Důležité je však, že pro klienta vše proběhlo prakticky bez výpadku.
Na akci jsme byli řádně připraveni, vše bylo předem otestováno v testovacím prostředí a postup byl podrobně připraven. Zbývalo ho tedy zreplikovat v produkčním prostředí. Routery již byly zapojeny a propojeny v předstihu, noční servisní okno jsme si šetřili na části akce, které mohou způsobit výpadky v době „hýbání“ s routovací logikou, topologií sítě apod. Jedinou montážní částí byla úprava zapojení některých fyzických tras do více nezávislých WDM (konkrétně ze 2 na 3). Jelikož máme všechny klíčové trasy zdvojené na úrovni L2 s technologií vPC (Cisco Nexus) nad více fyzickými trasami, které vedou do našich síťových uzlů (popů), ale mají naprosto nezávislý průběh tras, přepojování části trasy probíhalo bez jakéhokoliv výpadku, pouze došlo k omezení kapacity trasy (např. ze 100Gbps na 90Gbps apod.) po dobu přepojování. Traffic na takové trase v době akce byl minimální a nedošlo k žádnému omezení.
Následovala úprava konfigurace topologie a nastavení sítě a zapojení nových routerů „do akce“. Jediný problém, na který jsme narazili a se kterým jsme částečně počítali, byla spolupráce s třetími stranami – tedy zahraničními operátory, kde docházelo k úpravě nastavení propojení (tedy aby každý globální IP transit TIER1 operátor, se kterým spolupracujeme, nebyl zakončen pouze na jednom z routerů – každý na jiném, ale aby každý operátor byl propojen s každým naším páteřním routerem). Vše dohodnuto a předpřipraveno, samotné provedení akce se zdrželo o téměř hodinu, když jsme se snažili dovolat síťařům u protistrany, kteří byli na akci vyhrazeni a s časem počítali. S ohledem na to, že jde o největší operátory (např. Telia), tak by člověk takovou situaci nečekal. Nakonec se vše podařilo realizovat dle dohody. Poté zbývalo přemigrovat provoz a služby ze starých routerů na nové, což již byla rutinní a připravená část.
Na akci se zúčastnilo za nás 7 kolegů – 3x síťoví specialisté, +2x senior administrátoři pro případné řešení problémů s replikacemi, clustery atd., 1x technik datacentra a +1x administrátor rychlé podpory pro rychlejší reakci na případné dotazy klientů a průběžnou kontrolu služeb.
Čeho jsme docílili – zapojené nové špičkové routery s obrovským výkonem, topologie dvojité hvězdy, reakce na poruchu na trase okamžitě díky L2/LACP/vPC bez nutnosti cokoliv přeroutovávat (což má vždy nějaký byť minimální dopad na provoz), 100Gbps ready, zvýšení kapacity (již příští týden chystáme zapojování dalšího zahraničního peeringového centra ;-)), vnitřní redundace všech core prvků (každý core router má 2 nezávislé router enginy atd.) = větší spolehlivost, větší propustnost, příprava na další expanze, výrazná technologická inovace.
No a to nejlepší nakonec. Pro drtivou většinu klientů znamenala akce výpadek v době trvání cca 2 minuty.
Poprvé jsme vše online komentovali na http://status.vshosting.cloud(zatím pouze v angličtině):
Foto – právě je cca 3h ráno:
Jeden z nových routerů – tento na lokalitě ServerPark – před zapojením všech propojů ? (foceno cca týden před akcí):
Snídaně šampiónů – už po akci ?
Všem našim kolegům velké díky za skvělě odvedenou práci !
P.S.: chcete být stále v obraze ohledně toho, co se děje ve světě hostingu/cloudu/ecommerce nebo ze zákulisí VSHostingu či datových center? Odebírejte naše videa, která pro Vás nově chystáme ? bit.ly/2lOYT6h