Hoe gaan we om met incidenten op ons VPS-platform?
De betrouwbaarheid en stabiliteit van ons VPS-platform is iets waar jij als onze klant op moet kunnen vertrouwen. Daarom hebben we onze VPS-platformen redundant en robuust opgezet. Dat betekent niet dat incidenten zich nooit kunnen voordoen: met een platform zo groot als het onze is dat simpelweg niet realistisch. Maar de meeste incidenten worden door het platform zelf al afgevangen of door ons team opgemerkt en opgelost, zonder dat je er ook maar een seconde nadeel van hebt. De kans dat jouw VPS of website getroffen wordt door een incident is dan ook heel klein, maar nooit volledig uit te sluiten.
We geven je in dit blogartikel een kijkje in de keuken: wat doen wij om jouw diensten weer bereikbaar te maken bij een incident met impact? Welke verbeteringen hebben we doorgevoerd naar aanleiding van uitzonderlijke incidenten in het afgelopen jaar?
Verbeteringen van onze DDoS-beveiliging
DDoS-aanvallen komen wereldwijd heel veel voor. Onze infrastructuur en de infrastructuur van onze klanten zijn van tijd tot tijd ook doelwit. Daarom staat er inmiddels een flinke verdedigingslinie op ons platform om DDoS-aanvallen af te slaan. Soms komt het echter voor dat een aanval zo groot is, dat we deze niet kunnen afvangen zonder dat klanten er last van hebben. Ook kan het zo zijn, zoals eerder dit jaar het geval was, dat er een nieuw type DDoS-aanval wordt gebruikt waar onze systemen nog niet op monitoren. Wat hebben we dit jaar zoal gedaan om ons platform te verbeteren en DDoS-aanvallen nog beter het hoofd te bieden?
Om te beginnen hebben we onze infrastructuur verder verspreid over verschillende servers en IP-adressen. Dit betekent dat de hoeveelheid (publieke) onderdelen van onze infrastructuur die gebruikmaken van dezelfde servers en IP-adressen gelimiteerd is, zodat er minder impact is als een server aangevallen wordt.
Daarnaast bleek tijdens een incident eerder dit jaar inderdaad dat er een ongebruikelijk type DDoS-aanval werd losgelaten op ons netwerk, specifiek gericht op een VPS. Onze monitoring was nog niet ingesteld op dit type aanval en ving het dus nog niet af. Tijdens het oplossen van het incident hebben we onze monitoring aangepast zodat deze aanval voortaan ook automatisch afgevangen kan worden.
DDoS-beveiliging op PerformanceVPS
Grote aanvallen gericht op VPS’en zijn zeer zeldzaam. Toch was er afgelopen jaar een onverwachte situatie op ons PerformanceVPS-platform waarbij we hebben ingegrepen. Op het moment dat een PerformanceVPS door een grote aanval getroffen werd kon het gebeuren dat er te weinig processorcores beschikbaar waren om het aanvallende verkeer af te vangen. Hierdoor wordt het netwerkverkeer van en naar de hypervisor steeds trager en kunnen andere PerformanceVPS’en die van die hypervisor gebruik maken onbereikbaar worden.
Als een dergelijke grote aanval wordt uitgevoerd, markeren we nu tijdelijk alle gereserveerde cores om beschikbaar te zijn voor afhandeling van het verkeer. Dit kan leiden tot kortstondige stealtime, oftewel de hoeveelheid tijd waarin een programma een actie wil uitvoeren maar dat niet kan omdat de hypervisor dit niet toelaat. VPS’en op die hypervisor kunnen zo wat traagheid oplopen. Maar deze toepassing helpt de aanval af te slaan en voorkomt dat deze VPS’en op de hypervisor helemaal onbereikbaar worden.
Configuratie-updates van storageservers
Tijdens een incident in maart bleek een storageserver niet meer te herstellen. In dit unieke geval was een migratie van VPS'en naar een andere storageserver niet voldoende. Het bleek noodzakelijk om ook de schijven die het besturingssysteem bevatten te verplaatsen. We hebben de configuratie van de besturingssystemen van ons storageplatform aangepast, zodat we sneller schijven die het besturingssysteem bevatten kunnen verplaatsen naar een nieuwe server. Mocht de situatie zich weer voordoen, dan kunnen we de impact hierdoor verder beperken.
Ook kon het gebeuren dat een wijziging op de storageservers van een specifieke instelling een herstart van de server in kwestie kon veroorzaken. Dat is niet altijd even gewenst, dus hebben we de configuratie zo aangepast dat deze instelling niet meer automatisch kan worden aangepast, bijvoorbeeld na een update.
Configuratie-updates van onze VPS-platformen
Tijdens een incident op ons VPS-platform hebben we geforceerd handmatig VPS’en moeten uitzetten op de hypervisor waar deze VPS’en op gehost werden. Dit kost echter de nodige tijd. Daarom hebben we een geautomatiseerde oplossing gemaakt die dit proces voor ons versnelt, mochten we het nog een keer moeten inzetten.
Een andere aanpassing die we hebben gemaakt, zit in het back-upsysteem van onze VPS-platformen. Wanneer je een back-up herstelt, gebeurt dat naar de storageserver waar je VPS op dat moment gebruik van maakt. Mocht die storageserver tijdens een incident niet beschikbaar zijn, kun je dus geen back-up herstellen. Daarom worden back-ups voortaan op een andere storageserver teruggeplaatst.
Ten slotte hebben we een optie geïmplementeerd die voorkomt dat de status van je VPS gesynchroniseerd wordt tijdens een incident. Zo wordt je VPS voortaan automatisch hersteld naar dezelfde status die hij had vóór het incident, bijvoorbeeld of je VPS aan of uitstond, zelfs als de status tijdens het incident wijzigt.
Procedure-updates en netwerkverbeteringen
Configuratiewijzigingen op storageservers en hypervisors worden voortaan in batches en verspreid over meerdere dagen uitgevoerd. Zo verkleinen we de mogelijkheid dat er bij problemen in één keer heel veel VPS’en geraakt worden. Voordat we zo’n configuratiewijziging doorvoeren, migreren we uit voorzorg de VPS’en op die hypervisors en/of storageservers weg.
Wanneer een PerformanceVPS een tijd geen netwerkverkeer vertoont, neemt ons platform aan dat hij offline is. Het bijbehorende MAC-adres wordt automatisch van het netwerk verwijderd, maar de ARP-entry (hetgeen dat een IP-adres aan een MAC-adres verbindt) bleek intact. Daardoor gingen onze switches er dus vanuit dat de VPS zich toch nog op het netwerk bevond. Ze stuurden netwerkverkeer automatisch door naar andere poorten binnen hetzelfde virtuele netwerk in een poging de VPS toch nog te bereiken. We hebben daarom onze switches aangepast, zodat de ARP-entry voortaan automatisch wordt verwijderd met het MAC-adres.
De toekomst
Helaas is het nooit helemaal te voorkomen dat onze platformen te maken krijgen met incidenten. Met updates aan onze configuraties, platformen en systemen zorgen we ervoor dat we incidenten voor kunnen blijven of, als ze toch plaatsvinden, snel kunnen overkomen.
Bedankt voor het toelichten!