Cloudflare verursacht großflächigen Internetausfall

Das US-amerikanische Unternehmen Cloudflare hat gestern Abend einen großflächigen Internetausfall verursacht, betroffen waren etliche kleine wie auch große Websites die DNS-Dienste des Unternehmens nutzten. Neben populären Seiten wie Discord und Netflix, waren auch etliche Online-Games und News-Portale offline, auch Xgadget.de war von dem Ausfall betroffen.

Zwischen 23:10 und 23:35 Uhr deutscher Zeit verabschiedete sich das Cloudflare DNS-Routing und riss damit fast das halbe Internet in den Abgrund. Während diesen 25 Minuten waren viele bekannte Webseiten offline, Google sowie YouTube funktionieren dagegen noch.

Kurz nach dem Ausfall hat sich Cloudflare auf seiner Statusseite zu dem Problem wie folgt geäußert (übersetztes Statement):

Heute Nachmittag sahen wir einen Ausfall in einigen Teilen unseres Netzwerks. Das war nicht die Folge eines Angriffs. Es scheint, dass ein Router in unserem globalen Backbone schlechte Routen ankündigte und dazu führte, dass einige Teile des Netzwerks nicht verfügbar waren. Wir glauben, dass wir die Grundursache beseitigt haben und überwachen die Systeme jetzt auf Stabilität.

Auch andere Dienste von Cloudflare waren von dem Fehler betroffen, so funktionierte etwa auch die „1.1.1.1“ VPN-App nicht mehr und konnte keine Verbindung herstellen. Durch den großflächigen Ausfall zeigt sich auch wieder einmal wie anfällig das Internet gegenüber möglichen Angreifern ist und wie sehr die unterschiedlichen Webdienste voneinander abhängig sind.

Während des Ausfalls twitterte der Hilfe-Account von Cloudflare übrigens folgendes Statement:

Wir sind uns bewusst, dass es in einigen Regionen Probleme mit einigen Cloudflare-Diensten geben kann. Wir führen derzeit Untersuchungen durch.

Update (18.07.20, 11:55 Uhr):

Zeitlicher Ablauf

Mittlerweile gibt es von Cloudflare auch den genauen zeitlichen Ablauf bezüglich der weltweiten Downtime der die einzelnen Ereignisse vom 17.07.2020 besser beschreibt:

  • Zunächst trat ein Problem bei der Backbone-Verbindung zwischen Newark und Chicago auf, das zu einer Überlastung des Backbones zwischen Atlanta und Washington, DC führte. (gegen 22:25 deutscher Zeit)
  • Als Reaktion auf dieses Problem wurde in Atlanta eine Konfigurationsänderung vorgenommen. Mit dieser Änderung begann der Ausfall um 23:12 Uhr deutscher Zeit. Sobald der Ausfall verstanden wurde, wurde der Atlanta-Router deaktiviert, und der Verkehr begann um 23:39 Uhr deutscher Zeit wieder normal zu fließen.
  • Kurz darauf kam es zu einem Stau in einem unserer Hauptrechenzentren, das Protokolle und Metriken verarbeitet, was dazu führte, dass einige Protokolle gelöscht wurden. Während dieser Zeit funktionierte das Edge-Netzwerk weiterhin normal.

Was genau passiert ist

Die genaue Ursache beschreibt Cloudflare in seinen offiziellen Blog ebenso:

Da es in Atlanta eine Überlastung des Backbone-Netzes gab, hatte das Team beschlossen, einen Teil des Backbone-Verkehrs aus Atlanta zu entfernen. Anstatt jedoch die Atlanta-Routen aus dem Backbone zu entfernen, wurden durch einen Leitungswechsel alle BGP-Routen in das Backbone geleitet.

Durch das Entfernen der Bedingung der Präfix-Liste wurde der Router angewiesen, alle seine BGP-Routen an alle anderen Backbone-Router zu senden, wobei die Lokalpräferenz auf 200 erhöht wurde. Leider hatten damals die lokalen Routen, die die Edge-Router von unseren Rechenknoten erhielten, eine Lokalpräferenz von 100. Da die höhere Lokalpräferenz gewinnt, ging der gesamte für die lokalen Rechenknoten bestimmte Verkehr stattdessen an die Rechenknoten in Atlanta.

Mit den gesendeten Routen begann Atlanta Verkehr aus dem gesamten Backbone anzuziehen.

Um solche Probleme zukünftig zu verhindern hat der Internetdiensteanbieter einige Änderungen eingeführt, die in solchen Fällen dann greifen sollen:

Einführung einer Höchstgrenze für Präfixe in unseren BGP-Sitzungen im Backbone – dies hätte den Backbone in Atlanta abgeschaltet, aber unser Netz ist so aufgebaut, dass es auch ohne Backbone ordnungsgemäß funktioniert. Diese Änderung wird am Montag, dem 20. Juli, eingeführt.

Änderung der BGP-Lokalpräferenz für lokale Serverrouten. Durch diese Änderung wird verhindert, dass ein einzelner Standort den Verkehr anderer Standorte auf ähnliche Weise anzieht. Diese Änderung wurde nach dem Vorfall eingeführt.

Sobald wir weitere Informationen erhalten, werden wir diesen Artikel natürlich entsprechend ergänzen. Schreibt uns gerne auch einen Kommentar ob ihr ebenfalls den Ausfall mitbekommen habt am gestrigen Freitag Abend.



(Bild: Cloudflare)
Datum:
18.07.2020, 00:33 Uhr
Aktualisiert:
18.07.2020, 11:55 Uhr
Autor:
Stefan Kröll
Comments:
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

3 Comments zu "Cloudflare verursacht großflächigen Internetausfall"

* gesponserter Link
Blogverzeichnis - Bloggerei.de