Willkommen zurück …

(Kai 'wusel' Siering) #1

Orginaler Blog-Post: https://freifunk-kreisgt.de/willkommen-zurueck/

Gnampf. Eine Woche zum Vergessen.

Das Freifunk-Netz im Kreis Gütersloh war von Montagabend bis Donnerstagabend leider nicht funktional, oder, ganz konkret ›down‹.

Sowas sollte nicht passieren, aber Murphy hat sich wieder einmal ausgetobt …

… wobei: es war ein kalkuliertes Risiko.

Das Freifunk-Netz für den Kreis Gütersloh lief – wie auch noch aktuell das für die Müritz-Region –, technisch auf ›nur‹ einem physischen Server. Dies spart Bandbreite zwischen den Servern, da der Datenabgleich nur innerhalb eines Servers stattfinden muß — kurz: die Performance, die »Nutzerexperience«, ist besser. Insbesondere mit dem veralteten Tunnelprotokoll »fastd« — welches wir seit Jahren ablösen wollen, weshalb eine ›kurzfristige‹ Nutzung nur eines Servers akzeptabel erschien: »wir schwenken ja REALLY SOON NOW auf L2TP, daher sind händische Optimierungen für fastd OK.« Das war der Plan.

Ein Plan, der schon seit über einem Jahr verfolgt wird, der aber durch technische Hürden bislang nicht ungesetzt werden konnte.

Und so lief der Freifunk im Kreis Gütersloh Woche um Woche einzig auf einem Server, weil so optimale Bindungen herschten, Freifunk im Kreis Gütersloh trotz alten, resoucenfressenden Lösungen, für eine Übergangszeit einigermaßen performant umzusetzen.

Und dann kam Murphy um die Ecke:

Murphys Gesetz lautet:

“Anything that can go wrong will go wrong.”

„Alles, was schiefgehen kann, wird auch schiefgehen.“

Und so kam es: der Server, über den der Freifunk im Kreis Gütersloh realisiert wurde, verlor signifikant Kühlkapazität und sorgte selbst dafür, daß eine Überhitzung vermieden wurde. Leider durch forcierte Neustarts des Servers … bei denen unsererseits nicht alle virtuellen Maschinen neu gestartet wurden. Heißt: bis zum manuellen Neustart war FFGT down — und nach dem Neustart war vor dem Neustart, und FFGT somit down.

Dienstag war der Plan, das Setup ›einfach‹ auf einem anderen Server zu duplizieren — dies wurde im Laufe des Tages aufgrund verschiedener Probleme verworfen, sodaß seit Mittwoch der Fokus darauf lag, eine ›Legacy‹-Infrastruktur über das für zukünftige Setups benutzte Ansible-Framework auszurollen. Problem dabei: mit dem Schwenk auf L2TP wollen wir auch den Schwenk vom ›batman-advanced‹-›Compatibility-Level 14‹ (der leider nur mit sich selbst kompatibel ist) auf den ›Compatibility-Level 15‹ vollziehen; ab ›15‹ sollen alle zukünftigen Level in beide Richtungen endlich kompatibel sein.

Allerdings hatten wir den »Legacy-Part« auch intern abgehakt: zwar wurde das Deployment via Ansible auch für die Uralt-Lösung mit »Compatibily-Level 14« gangbar gemacht, dies aber nur als ›Fingerübung‹, da die Zukunft auf dem Kompatibilitätslevel 15 liegt.

Kurz: das alles war theoretisch funktional, praktisch aber … nicht.

In der Nacht zu Freitag konnten Erfolge erzielt werden, die Knoten wurden auf 4 Gateways ›eingefangen‹ und auch für die Knotenkarte unter map.4830.org/ffgt/ existiert ein Redirekt.

Wir hoffen, daß für die Nutzer das Problem nun obsolet ist …

0 Likes

(René) #2

Mist :thinking:
Vielen Danke für den Einsatz :relieved:
Never touch a running system ist keine Option mehr. Let’s go for 15/TNG

1 Like

Der Weg zu L2TP & batman V15
(Kai 'wusel' Siering) #3

Durch Anbindung des alten Kartenservers sind nun auch die Knoten nicht mehr alle neu. Ferner wurde der DNS-Eintrag eines Legacy-Gateways korrigiert, sodaß nun auch wirklich 4 Gateways erreichbar sind.

0 Likes