Großflächige Störung?

Was da los? Div Router sind offline, und auf meinen der als Online angezeigt wird bekomme ich keine Ipv4

Evtl. nur die Statistik? Denn unter http://hopglass.4830.org/ffgt/#!/en/map sieht es normal aus.

Jetzt ist auch wieder alles gut. Bekomme eine IP. Habe den Knoten nicht neu gestartet

Gestern Abend zwischen geschätzt 22:45 und 23:15 war fast alles offline laut Karte, Node stand auf „FF_OFFLINE“ oder sowas.

Screenshot von gestern Abend:

bird[6] hatte sich auf bgp-gut01.4830.org wohl ins Gehackte gelegt; in der Folge hatten die Systeme in Gütersloh keine Defaultroute mehr und die anderen Systeme (Berlin, Hamburg) keine Routen mehr zu den (Sub-) Netzen in Gütersloh.

Fixed durch Neustart von bird und bird6 auf bgp-gut01.4830.org. (Mentale Notiz: endlich bgp-gut02.4830.org funktional machen.)

Im Tagesgraphen sieht man das nicht wirklich …

ffgt-node-stat-day

Aber im Stundengraph …

ffgt-node-stat-hour

… als auch auf den Interfaces:



Heute morgen durch Zufall geseheb

Dürfte wieder an bgp-gut01 liegen, hat heftigen Softinterrupt-CPU-Anteil. Werde heute Abend versuchen, die Funktion von der VM auf das Blech zu bringen (so wie es eh’ schon in BER, HAM und FRA ist).

@wusel Irgendetwas ist gerade wieder im Busch. Es sind viele Knoten offline und meiner strahlt die Offline SSID aus.

Yepp, vgl. http://map.4830.org/m/ffgt-node-stat-day.png — seit ca. 18 Uhr ist irgendwas kaputt. Leider weiß ich nicht, was :frowning:

ffgt-node-stat-day

Immerhin betrifft’s „nur“ unsere Mesh im Kreis GT, Müritz läuft augenscheinlich problemlos, was gegen bgp-gut01.4830.org spricht. kopfkratz Auch http://gw-gut01.4830.org/ffgt.status sieht soweit gut aus:

Status for ffgt as of 2019-03-27 23:35:01

server uptime:
--------------
 23:35:01 up 100 days, 19:44,  1 user,  load average: 0.00, 0.06, 0.08

batman gateways:
----------------
Local host's batman gateway status: server (announced bw: 96MBit/96MBit)

      Gateway      (#/255)           Nexthop [outgoingIF]: gw_class ... [B.A.T.M.A.N. adv 2013.4.0, MainIF/MAC: ffgt-mesh-vpn/de:ad:be:ef:67:01 (bat-ffgt)]
No gateways in range ...

Etmpstats: active
Etmp00: active
Etmpgw01: active
ens8: active
ens7: active
ens9: active
ens10: active
ffgt-mesh-vpn: active

local status:
-------------
gw-gut01 fastd-connections:   0 orginators: 288 connected_MACs:  256 gwl:  0 dhrelay:  no v6_default_gw: yes v4_default_gw: yes gw-mode: server (announced bw: 96MBit/96MBit)

fastd connections
=================
fastd176: 16
fastd177: 51
fastd178: 52
fastd179: 117

(Limit 176-178: 110 -- updated at Wed Mar 27 23:33:01 2019)

IP connectivity:
----------------
# traceroute -m 10 -s 10.255.0.61 -4 -T www.ripe.net
traceroute to www.ripe.net (193.0.6.139), 10 hops max, 60 byte packets
 1  * * *
 2  bgp-ham02.4830.org (193.26.120.85)  11.395 ms  11.300 ms  11.212 ms
 3  iphh.ham.ecix.net (193.42.155.30)  12.013 ms  11.875 ms  11.789 ms
 4  ae2-101-br3.hamburg2.iphh.net (213.128.159.9)  12.179 ms  12.066 ms  12.520 ms
 5  gw.amsix.eqix3rtr.ripe.net (80.249.208.68)  15.247 ms  15.259 ms  15.171 ms
 6  www.ripe.net (193.0.6.139)  13.218 ms  13.073 ms  12.922 ms
 7  www.ripe.net (193.0.6.139)  13.056 ms  13.193 ms  13.067 ms

# traceroute -m 10 -s 2001:bf7:1310:11::67:1 -6 -T www.ripe.net
traceroute to www.ripe.net (2001:67c:2e8:22::c100:68b), 10 hops max, 80 byte packets
 1  bgp-gut01.4830.org (2a06:e881:1700:1:400:c0ff:fefb:e277)  0.390 ms  0.294 ms  0.159 ms
 2  de0.as206946.net (2a06:e881:2600:42::1)  0.539 ms  0.363 ms  0.277 ms
 3  nl0.as206946.net (2a06:e881:2606:42::1)  11.123 ms  11.065 ms  10.987 ms
 4  eunetworks-vrrp.router.nl.coloclue.net (2a02:898:0:20::1)  11.481 ms  11.405 ms  11.325 ms
 5  gw.ipv6.amsix.eqix3rtr.ripe.net (2001:7f8:1::a500:3333:1)  18.521 ms  17.997 ms  18.342 ms
 6  www.ipv6.ripe.net (2001:67c:2e8:22::c100:68b)  17.841 ms  18.829 ms  18.706 ms
 7  www.ipv6.ripe.net (2001:67c:2e8:22::c100:68b)  19.582 ms  19.135 ms  18.694 ms

batman connectivity:
--------------------
... to Corona's RPi (b8:27:eb:bc:29:6f):
traceroute to b8:27:eb:bc:29:6f (52:54:00:4c:a2:52), 50 hops max, 20 byte packets
 1: 3a:bf:b1:8d:d0:1c  2.280 ms  0.738 ms  0.484 ms
 2: 52:54:00:4c:a2:52  2.066 ms  1.889 ms  1.727 ms

... to TGOS GW (26:3e:ed:d7:2d:60):
traceroute to 26:3e:ed:d7:2d:60 (26:3e:ed:d7:2d:60), 50 hops max, 20 byte packets
26:3e:ed:d7:2d:60: Destination Host Unreachable

... to ffgt-client (02:ff:67:00:00:02):
traceroute to 02:ff:67:00:00:02 (3a:bf:b1:8d:d0:1c), 50 hops max, 20 byte packets
 1: 3a:bf:b1:8d:d0:1c  0.656 ms  0.642 ms  0.580 ms

... to mail.de (60:e3:27:59:ea:d4):
traceroute to 60:e3:27:59:ea:d4 (ba:4e:e6:79:d8:9b), 50 hops max, 20 byte packets
 1: ba:4e:e6:79:d8:9b  31.603 ms  28.430 ms  26.278 ms

... to wusel's RPT Whz (c8:d3:a3:5c:6a:e0):
traceroute to c8:d3:a3:5c:6a:e0 (62:30:78:64:32:eb), 50 hops max, 20 byte packets
 1: 5e:71:cf:f9:41:83  21.101 ms  15.816 ms  16.180 ms
 2: 62:30:78:64:32:eb  17.851 ms  17.212 ms  20.110 ms

... to westaflex (c4:6e:1f:fe:8d:62):
traceroute to c4:6e:1f:fe:8d:62 (b2:a7:fe:14:df:73), 50 hops max, 20 byte packets
 1: b2:a7:fe:14:df:73  27.362 ms  19.465 ms  16.888 ms

... to Sparkasse GT City (00:08:54:57:ec:54):
traceroute to 00:08:54:57:ec:54 (7e:b4:47:b1:ac:db), 50 hops max, 20 byte packets
 1: 7e:b4:47:b1:ac:db  20.700 ms  15.595 ms  16.096 ms

... to Stadtbibliothek GT (00:08:54:57:ec:e8):
traceroute to 00:08:54:57:ec:e8 (f2:2a:af:6c:a2:ab), 50 hops max, 20 byte packets
 1: f2:2a:af:6c:a2:ab  28.738 ms  27.590 ms  27.002 ms

... to Stadtbibliothek Rheda (ec:08:6b:78:79:f4):
traceroute to ec:08:6b:78:79:f4 (ca:69:ef:f2:93:f3), 50 hops max, 20 byte packets
 1: ca:69:ef:f2:93:f3  39.868 ms  49.807 ms  40.307 ms

... to Jobcenter GT FES01 (c4:e9:84:c8:4d:38):
traceroute to c4:e9:84:c8:4d:38 (66:32:d7:00:d1:0b), 50 hops max, 20 byte packets
 1: 66:32:d7:00:d1:0b  34.730 ms  34.848 ms  35.324 ms

... to stats.4830.org (16:76:03:4a:bc:ee):
traceroute to 16:76:03:4a:bc:ee (16:76:03:4a:bc:ee), 50 hops max, 20 byte packets
16:76:03:4a:bc:ee: Destination Host Unreachable

Problem war mehrschichtig:

Erster Akt: Unser Router am Community-IX Berlin hatte mal wieder seine 10G-Ports gekocht und sie deshalb deaktiviert:

  Mar 27 17:47:57 blackstar kernel: [10349623.548649] enp1s0f1: Device temperature 100 degrees C exceeds maximum allowed. Hardware has been shut down.
  Mar 27 17:47:57 blackstar kernel: [10349623.708635] enp1s0f0: Device temperature 100 degrees C exceeds maximum allowed. Hardware has been shut down.

Zweiter Akt: Die Routen über AS49745 via Amsterdam sind nun für einige Ziele besser (Telekom, Unitymedia) als via unseren Peerings in Hamburg. Allein: 192.251.226.0/24 wurde von meinem AS49745 in Amsterdam nicht announced. In der Folge waren etliche Netze nicht erreichbar:

Dritter Akt: Nach der Nachtschicht für $Dayjob kam die für Freifunk; zuerst wurde das Routingproblem für 192.251.226.0/24 behoben:

Hernach wurde ein Powercycle der Kiste in Berlin durchgeführt (der zuvor durchgeführte Reboot reaktivierte die 10G–Ports nur so ein bißchen):

Die Normalität sollte wiederhergestellt sein.

1 „Gefällt mir“

Vielen Dank!

Dieses Thema wurde automatisch 10 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.