IPv6 - NDP-Problem?

Rico Koerner Wed, 02 Feb 2022 05:12:47 -0800

Hallo Liste,

ich habe bei Hetzner mehrere Server mit einem vSwitch verbunden und dortein öffentliches /64-Netz angebunden. Das Gateway ist dabei einJuniper-Router bei Hetzner innerhalb des /64-Netzes ($Prefix::1).vSwitch bedeutet in dem Falle, daß auf der vorhandenen NIC einzusätzliches VLAN konfiguriert wird, welches mit dem vSwitch verbunden ist.


Das sieht auf dem Server etwa so aus:
auto vlan4000
iface vlan4000 inet manual
    vlan-raw-device enp195s0

auto vswitch0
iface vswitch0 inet6 static
    address $Prefix:1001::1/64
    bridge_ports vlan4000
    bridge_stp on
    bridge_maxwait 10
    up ip link set $IFACE mtu 1400
    up ip -6 rule add from $Prefix:1001::1/64 lookup vswitch0
    up ip -6 rule add to $Prefix:1001::1/64 lookup vswitch0
    up ip -6 route add default via $Prefix::1 dev $IFACE table vswitch0
    down ip -6 route del default via $Prefix::1 dev $IFACE table vswitch0
    down ip -6 rule del from $Prefix:1001::1/64 lookup vswitch0
    down ip -6 rule del to $Prefix:1001::1/64 lookup vswitch0

Damit VMs darüber angebunden werden können ist das hier als Bridgekonfiguriert. Die zusätzlichen Routen/Rules sind nur für dieKommunikation außerhalb des Netzes relevant, innerhalb würde es auchohne auskommen.

In der VM ist das Netzwerk, abgesehen von der geänderten MTU, ohnebesondere Einstellungen mit einer statischen IP konfiguriert:


allow-hotplug enp3s0
iface enp3s0 inet6 static
        address $Prefix:1101::1/64
        gateway $Prefix::1
        up ip link set $IFACE mtu 1400

Grundsätzlich funktioniert das so, alle Verbindungen in allen Richtungensind möglich. Allerdings bricht an einzelnen VMs irgendwann dieVerbindung ab, anscheinend hauptsächlich an VMs, an denen kein ständigerTraffic verursacht wird. Zuerst ist das Problem hauptsächlich beiVerbindungen von/nach außen aufgefallen, während intern scheinbar allesfunktionierte. Hetzner bestätigte mir, daß die zugehörigenMac/IPv6-Adressen währenddessen nicht im Router gelistet sind, weshalbich das Problem zuerst auch dort verortet hatte. Der Support konnte mirdabei aber auch nicht weiterhelfen.

Bei einem ausgiebigen Ping-Test ist dann aber aufgefallen, daß teilweiseauch interne Verbindungen aussteigen, sodaß ich den Fehler jetzt eherauf dem Host oder den VMs suchen würde.


Folgendes Test-Szenario (alles Debian 11):
2 Server (Hosts) mit jeweils 2 VMs, Einzelpings aller 5s

Pings laufen in beiden Richtungen zwischen allen Beteiligten. Nacheiniger Zeit bricht ausschließlich 1 Verbindung ab, manchmal sogar nureine Richtung davon. Mal ist es die Verbindung von und/oder zum Host,während sich die VMs untereinander als auch mit dem 2. Server weiterhinerreichen, manchmal ist es auch eine VM-Verbindung innerhalb desServers, während die Verbindung vom/zum Host noch steht.


Das Problem tritt aber auch älteren Hostsystemen (Debian 9/10) auf.

Die Firewall kann ebenso ausgeschlossen werden, da das Problem auch beideaktivierter Firewall auftritt. Allerdings zeigt ein icmp log/countauch, daß keine Pakete nach der allow-ndp-Regel mehr übrig bleiben.


        chain inbound_ipv6 {
                icmpv6 type echo-request accept

icmpv6 type { nd-router-advert, nd-neighbor-solicit,nd-neighbor-advert } acceptip6 nexthdr ipv6-icmp log prefix "[nftables] ICMPv6 Accept: " counterpackets 0 bytes 0 limit rate 20/second accept

Parallel dazu ist ein 2. vSwitch mit einer ähnlichen IPv4-Konfigurationund eine 2. NIC in den VMs konfiguriert, wo das Problem nicht auftaucht.Hier fehlt lediglich die IP-Adresse und die zusätzlichen Routen auf demHost. Darüber wurden die VMs auch während des Tests beobachtet.

Mit gerouteten IPv6-Verbindungen über das zum Server gehörige IPv6-Netztreten auch keine Probleme auf. Ein allgemeines IPv6- oderBridge-Problem sollte damit auch ausgeschlossen sein.

Es wurde auch ohne zusätzliche IPv6-Regeln auf dem Host getestet, um dasals Fehlerquelle auszuschalten.

Das einzige erkennbare Muster sind Zeitspannen. Der Ausfall erfolgt nachca. 20-30 min und in den meisten Fällen führte zusätzlicher Traffic aufnoch bestehenden Verbindungen nach kurzer Zeit (20-30s) dazu, daß dieVerbindung wieder funktionierte.

Aufgrund dieses Fehlerbildes vermute ich das Problem im NDP-Bereich,kenne mich aber damit zu wenig aus, um es weiter zu lokalisieren.


Sind dafür zusätzliche Kerneleinstellungen (sysctl) nötig?
Oder ein zusätzlicher Daemon?


Gruß
Rico

IPv6 - NDP-Problem?

Antwort per Email an