Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Fri, Sep 12, 2014, at 11:06, Pierre-Yves Maunier wrote: Variante sur cette architecture (non mentionnée dans le RFC mais que j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud ce problème et permet de tout faire en L3, mais, si on a des centaines de milliers de machines, le protocole de routage va souffrir. Sinon pour soulager le protocole de routage, une solution : des top of racks faisant du routage, un subnet par rack : disons un /26 par rack pour 100 racks. Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation bien que lui connaitra les 64x/32 Une autre vision qui peut rendre les choses un peu plus compliques: - au minimum, plusieurs dizaines de VLANs (disons ~50-60). Si vous aimes pas VLANs, pensez a zones de securite. - entre 5 et 25 machines par VLAN. - les machines dans des VLANs differents communiquent uniquement si autorise sur les FW. - les machines dans un meme VLAN sont repartis en priorites dans des racks differents (probablement parce qu-ils remplissent des roles identiques ou assez similaires - on a une baie qui saute, on perd seulement 1-2, max 3 machines ayant le meme role). - dans une meme baie, il y a potentiellement n'importe quel (lire *TOUS* les) VLAN qui est(sont) disponible(s). - on ne veut pas faire tourner du daemon de routage sur les machines - il y a plusieurs sites, et au moins on evite comme la peste les VLANs cross-site (a.k.a. niveau 2 etendu). On fait comment ? En etat, ca fait pas beaucoup, mais quand on pense que le nombre et VLAN et/ou le nombre de machines par VLAN peut exploser assez facilement, ca change les choses. Le concept des VLAN = zone de securite est difficilement revisable dans certains endroits (ca peut necessiter plusieurs pannes majeures et/ou le licenciement de plusieurs personnes au technique - punir les innocents - avant d'etre pris en compte). --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 5 septembre 2014 21:14, Stephane Bortzmeyer bortzme...@nic.fr a écrit : Ah au fait, j'ai modifié mon article pour mentionner cette possibilité (qui n'était apparemment pas dans le RFC). Merci. Variante sur cette architecture (non mentionnée dans le RFC mais que j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud ce problème et permet de tout faire en L3, mais, si on a des centaines de milliers de machines, le protocole de routage va souffrir. Sinon pour soulager le protocole de routage, une solution : des top of racks faisant du routage, un subnet par rack : disons un /26 par rack pour 100 racks. Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation bien que lui connaitra les 64x/32 En temps normal tes switches/routeurs d'agrégation vont avoir 100 routes dans leur table. Si tu veux bouger un host vers un autre rack, le TOR du rack destination annoncera du coup son /26 et le /32 supplémentaire. Et rien ne t'empêche de changer l'IP de la machine pour qu'elle rentre dans le /26 du nouveau rack. En gros en situation optimale tu as 6400 hosts mais 100 routes dans l'aggreg. Pour couvrir le cas des 100aines de milliers de machines on va dire que tu tu es sur plusieurs DC. Disons un /14 par DC soit 256K hosts, ça fait 1000 racks de /24. Chaque coeur de DC connaitra le /14 du DC d'a cote et les 1000x/24 locaux et éventuellement quelques centaines de /32 more specific locaux, voire venant de l'autre DC si tu bouges des hosts du DC 1 au DC 2. Bref sans doute moins de 10k routes pour joindre 512k hosts. Dans tous les cas, un mec qui a plusieurs centaines de milliers de hosts peut se permettre d'avoir des routeurs prenant plusieurs millions d'entrées en RIB/FIB et BGP gère ça très bien. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Je sais pas si on en a déjà parlé ici mais MS le fait en BGP d'après ce que j'ai pu comprendre. Source http://datatracker.ietf.org/doc/draft-lapukhov-bgp-sdn/ 2014-09-05 21:14 GMT+02:00 Stephane Bortzmeyer bortzme...@nic.fr: On Thu, Aug 28, 2014 at 03:53:55PM +0200, Vincent Bernat ber...@luffy.cx wrote a message of 33 lines which said: Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de mon côté, mais c'est dans les cartons. Ah au fait, j'ai modifié mon article pour mentionner cette possibilité (qui n'était apparemment pas dans le RFC). Merci. --- Liste de diffusion du FRnOG http://www.frnog.org/ -- Matthieu MICHAUD --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
❦ 29 août 2014 23:31 +0200, Radu-Adrian Feurdean fr...@radu-adrian.feurdean.net : Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). Enfin, entre quelques VIP et *toutes* les machines, il y a une difference Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le même ordre de grandeur que le nombre de MAC). Genre 16k en IPv4 pour les EX4200 (attention, beaucoup moins en IPv6) et autres de la même gamme, 128k en IPv4 pour les QFX5100. Avant d'atteindre 128k VM, il y a de la marge. Si tu passes par des route servers Linux, tu peux aussi aggréger avant de redistribuer aux switchs ToR. Si les migrations se font généralement par subnet ou de manière ponctuelle/discrète, la table de routage doit pouvoir rester assez compacte. -- printk(Entering UltraSMPenguin Mode...\n); 2.2.16 /usr/src/linux/arch/sparc64/kernel/smp.c --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Sat, Aug 30, 2014, at 10:39, Vincent Bernat wrote: Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque serveur/VM, oui, pourquoi pas. Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article quelque-part a ce sujet mais je n'arrive plus a trouver le lien. On part du postulat que les machines dans un rack ne sont pas forcement dans le meme subnet, mais que des machines dans le meme subnet se trouvent dans des racks differents. L'idee est que chaque ToR porte l'IP du default gateway pour chaque subnet. Les addresses avec une entree ARP valide sont redistribues en BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a une route recue d'ailleurs. Est-ce que c'est juste une idee dans le vent, ou il y en a bien des constructeurs qui permettent de faire ca ? En IPv4, bien-sur; en v6 c'est beaucoup trop simple avec le off-link. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
❦ 30 août 2014 19:23 +0200, Radu-Adrian Feurdean fr...@radu-adrian.feurdean.net : Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque serveur/VM, oui, pourquoi pas. Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article quelque-part a ce sujet mais je n'arrive plus a trouver le lien. On part du postulat que les machines dans un rack ne sont pas forcement dans le meme subnet, mais que des machines dans le meme subnet se trouvent dans des racks differents. L'idee est que chaque ToR porte l'IP du default gateway pour chaque subnet. Les addresses avec une entree ARP valide sont redistribues en BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a une route recue d'ailleurs. Est-ce que c'est juste une idee dans le vent, ou il y en a bien des constructeurs qui permettent de faire ca ? A priori, c'est comme ça que cela fonctionne chez Juniper en restricted. C'est aussi le cas de Linux si tu configures correctement le medium_id de chaque interface à des valeurs différentes (et différentes de 0). -- /* Am I fucking pedantic or what? */ 2.2.16 /usr/src/linux/drivers/scsi/qlogicpti.h --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Thu, Aug 28, 2014, at 15:57, Raphael Mazelier wrote: Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). Enfin, entre quelques VIP et *toutes* les machines, il y a une difference --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). -- Raphael Mazelier AS39605 --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28 août 2014 15:35, Stephane Bortzmeyer bortzme...@nic.fr a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on utilise ça aussi. Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur fail. Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? Le 28 août 2014 à 16:20, Pierre-Yves Maunier pymaunier+li...@gmail.com a écrit : Le 28 août 2014 15:35, Stephane Bortzmeyer bortzme...@nic.fr a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on utilise ça aussi. Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur fail. Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28 août 2014 à 16:26, David Ponzone david.ponz...@gmail.com a écrit : Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? L3 L3 everywhere ;-) Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on utilise ça aussi. Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur fail. Cordialement, Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Ah ouais, pardon, j’avais oublié le topic de départ :) Le 28 août 2014 à 16:32, Pierre-Yves Kerembellec py.kerembel...@gmail.com a écrit : Le 28 août 2014 à 16:26, David Ponzone david.ponz...@gmail.com a écrit : Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? L3 L3 everywhere ;-) Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on utilise ça aussi. Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur fail. Cordialement, Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Moi, je le fais pour voir comment mettre en place de l'anycast (un lab donc, je suis étudiant...). Sorti de ça, je ne vois pas en quoi c'est bizarre de faire ça en prod' (si je raconte des bétises, merci de me corriger ;) ) Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : On Thu, Aug 28, 2014 at 03:30:36PM +0200, Vincent Bernat ber...@luffy.cx wrote a message of 37 lines which said: Les IP des machines peuvent être annoncées dans un protocole de routage Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Bonjour, sur les mainframes (z/OS), les systèmes ont toujours deux cartes réseaux et font tourner un routeurs OSPF qui annonce les VIP. Cela permet de déplacer les systèmes d'une machine à une autre, et de gérer la perte du premier router ou d'une carte réseau. Il ne me semble pas qu'une configuration en L2 (VRRP) soient possible sur mainframe. -- Cordialement, Stéphane Diacquenod On 2014-08-28 15:35, Stephane Bortzmeyer wrote: On Thu, Aug 28, 2014 at 03:30:36PM +0200, Vincent Bernat ber...@luffy.cx wrote a message of 37 lines which said: Les IP des machines peuvent être annoncées dans un protocole de routage Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On 28.08.2014 15:57, Raphael Mazelier wrote: Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). et si tu controles bien toutes les vm, tu dois bien pouvoir les faire causer BGP elles aussi --- Liste de diffusion du FRnOG http://www.frnog.org/