Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-13 Par sujet Radu-Adrian Feurdean
On Fri, Sep 12, 2014, at 11:06, Pierre-Yves Maunier wrote:
 Variante sur cette architecture (non mentionnée dans le RFC mais que
 j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne
 une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud
 ce problème et permet de tout faire en L3, mais, si on a des centaines de
 milliers de machines, le protocole de routage va souffrir. 
 
 Sinon pour soulager le protocole de routage, une solution :
 des top of racks faisant du routage, un subnet par rack : disons un /26 par
 rack pour 100 racks.
 Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation
 bien que lui connaitra les 64x/32

Une autre vision qui peut rendre les choses un peu plus compliques:
 - au minimum, plusieurs dizaines de VLANs (disons ~50-60). Si vous
 aimes pas VLANs, pensez a zones de securite.
 - entre 5 et 25 machines par VLAN.
 - les machines dans des VLANs differents communiquent uniquement si
 autorise sur les FW.
 - les machines dans un meme VLAN sont repartis en priorites dans des
 racks differents (probablement parce qu-ils remplissent des roles
 identiques ou assez similaires - on a une baie qui saute, on perd
 seulement 1-2, max 3 machines ayant le meme role).
 - dans une meme baie, il y a potentiellement n'importe quel (lire
 *TOUS* les) VLAN qui est(sont) disponible(s).
 - on ne veut pas faire tourner du daemon de routage sur les machines
 - il y a plusieurs sites, et au moins on evite comme la peste les
 VLANs cross-site (a.k.a. niveau 2 etendu).

On fait comment ?

En etat, ca fait pas beaucoup, mais quand on pense que le nombre et VLAN
et/ou le nombre de machines par VLAN peut exploser assez facilement, ca
change les choses. Le concept des VLAN = zone de securite est
difficilement revisable dans certains endroits (ca peut necessiter
plusieurs pannes majeures et/ou le licenciement de plusieurs personnes
au technique - punir les innocents - avant d'etre pris en compte).


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-12 Par sujet Pierre-Yves Maunier
Le 5 septembre 2014 21:14, Stephane Bortzmeyer bortzme...@nic.fr a écrit :


 Ah au fait, j'ai modifié mon article pour mentionner cette
 possibilité (qui n'était apparemment pas dans le RFC). Merci.



Variante sur cette architecture (non mentionnée dans le RFC mais que
j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne
une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud
ce problème et permet de tout faire en L3, mais, si on a des centaines de
milliers de machines, le protocole de routage va souffrir. 


Sinon pour soulager le protocole de routage, une solution :
des top of racks faisant du routage, un subnet par rack : disons un /26 par
rack pour 100 racks.
Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation
bien que lui connaitra les 64x/32

En temps normal tes switches/routeurs d'agrégation vont avoir 100 routes
dans leur table.
Si tu veux bouger un host vers un autre rack, le TOR du rack destination
annoncera du coup son /26 et le /32 supplémentaire.
Et rien ne t'empêche de changer l'IP de la machine pour qu'elle rentre dans
le /26 du nouveau rack.

En gros en situation optimale tu as 6400 hosts mais 100 routes dans
l'aggreg.


Pour couvrir le cas des 100aines de milliers de machines on va dire que tu
tu es sur plusieurs DC.
Disons un /14 par DC soit 256K hosts, ça fait 1000 racks de /24.

Chaque coeur de DC connaitra le /14 du DC d'a cote et les 1000x/24 locaux
et éventuellement quelques centaines de /32 more specific locaux, voire
venant de l'autre DC si tu bouges des hosts du DC 1 au DC 2.

Bref sans doute moins de 10k routes pour joindre 512k hosts.

Dans tous les cas, un mec qui a plusieurs centaines de milliers de hosts
peut se permettre d'avoir des routeurs prenant plusieurs millions d'entrées
en RIB/FIB et BGP gère ça très bien.

---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-09 Par sujet Matthieu Michaud
Je sais pas si on en a déjà parlé ici mais MS le fait en BGP d'après ce que
j'ai pu comprendre.
Source http://datatracker.ietf.org/doc/draft-lapukhov-bgp-sdn/


2014-09-05 21:14 GMT+02:00 Stephane Bortzmeyer bortzme...@nic.fr:

 On Thu, Aug 28, 2014 at 03:53:55PM +0200,
  Vincent Bernat ber...@luffy.cx wrote
  a message of 33 lines which said:

   Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
   cela ?
 
  Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne
  pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de
  mon côté, mais c'est dans les cartons.

 Ah au fait, j'ai modifié mon article pour mentionner cette
 possibilité (qui n'était apparemment pas dans le RFC). Merci.


 ---
 Liste de diffusion du FRnOG
 http://www.frnog.org/




-- 
Matthieu MICHAUD

---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Vincent Bernat
 ❦ 29 août 2014 23:31 +0200, Radu-Adrian Feurdean 
fr...@radu-adrian.feurdean.net :

 Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
 OSPF, ou plutôt en BGP (avec exabgp par exemple).

 Enfin, entre quelques VIP et *toutes* les machines, il y a une
 difference

Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le
même ordre de grandeur que le nombre de MAC). Genre 16k en IPv4 pour les
EX4200 (attention, beaucoup moins en IPv6) et autres de la même gamme,
128k en IPv4 pour les QFX5100.

Avant d'atteindre 128k VM, il y a de la marge.

Si tu passes par des route servers Linux, tu peux aussi aggréger avant
de redistribuer aux switchs ToR. Si les migrations se font généralement
par subnet ou de manière ponctuelle/discrète, la table de routage doit
pouvoir rester assez compacte.
-- 
printk(Entering UltraSMPenguin Mode...\n);
2.2.16 /usr/src/linux/arch/sparc64/kernel/smp.c


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Radu-Adrian Feurdean
On Sat, Aug 30, 2014, at 10:39, Vincent Bernat wrote:

 Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
 de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le

Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque
serveur/VM, oui, pourquoi pas.

Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article
quelque-part a ce sujet mais je n'arrive plus a trouver le lien.

On part du postulat que les machines dans un rack ne sont pas forcement
dans le meme subnet, mais que des machines dans le meme subnet se
trouvent dans des racks differents.
L'idee est que chaque ToR porte l'IP du default gateway pour chaque
subnet. Les addresses avec une entree ARP  valide sont redistribues en
BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a
une route recue d'ailleurs.

Est-ce que c'est juste une idee dans le vent, ou il y en a bien des
constructeurs qui permettent de faire ca ?
En IPv4, bien-sur; en v6 c'est beaucoup trop simple avec le
off-link.


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Vincent Bernat
 ❦ 30 août 2014 19:23 +0200, Radu-Adrian Feurdean 
fr...@radu-adrian.feurdean.net :

 Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
 de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le

 Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque
 serveur/VM, oui, pourquoi pas.

 Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article
 quelque-part a ce sujet mais je n'arrive plus a trouver le lien.

 On part du postulat que les machines dans un rack ne sont pas forcement
 dans le meme subnet, mais que des machines dans le meme subnet se
 trouvent dans des racks differents.
 L'idee est que chaque ToR porte l'IP du default gateway pour chaque
 subnet. Les addresses avec une entree ARP  valide sont redistribues en
 BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a
 une route recue d'ailleurs.

 Est-ce que c'est juste une idee dans le vent, ou il y en a bien des
 constructeurs qui permettent de faire ca ?

A priori, c'est comme ça que cela fonctionne chez Juniper en
restricted. C'est aussi le cas de Linux si tu configures correctement
le medium_id de chaque interface à des valeurs différentes (et
différentes de 0).
-- 
 /* Am I fucking pedantic or what? */
2.2.16 /usr/src/linux/drivers/scsi/qlogicpti.h


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-29 Par sujet Radu-Adrian Feurdean
On Thu, Aug 28, 2014, at 15:57, Raphael Mazelier wrote:
 Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
 OSPF, ou plutôt en BGP (avec exabgp par exemple).

Enfin, entre quelques VIP et *toutes* les machines, il y a une
difference


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Raphael Mazelier



Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?




Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
OSPF, ou plutôt en BGP (avec exabgp par exemple).


--
Raphael Mazelier
AS39605


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Pierre-Yves Maunier
Le 28 août 2014 15:35, Stephane Bortzmeyer bortzme...@nic.fr a écrit :


 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?


On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
utilise ça aussi.

Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
fail.

Pierre-Yves

---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet David Ponzone
Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?

Le 28 août 2014 à 16:20, Pierre-Yves Maunier pymaunier+li...@gmail.com a 
écrit :

 Le 28 août 2014 15:35, Stephane Bortzmeyer bortzme...@nic.fr a écrit :
 
 
 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?
 
 
 On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
 utilise ça aussi.
 
 Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
 pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
 fail.
 
 Pierre-Yves
 
 ---
 Liste de diffusion du FRnOG
 http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Pierre-Yves Kerembellec
Le 28 août 2014 à 16:26, David Ponzone david.ponz...@gmail.com a écrit :

 Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?

L3  L3 everywhere  ;-)

 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?
 
 
 On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
 utilise ça aussi.
 
 Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
 pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
 fail.

Cordialement,
Pierre-Yves





---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet David Ponzone
Ah ouais, pardon, j’avais oublié le topic de départ :)

Le 28 août 2014 à 16:32, Pierre-Yves Kerembellec py.kerembel...@gmail.com a 
écrit :

 Le 28 août 2014 à 16:26, David Ponzone david.ponz...@gmail.com a écrit :
 
 Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?
 
 L3  L3 everywhere  ;-)
 
 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?
 
 
 On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
 utilise ça aussi.
 
 Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
 pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
 fail.
 
 Cordialement,
 Pierre-Yves
 
 
 
 


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Romain SIBILLE
Moi, je le fais pour voir comment mettre en place de l'anycast (un lab
donc, je suis étudiant...). Sorti de ça, je ne vois pas en quoi c'est
bizarre de faire ça en prod' (si je raconte des bétises, merci de me
corriger ;) )


Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :
 On Thu, Aug 28, 2014 at 03:30:36PM +0200,
  Vincent Bernat ber...@luffy.cx wrote 
  a message of 37 lines which said:
 
 Les IP des machines peuvent être annoncées dans un protocole de
 routage
 
 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?
 
 
 ---
 Liste de diffusion du FRnOG
 http://www.frnog.org/
 


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Stéphane Diacquenod

Bonjour,

sur les mainframes (z/OS), les systèmes ont toujours deux cartes réseaux 
et font tourner un routeurs OSPF qui annonce les VIP.


Cela permet de déplacer les systèmes d'une machine à une autre, et de 
gérer la perte du premier router ou d'une carte réseau.


Il ne me semble pas qu'une configuration en L2 (VRRP) soient possible 
sur mainframe.


--
Cordialement,
Stéphane Diacquenod



On 2014-08-28 15:35, Stephane Bortzmeyer wrote:

On Thu, Aug 28, 2014 at 03:30:36PM +0200,
 Vincent Bernat ber...@luffy.cx wrote
 a message of 37 lines which said:


Les IP des machines peuvent être annoncées dans un protocole de
routage


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?


---
Liste de diffusion du FRnOG
http://www.frnog.org/



---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Raphaël Jacquot

On 28.08.2014 15:57, Raphael Mazelier wrote:

Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?




Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en
OSPF, ou plutôt en BGP (avec exabgp par exemple).


et si tu controles bien toutes les vm, tu dois bien pouvoir les faire 
causer BGP elles aussi



---
Liste de diffusion du FRnOG
http://www.frnog.org/