Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
L’incident est-il complètement terminé ? J’ai encore un symptôme, mais pourtant pas de pertes de paquet à priori. > Le 15 janv. 2019 à 22:44, Simon Muyal a écrit : > > Bonjour Raphael, > > > Comme l'avait dit Youssef, nous avons communiqué hier sur le canal privilégié > qui est la ML France-IX, suivi par l'ensemble des membres France-IX. Nous > avons posté un rapport plus complet aujourd'hui, voir ci-dessous. > > Nous avons bien vérifié hier soir que les problèmes avec CF ou Google dans la > soirée n'étaient pas associés à France-IX. > > Pour ce qui est des communications pendant les incidents, nous privilégions > la ML France-IX et demandons aux membres d'utiliser ce canal pour un meilleur > suivi. Nous allons également créer une page prochainement pour afficher les > maintenances/incidents en cours. Ca permettra de donner de la visibilité > également aux non-membres comme tu l'indiques. > > > ++ > > Simon > > > --- > > Dear members, > > You will find below a report concerning the issue encountered yesterday in > the afternoon: > > *12:20 (Paris time):* We started observing some unusual BUM traffic > (Broadcast, Unknown Unicast, Multicast) on PoPs where BUM rate limiting is > performed globally (not per interface): PA7, PAR1 and TH3 PoPs. > > We tried to determine the origin of this flooded traffic, looking for loops, > checking MAC addresses consistency on different PoPs. At this stage, our > probe's network (a 10G probe per device) didn't raise any alert and there was > no loss observed by probes. Nonetheless, we had some members complaining, > indicating losses towards France-IX. > > The sniffer's captures allowed us to determine that it was unknown unicast > traffic from several sources to few destinations. BUM traffic reached 10 to > 15Mbps. This traffic was observed even if MAC table entries were OK. > > *Around 15:00 (Paris time) :* BUM traffic reached more than 50Mbps, causing > additional impact, mainly on small and medium routers on customer side. We > cleared some MAC address entries where we observed flooding, with no effect. > As we didn't observe any abnormal behaviour on customer side we started > clearing some MPLS/LSPs circuits and shutting down backbone links one by one > to avoid to create additional impact. This allowed to isolate the problem, > issue was located on PAR5 PoP, clearing MPLS circuits used between PAR5 and > PAR1. During these operations, PAR1 PoP was isolated during 4 minutes between > 16:00 and 16:04 in order to find the root cause. > > We are in touch with the vendor to understand this behaviour and sharing logs > to find the root cause. We will keep you informed as soon as we have more > information. > > --- > Location: FranceIX Paris LAN > > Incident start: 14th of January 2018, 12:21 (UTC+1, Paris Time) > Incident end: 14th of January 2018, 16:08 (UTC+1, Paris Time) > > Customer impact: Some members observed packed loss during this period > --- > > We share with you the different works in progress to detect this kind of > issues: > > - Specific alerts when BUM traffic threshold is reached on every PoP > (*already done since yesterday*) > - Enhancement on QoS probes to be as close as possible to member > configuration : BGP router configured on each probe and permanent traffic > generated. This will be deployed in Q1-2019 > - We plan to test 18.R1 firmware soon. This version enhances the way of > processes and memory are managed in the platform. This will be tested during > Q1-2019 and probably deployed during Q2-2019 > - EVPN : For long term, we plan to activate EVPN, and BUM traffic will be > better controlled > - Definition of a specific process to react quickly if the issue occurs > again > We apologize again for such issue. Sorry if you considered we didn't > communicate enough during the incident, we communicated as soon as we had new > information to provide > > > Le 14/01/2019 à 21:40, Raphael Mazelier a écrit : >> On 14/01/2019 20:59, Radu-Adrian Feurdean wrote: >> >>> Presque certainement pas. Le traffic avait disparu aussi via Equinix-IX >>> pour passer (apres une chute brutale) entierement sur du transit. >>> Actuellement ca a l'air de preprendre un peu cote Equinix. Cote FranceIX, >>> je sais pas (je fais du prepend), mais le "festival Akamai" a bien commence >>> son episode de cette soiree (traffic qui bascule de PNI vers France-IX). >>> >> >> OK merci de la précision. Ce qui me faisait penser à ca c'était des reports >> de personne qui avait perdu 8.8.8.8 aussi. Sinon il y a quoi qui tabasse les >> CDNs en ce moment pour qu'ils doivent re-router ? >> >> -- >> Raphael Mazelier >> >> >> >> --- >> Liste de diffusion du FRnOG >> http://www.frnog.org/ > > -- > Simon Muyal > CTO > FranceIX > Tél: +33 (0)1 70 61 97 74 > Mob: +33 (0)6 21 17 29 51 > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ ---
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Bonjour Raphael, Comme l'avait dit Youssef, nous avons communiqué hier sur le canal privilégié qui est la ML France-IX, suivi par l'ensemble des membres France-IX. Nous avons posté un rapport plus complet aujourd'hui, voir ci-dessous. Nous avons bien vérifié hier soir que les problèmes avec CF ou Google dans la soirée n'étaient pas associés à France-IX. Pour ce qui est des communications pendant les incidents, nous privilégions la ML France-IX et demandons aux membres d'utiliser ce canal pour un meilleur suivi. Nous allons également créer une page prochainement pour afficher les maintenances/incidents en cours. Ca permettra de donner de la visibilité également aux non-membres comme tu l'indiques. ++ Simon --- Dear members, You will find below a report concerning the issue encountered yesterday in the afternoon: *12:20 (Paris time):* We started observing some unusual BUM traffic (Broadcast, Unknown Unicast, Multicast) on PoPs where BUM rate limiting is performed globally (not per interface): PA7, PAR1 and TH3 PoPs. We tried to determine the origin of this flooded traffic, looking for loops, checking MAC addresses consistency on different PoPs. At this stage, our probe's network (a 10G probe per device) didn't raise any alert and there was no loss observed by probes. Nonetheless, we had some members complaining, indicating losses towards France-IX. The sniffer's captures allowed us to determine that it was unknown unicast traffic from several sources to few destinations. BUM traffic reached 10 to 15Mbps. This traffic was observed even if MAC table entries were OK. *Around 15:00 (Paris time) :* BUM traffic reached more than 50Mbps, causing additional impact, mainly on small and medium routers on customer side. We cleared some MAC address entries where we observed flooding, with no effect. As we didn't observe any abnormal behaviour on customer side we started clearing some MPLS/LSPs circuits and shutting down backbone links one by one to avoid to create additional impact. This allowed to isolate the problem, issue was located on PAR5 PoP, clearing MPLS circuits used between PAR5 and PAR1. During these operations, PAR1 PoP was isolated during 4 minutes between 16:00 and 16:04 in order to find the root cause. We are in touch with the vendor to understand this behaviour and sharing logs to find the root cause. We will keep you informed as soon as we have more information. --- Location: FranceIX Paris LAN Incident start: 14th of January 2018, 12:21 (UTC+1, Paris Time) Incident end: 14th of January 2018, 16:08 (UTC+1, Paris Time) Customer impact: Some members observed packed loss during this period --- We share with you the different works in progress to detect this kind of issues: - Specific alerts when BUM traffic threshold is reached on every PoP (*already done since yesterday*) - Enhancement on QoS probes to be as close as possible to member configuration : BGP router configured on each probe and permanent traffic generated. This will be deployed in Q1-2019 - We plan to test 18.R1 firmware soon. This version enhances the way of processes and memory are managed in the platform. This will be tested during Q1-2019 and probably deployed during Q2-2019 - EVPN : For long term, we plan to activate EVPN, and BUM traffic will be better controlled - Definition of a specific process to react quickly if the issue occurs again We apologize again for such issue. Sorry if you considered we didn't communicate enough during the incident, we communicated as soon as we had new information to provide Le 14/01/2019 à 21:40, Raphael Mazelier a écrit : On 14/01/2019 20:59, Radu-Adrian Feurdean wrote: Presque certainement pas. Le traffic avait disparu aussi via Equinix-IX pour passer (apres une chute brutale) entierement sur du transit. Actuellement ca a l'air de preprendre un peu cote Equinix. Cote FranceIX, je sais pas (je fais du prepend), mais le "festival Akamai" a bien commence son episode de cette soiree (traffic qui bascule de PNI vers France-IX). OK merci de la précision. Ce qui me faisait penser à ca c'était des reports de personne qui avait perdu 8.8.8.8 aussi. Sinon il y a quoi qui tabasse les CDNs en ce moment pour qu'ils doivent re-router ? -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/ -- Simon Muyal CTO FranceIX Tél: +33 (0)1 70 61 97 74 Mob: +33 (0)6 21 17 29 51 --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Le mar. 15 janv. 2019 à 08:15, Julien CANAT a écrit : > We found the issue and solved it. We need to analyse logs deeply but it > seems it was a state on one of the routers causing this flood : Instead > of unicasting traffic, the switch broadcasted specific traffic, from > PAR5 to PAR1 and PA7 PoPs. > Buffer overflow en 2019, really ? :D --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
On Mon, Jan 14, 2019, at 21:40, Raphael Mazelier wrote: > Sinon il y a quoi qui > tabasse les CDNs en ce moment pour qu'ils doivent re-router ? Le(s) meme(s) chose(s) que tous les soirs : les STB en mode OTT (100% du parc chez nous). --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Cadeau: We found the issue and solved it. We need to analyse logs deeply but it seems it was a state on one of the routers causing this flood : Instead of unicasting traffic, the switch broadcasted specific traffic, from PAR5 to PAR1 and PA7 PoPs. We had to isolate during 5 mins PoP PAR1 in order to solve the issue, clearing configuration related to this PoP on PAR5 device. We will give you additional information and a full report once we have analyse all the logs to understand this behaviour. Le 14/01/2019 à 21:39, Alexis a écrit : Peut-on en avoir un petit bout ou c'est confidentiel top-secret ? :) Alexis Prodhomme Support Technique Gen-IP email : supp...@gen-ip.fr tel : 02.90.75.30.50 Le 14/01/2019 à 20:59, Youssef Bengelloun-Zahr a écrit : Pour info, FRANCE-IX a communiqué vers 17h mais via la ML destinée aux membres. Bonne soirée. @++ Le 14 janv. 2019 à 20:39, Raphael Mazelier a écrit : On 14/01/2019 20:16, Romain wrote: Je ne sais pas si c'est lié, j'ai aussi cru à un CloudFlare down (plusieurs sites inaccessibles en Wi-Fi sur Orange GP), mais en repassant en 4G c'était bon, donc j'ai conclu à un souci DNS Orange ? Alors il est certain que CF a eu un soucis, cf leur status page (blague). En revanche est ce lié à FranceIX j'ai plus de mal à savoir. C'est plutot normal que depuis les opérateurs mobiles cela se soit moins vu car leur resolveur dns sont très très menteurs. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/ -- Julien CANAT TRINAPS - Ingénierie Réseau Ingénieur réseau julien.ca...@trinaps.com 03 39 03 40 59 Techn'hom 3 - 11 rue Sophie Germain 9 Belfort www.trinaps.com --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
On 14/01/2019 20:59, Radu-Adrian Feurdean wrote: Presque certainement pas. Le traffic avait disparu aussi via Equinix-IX pour passer (apres une chute brutale) entierement sur du transit. Actuellement ca a l'air de preprendre un peu cote Equinix. Cote FranceIX, je sais pas (je fais du prepend), mais le "festival Akamai" a bien commence son episode de cette soiree (traffic qui bascule de PNI vers France-IX). OK merci de la précision. Ce qui me faisait penser à ca c'était des reports de personne qui avait perdu 8.8.8.8 aussi. Sinon il y a quoi qui tabasse les CDNs en ce moment pour qu'ils doivent re-router ? -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Peut-on en avoir un petit bout ou c'est confidentiel top-secret ? :) Alexis Prodhomme Support Technique Gen-IP email : supp...@gen-ip.fr tel : 02.90.75.30.50 Le 14/01/2019 à 20:59, Youssef Bengelloun-Zahr a écrit : Pour info, FRANCE-IX a communiqué vers 17h mais via la ML destinée aux membres. Bonne soirée. @++ Le 14 janv. 2019 à 20:39, Raphael Mazelier a écrit : On 14/01/2019 20:16, Romain wrote: Je ne sais pas si c'est lié, j'ai aussi cru à un CloudFlare down (plusieurs sites inaccessibles en Wi-Fi sur Orange GP), mais en repassant en 4G c'était bon, donc j'ai conclu à un souci DNS Orange ? Alors il est certain que CF a eu un soucis, cf leur status page (blague). En revanche est ce lié à FranceIX j'ai plus de mal à savoir. C'est plutot normal que depuis les opérateurs mobiles cela se soit moins vu car leur resolveur dns sont très très menteurs. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
On 14/01/2019 20:59, Youssef Bengelloun-Zahr wrote: Pour info, FRANCE-IX a communiqué vers 17h mais via la ML destinée aux membres. On en discutait en off mais à mon sens FranceIX étant un bien commun de l'internet Français, une communication plus générale et non réservée aux membres me paraîtrait souhaitable. Je pense simplement à une page de statut publique et twitter. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Pour info, FRANCE-IX a communiqué vers 17h mais via la ML destinée aux membres. Bonne soirée. @++ > Le 14 janv. 2019 à 20:39, Raphael Mazelier a écrit : > >> On 14/01/2019 20:16, Romain wrote: >> Je ne sais pas si c'est lié, j'ai aussi cru à un CloudFlare down (plusieurs >> sites inaccessibles en Wi-Fi sur Orange GP), mais en repassant en 4G >> c'était bon, donc j'ai conclu à un souci DNS Orange ? > > Alors il est certain que CF a eu un soucis, cf leur status page (blague). En > revanche est ce lié à FranceIX j'ai plus de mal à savoir. > C'est plutot normal que depuis les opérateurs mobiles cela se soit moins vu > car leur resolveur dns sont très très menteurs. > > -- > Raphael Mazelier > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
On Mon, Jan 14, 2019, at 20:40, Raphael Mazelier wrote: > Alors il est certain que CF a eu un soucis, cf leur status page > (blague). En revanche est ce lié à FranceIX j'ai plus de mal à savoir. Presque certainement pas. Le traffic avait disparu aussi via Equinix-IX pour passer (apres une chute brutale) entierement sur du transit. Actuellement ca a l'air de preprendre un peu cote Equinix. Cote FranceIX, je sais pas (je fais du prepend), mais le "festival Akamai" a bien commence son episode de cette soiree (traffic qui bascule de PNI vers France-IX). --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
On 14/01/2019 20:16, Romain wrote: Je ne sais pas si c'est lié, j'ai aussi cru à un CloudFlare down (plusieurs sites inaccessibles en Wi-Fi sur Orange GP), mais en repassant en 4G c'était bon, donc j'ai conclu à un souci DNS Orange ? Alors il est certain que CF a eu un soucis, cf leur status page (blague). En revanche est ce lié à FranceIX j'ai plus de mal à savoir. C'est plutot normal que depuis les opérateurs mobiles cela se soit moins vu car leur resolveur dns sont très très menteurs. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Je ne sais pas si c'est lié, j'ai aussi cru à un CloudFlare down (plusieurs sites inaccessibles en Wi-Fi sur Orange GP), mais en repassant en 4G c'était bon, donc j'ai conclu à un souci DNS Orange ? Le lun. 14 janv. 2019 à 20:05, Raphael Mazelier a écrit : > Bonsoir les admins, > > Je ne sais pas dans quel ordre cela a commencé et j'ai des informations > divergentes. J'ai constaté du cloudflare down (eux aussi), du 8.8.8.8 > down aussi, etc... > Je pense qu'effectivement cela ferait sens si FranceIX s'est transformé > en trou noir, vu que CF peer avec quasi tout le monde, et google aussi. > > Des infos plus factuelles ? > > PS : FranceIX : incindent cet après midi, zero comm, c'est tendu qd meme. > > -- > Raphael Mazelier > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Perso, je viens d'avoir une petite demie-heure d'injoignabilité de 1.1.1.1. RAS côté 8.8.8.8. Entre 19h15 et 19h45 à la louche. J'ai fermé MTR mais il me reste le retour de traceroute sous le coude (et désolé, 1.1.1.1 était mon serveur DNS donc je n'ai pas les reverse renseignés :)) : traceroute to 1.1.1.1 (1.1.1.1), 30 hops max, 60 byte packets 1 192.168.7.254 (192.168.7.254) 0.936 ms 0.916 ms 0.801 ms 2 80.10.115.244 (80.10.115.244) 21.656 ms 23.649 ms 24.570 ms 3 10.123.204.250 (10.123.204.250) 26.633 ms 10.123.204.254 (10.123.204.254) 26.636 ms 10.123.204.250 (10.123.204.250) 28.450 ms 4 193.252.98.249 (193.252.98.249) 29.450 ms 193.252.98.253 (193.252.98.253) 30.419 ms 31.267 ms 5 193.252.137.74 (193.252.137.74) 33.338 ms 34.169 ms 81.253.184.182 (81.253.184.182) 36.186 ms 6 193.251.242.194 (193.251.242.194) 41.318 ms 129.250.66.141 (129.250.66.141) 21.984 ms 193.251.242.46 (193.251.242.46) 29.939 ms 7 129.250.5.39 (129.250.5.39) 22.571 ms 23.297 ms 193.251.129.86 (193.251.129.86) 25.370 ms 8 * 129.250.66.141 (129.250.66.141) 27.212 ms 29.122 ms 9 * * * 10 * * * Maintenant que ça fonctionne : traceroute to 1.1.1.1 (1.1.1.1), 30 hops max, 60 byte packets 1 192.168.7.254 (192.168.7.254) 0.860 ms 0.830 ms 1.033 ms 2 80.10.115.244 (80.10.115.244) 22.411 ms 23.157 ms 25.195 ms 3 10.123.204.254 (10.123.204.254) 28.038 ms 27.550 ms 28.027 ms 4 ae46-0.niidf201.aubervilliers.francetelecom.net (193.252.98.249) 29.895 ms 30.819 ms 32.753 ms 5 81.253.184.182 (81.253.184.182) 33.759 ms 193.252.137.74 (193.252.137.74) 35.959 ms 81.253.184.182 (81.253.184.182) 36.937 ms 6 ae-26.r04.parsfr01.fr.bb.gin.ntt.net (129.250.66.141) 37.874 ms hundredgige0-12-0-3.auvtr4.aubervilliers.opentransit.net (193.251.242.192) 28.039 ms ae-26.r04.parsfr01.fr.bb.gin.ntt.net (129.250.66.141) 24.096 ms * 7 ae-3.r03.parsfr02.fr.bb.gin.ntt.net (129.250.5.39) 30.000 ms et-18-1-1-0.pastr3.paris.opentransit.net (193.251.129.86) 23.955 ms 24.719 ms* 8 ae-8.r02.parsfr02.fr.bb.gin.ntt.net (129.250.4.133) 32.808 ms 34.800 ms ae-26.r04.parsfr01.fr.bb.gin.ntt.net (129.250.66.141) 28.806 ms 9 ae-7.r25.londen12.uk.bb.gin.ntt.net (129.250.4.24) 36.759 ms 37.848 ms ae-3.r03.parsfr02.fr.bb.gin.ntt.net (129.250.5.39) 38.864 ms 10 ae-8.r02.parsfr02.fr.bb.gin.ntt.net (129.250.4.133) 40.778 ms ae-2.r04.londen12.uk.bb.gin.ntt.net (129.250.4.129) 41.984 ms ae-2.r05.londen12.uk.bb.gin.ntt.net (129.250.4.247) 42.880 ms 11 ae-1.a01.londen12.uk.bb.gin.ntt.net (129.250.2.185) 47.066 ms ae-7.r25.londen12.uk.bb.gin.ntt.net (129.250.4.24) 44.893 ms ae-0.a01.londen12.uk.bb.gin.ntt.net (129.250.2.33) 30.662 ms 12 185.84.16.246 (185.84.16.246) 30.625 ms 29.055 ms 29.810 ms 13 one.one.one.one (1.1.1.1) 31.806 ms 185.84.16.246 (185.84.16.246) 31.840 ms 33.799 ms Du coup, je dirais que c'est la faute à ae-3.r03.parsfr02.fr.bb.gin.ntt.net ? Alexis Le 14/01/2019 à 20:05, Raphael Mazelier a écrit : Bonsoir les admins, Je ne sais pas dans quel ordre cela a commencé et j'ai des informations divergentes. J'ai constaté du cloudflare down (eux aussi), du 8.8.8.8 down aussi, etc... Je pense qu'effectivement cela ferait sens si FranceIX s'est transformé en trou noir, vu que CF peer avec quasi tout le monde, et google aussi. Des infos plus factuelles ? PS : FranceIX : incindent cet après midi, zero comm, c'est tendu qd meme. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] [ALERT] Chaos ce soir ? FranceIX ? CF ?
Bonsoir les admins, Je ne sais pas dans quel ordre cela a commencé et j'ai des informations divergentes. J'ai constaté du cloudflare down (eux aussi), du 8.8.8.8 down aussi, etc... Je pense qu'effectivement cela ferait sens si FranceIX s'est transformé en trou noir, vu que CF peer avec quasi tout le monde, et google aussi. Des infos plus factuelles ? PS : FranceIX : incindent cet après midi, zero comm, c'est tendu qd meme. -- Raphael Mazelier --- Liste de diffusion du FRnOG http://www.frnog.org/