Fout in één router veroorzaakt wereldwijde storing

Netwerk kabel en router

Gepubliceerd: Woensdag 18 februari 2009

Een foute routerinstelling voor het BGP protocol bij een Tsjechische isp heeft flinke delen van het internet kortstondig verstoord.

Toon volledig artikel

griebels op Woensdag 18 Februari 2009 17:35

image

BGPSEC is er nog lang niet en de vraag is of het ooit gaat vliegen. Daarbij denk ik dat het onmogelijk zal zijn om elke route die je vanuit een transit krijgt aangeleverd te checken op een valid origin met 260.000 routes (and counting)...

Als een grote transit het verpest, dan kan dat grote gevolgen hebben. Voor de gemiddelde ISP geldt, je kunt redelijk goed filteren op je peers, maar niet op je transits. Hetzelfde geldt voor transits onderling, je kunt wel op bepaalde anomalien filteren, maar niet op alle routes die je met elkaar uitwisselt, dat is gewoon onwerkbaar.

De grootste verantwoordelijkheid ligt dus bij de transit partijen, deze zullen beter moeten controlleren of de routes die hun klanten aan hun aanbieden ook wel legitieme routes zijn, dat is ook in hun eigen interesse.

Toen BGP werd geintroduceert was het aantal partijen dat BGP met elkaar spreekt nog op een paar handen te tellen, inmiddels zijn er in Nederland alleen al een paar duizend partijen met een eigen "Autonomous System", veel van die partijen hebben eigenhandig het potentieel om grote delen van het Internet te ontregelen. De enige oplossing op korte tijd is dat transits hun verantwoordelijkheid nemen en goed filteren.

Anonymous Coward op Woensdag 18 Februari 2009 19:24

image

Een probleem is denk ik dat er zo ontzettend veel paden mogelijk zijn die niet goed zijn, of omdat een peerings partner "per ongeluk" een extra lange route verkondigt. De mensen op #nlnog (irc kanaal waar bijna iedereen op zit van alle mensen die een AS-border router beheren) zouden dit misschien weten, denk ik....
(serieuze vraag:)Heb jij misschien enig idee hoe een transit vreemde afwijkingen in bgp zou kunnen monitoren?

griebels op Donderdag 19 Februari 2009 00:31

image

Er bestaan een aantal partijen die er een dagtaak van hebben gemaakt om veranderingen op het Internet te monitoren, mede door BGP data vanuit een groot aantal meetpunten te analyseren. Caida.org is daar een van de bekenste van.

Het aantal tools voor ISPs en carriers om actief te monitoren op "BGP abuse" en "BGP misconfigurations" is beperkt. Er is een project genaamd BGPmon wat dit als doel heeft. Het is mede geinspireerd door het probleem met de BGP blackhole situatie van Youtube een anderhalf jaar geleden. In principe dus een redelijk groene markt. Zodra "hackers" op brede schaal de potentie ontdekken die in het injecteren van foute routes in BGP steekt, verwacht ik wel nog wat meer ellende.

Het grootste gevaar is het injecteren van "more specific" routes. Als er twee routes naar dezelfde bestemming zijn, heeft de route met "het kleinste subnet" nl. standaard de hoogste prioriteit, ook als andere factoren tegen die route spreken (zoals een langer AS path, interne metrics, etc.).

Als carriers de BGP sessies die ze met hun klanten hebben goed filteren, dan zouden er in principe geen vreemde routes moeten doorlekken. Gelukkig zijn die filters meestal redelijk in orde, want anders zouden we dagelijks wel meerdere keren ellende hebben. Het systeem zoals het nu is opgezet kan echter nooit waterdicht werken, want van de miljoenen BGP sessies (grove schatting) zullen er vast tienduizenden (eveneens grove schatting) problematisch zijn.

Er zijn diverse databases, zoals die van de diverse RIRs (zoals RIPE) en "onafhankelijke" instanties zoals RADB van Merit die redelijk veilig zijn en waar in staat welke partijen welke routes mogen adverteren naar de rest van de planeet. Peers die slechts een beperkt aantal routes uitwisselen kunnen die in principe als filter gebruiken.

Als je als ISP van een van je transits een BGP feed krijgt die vervuild is, is de beste remedie gewoon die transit uit te zetten. Je verstuurt dan geen verkeer meer via die transit en die transit zal jouw ook (als het goed is) niet meer adverteren naar zijn peers. Krijg je van al je transits een "vervuilde feed", dan heb je weinig keus. Ook het filteren van foute routes heeft vaak weinig nut, want zodra het verkeer bij je transit is afgeleverd, ben je toch afhankelijk van hun interne routing.

Het blijft dus iets wat niet volledig fool-proof is en we zullen voorlopig moeten leven met die situatie. Verstand van zaken en de mogelijkheid om snel in te kunnen grijpen bij de NOCs van de grote carriers is in dezen dus belangrijk voor het stabiel functioneren van het Internet.

Lennart op Woensdag 18 Februari 2009 19:32

image zomerhack badge 3

Er is geen enkel protocol bestand tegen menselijke fouten.

Niels Sijm op Woensdag 18 Februari 2009 19:46

image

Er is geen enkel protocol bestand tegen menselijke fouten.

Nee, maar je kunt de gevolgen van een menselijke fout wel beperken.

BPG werkt vaak op basis van vertrouwen, maar je kunt het zo configureren dat je alleen bepaalde routes overneemt. Een ISP kan dit doen voor klanten met een eigen AS, om Pakistan-toestanden te voorkomen.

Transit-verkeer lijkt mij moeilijker, maar daarvoor weet ik te weinig van de dagelijkse praktijk van BGP af. Wel kan ik stellen dat het handmatig beheren van een lijst met door te laten routes fouten in de hand werkt. Voor een ISP met twee klanten wel te doen, maar voor een transit-provider hell on earth.

Xip Pie (xippie) op Donderdag 19 Februari 2009 00:24

image

Dat hebben we toch ook gemerkt met Google, die per ongeluk een / in het filter had zitten. Zodat alle sites, waaronder Google zelf ;) als verdacht gekwalificeerd werden.

Hoop dat het niet vaak gebeurt, maar soms is het wel lachwekkend.
Ook al programmeer je nog zo goed, heel af en toe komt er door een vage samenloop van omstandigheden, rare fouten aan het licht.

Maar daar kunnen wij (programmeurs) een boek over schrijven!

MediaMax op Donderdag 19 Februari 2009 12:31

image

Dat heb je als je sleutelt aan een live netwerk.
Nog nooit gehoord van testen, zeker.

Athalon1951 op Donderdag 19 Februari 2009 13:05

image

Mijn Allah, bij wijze van spreken kan 1 routertje van 30 euro het hele Internet volkomen ontwrichten en daar vertrouwen wij onze gegevens aan, aan datzelfde internet. Er komt een dronken Rus binnenstappen daar, trekt even een kabeltje eruit en het Russische leger staat al in Hoek van Holland voordat het kabeltje er weer is ingeprikt :-)))

ardje op Vrijdag 20 Februari 2009 09:20

image

Het grootste probleem was niet dat 1 provider een heleboel prefixes bij het pad van een klant had gestopt, dat was niet slim, maar protocol technisch gezien op geen enkele manier fout. Het probleem was dat ontzettend veel routers (cisco bijvoorbeeld) gewoon zo buggy waren/zijn dat deze niet de route had genegeerd, maar de peering met de peer (meestal de transit provider) die de route had doorgegeven (zoals het hoort! Het filteren van routes is gewoon not done) verbreekt.
Vrijwel alle transit providers stuurden keurig de route door, maar de kleinere provider die zijn cisco niet heeft geupgrade wegens tijdgebrek, of wegens support contract gebrek, die hadden daar dus redelijk veel last van.
Het gevolg is dat zo ongeveer 1/2 internet loopt te klapperen wegens de hoeveelheid updates van netwerken die wegvallen en weer terugkomen via een andere route en weer wegvallen enz. .

Om te kunnen reageren, dient u ingelogd te zijn.

Nieuwsbrief

Ontvang dagelijks een overzicht van het laatste ICT-Nieuws in uw mailbox

Peiling

Loading Poll

Video: World Tech Update: Darpa's robot oorl...

World Tech Update: Darpa's robot oorlogspaard (video)

Verleden nieuws