Bonjour à tous
Ce message pour tous ceux et celles qui on pesté hier, 29/04/2005, pour ne pas pouvoir se connecter sur XLD vers 17H15 et ce jusqu'à 19H10, ce n'était nullement dû à XLD lui même ni à ses bases de données.
C'était dû aux serveurs de l'herbergeur que je quote litéralement car ils sont sérieux et surtout transparents (je suis moi-même mutualisé chez eux) :
Voici quelques extraits pour ceux qui aiment la technique :
Nous avons eu un probleme sur la carte de repartition de charge SLB. La carte principale a envoyé signal de panne à la carte de secours alors qu'elle n'avait pas de probleme. Les 2 cartes ont été en production ce qui a provoqué une panne de l'hébergement mutualisé et les offres XXX.
Nous avons redemarré la carte principale et la secondaire est actuellement en production. Le systeme est surchargé à cause du redemarrage très violent. Sous environ 5 minutes la situation devrait être à nouveau stable
Plus tard....
La situation est stable désormais.
C'est la 2ème panne sur le systeme de repartition de charge depuis quelques mois dû au même probleme techniquement.
Visiblement il existe des bugs dans le systeme CSM de Cisco dans une configuration avec une carte principale et une carte de secours. La carte de secours recoit l'information que la carte principale est en panne, alors que ce n'est pas le cas.
Nous allons donc simplifier la structure de repartition de charge dans les jours qui viennent. L'objectif est d'avoir quelque chose de plus simple et donc plus robuste.
Plus tard....
La carte en production se coupe au bout d'un serveur temps.
On cherche l'origine du probleme.
Un peu Plus tard....
La carte SLB en production n'arrive pas à stabiliser le nombre des serveurs que nous avons dans le cluster. C'est à dire qu'en boucle elle ajoute et enleve les serveurs. La consequence est que les connexions se coupent et plus rien ne fonctionne.
Nous avons ralongé les temps de checks.
XXXplan est passé sur la carte SLB de secours. Si ceci n'aide pas nous allons passer XXXXplan sur cette carte aussi. Ainsi, on pense
que la carte principale pourra se stabiliser.
Très peu Plus tard....
XXXplan est attaqué ce qui provoque que la carte n'arrive pas gerer les connexions. Nous avons separé XXXplan sur la carte SLB de secours alors tout les autres plans sont sur la carte principale. Tout est en fonctionnement sauf XXXplan qui reste attaqué.
Les 2 cartes SLB ne veulent plus redemarrer du tout. On est en train de monter un systeme de repartition de charge basé sur Linux. On pense que dans environ 1h tous les plans vont être à nouveau up.
Un peu après le moment où ZOE a pu poster....
Depuis environ 45 minutes, tout est en fonctionnement sur les 2 cartes de repartition de charge. Nous continuons les travaux pour eventuellement demarrer un autre systeme de repartition de charge.
Concernant l'attaque, elle continue. Il s'agit de synflood spoofé. Normalement, nous avons mis en production les cartes SLB de Cisco pour palier à ce genre d'attaque. Jusqu'au là cela fonctionnait.
L'attaque est maitrisée dans la mesure où même XXXplan qui est attaqué reste en fonctionnement. Nous avons appris à gerer cette attaque, même si cela nous a pris anormalement beaucoup de temps.
Je fais court, sinon on a encore une bonne centaine de lignes d'info Technique !
Enfin voilà.......... Tout ceci pour que tous réalisent vraiment le boulot qu'il y a derrière votre écran, alors on peut quand même faire l'effort de respecter et faire respecter ce Forum, David a vraiment mis les moyens pour nous donner un outils génial.
Bien à Vous
[ol]@+Thierry[/ol]
Ce message pour tous ceux et celles qui on pesté hier, 29/04/2005, pour ne pas pouvoir se connecter sur XLD vers 17H15 et ce jusqu'à 19H10, ce n'était nullement dû à XLD lui même ni à ses bases de données.
C'était dû aux serveurs de l'herbergeur que je quote litéralement car ils sont sérieux et surtout transparents (je suis moi-même mutualisé chez eux) :
Voici quelques extraits pour ceux qui aiment la technique :
Nous avons eu un probleme sur la carte de repartition de charge SLB. La carte principale a envoyé signal de panne à la carte de secours alors qu'elle n'avait pas de probleme. Les 2 cartes ont été en production ce qui a provoqué une panne de l'hébergement mutualisé et les offres XXX.
Nous avons redemarré la carte principale et la secondaire est actuellement en production. Le systeme est surchargé à cause du redemarrage très violent. Sous environ 5 minutes la situation devrait être à nouveau stable
Plus tard....
La situation est stable désormais.
C'est la 2ème panne sur le systeme de repartition de charge depuis quelques mois dû au même probleme techniquement.
Visiblement il existe des bugs dans le systeme CSM de Cisco dans une configuration avec une carte principale et une carte de secours. La carte de secours recoit l'information que la carte principale est en panne, alors que ce n'est pas le cas.
Nous allons donc simplifier la structure de repartition de charge dans les jours qui viennent. L'objectif est d'avoir quelque chose de plus simple et donc plus robuste.
Plus tard....
La carte en production se coupe au bout d'un serveur temps.
On cherche l'origine du probleme.
Un peu Plus tard....
La carte SLB en production n'arrive pas à stabiliser le nombre des serveurs que nous avons dans le cluster. C'est à dire qu'en boucle elle ajoute et enleve les serveurs. La consequence est que les connexions se coupent et plus rien ne fonctionne.
Nous avons ralongé les temps de checks.
XXXplan est passé sur la carte SLB de secours. Si ceci n'aide pas nous allons passer XXXXplan sur cette carte aussi. Ainsi, on pense
que la carte principale pourra se stabiliser.
Très peu Plus tard....
XXXplan est attaqué ce qui provoque que la carte n'arrive pas gerer les connexions. Nous avons separé XXXplan sur la carte SLB de secours alors tout les autres plans sont sur la carte principale. Tout est en fonctionnement sauf XXXplan qui reste attaqué.
Les 2 cartes SLB ne veulent plus redemarrer du tout. On est en train de monter un systeme de repartition de charge basé sur Linux. On pense que dans environ 1h tous les plans vont être à nouveau up.
Un peu après le moment où ZOE a pu poster....
Depuis environ 45 minutes, tout est en fonctionnement sur les 2 cartes de repartition de charge. Nous continuons les travaux pour eventuellement demarrer un autre systeme de repartition de charge.
Concernant l'attaque, elle continue. Il s'agit de synflood spoofé. Normalement, nous avons mis en production les cartes SLB de Cisco pour palier à ce genre d'attaque. Jusqu'au là cela fonctionnait.
L'attaque est maitrisée dans la mesure où même XXXplan qui est attaqué reste en fonctionnement. Nous avons appris à gerer cette attaque, même si cela nous a pris anormalement beaucoup de temps.
Je fais court, sinon on a encore une bonne centaine de lignes d'info Technique !
Enfin voilà.......... Tout ceci pour que tous réalisent vraiment le boulot qu'il y a derrière votre écran, alors on peut quand même faire l'effort de respecter et faire respecter ce Forum, David a vraiment mis les moyens pour nous donner un outils génial.
Bien à Vous
[ol]@+Thierry[/ol]