Dans les coulisses

Team BlackJack : le roc du Black Friday

Dominik Bärlocher
30/11/2018
Traduction : traduction automatique
Photos: Thomas Kunz

Une équipe s'est distinguée lors du Black Friday. BlackJack a misé gros, a beaucoup travaillé et est sorti d'une défaite pour devenir le grand vainqueur de la soirée. Un aperçu du travail des ingénieurs en fiabilité de site.

  • Total des temps d'arrêt du Black Friday : 4 minutes
  • Total downtime Cyber Monday : 0 minutes
  • Pic : 24 000 sessions utilisateurs par minute

"Nous sommes contents. Parce qu'après le Black Friday 2017, nous devions nous dire 'non... juste non' et ensuite passer derrière les livres."

Le jour d'après

C'est entre autres de cette situation qu'est née Team BlackJack. Le chef d'équipe René Zweifel a créé la nouvelle équipe et a cherché des personnes pour l'aider dans sa nouvelle mission : Site Reliability Engineering. Leur travail consistait dès lors à s'assurer que digitec et Galaxus restent en ligne, quoi qu'il arrive.

"Après l'affaire du Black Friday, c'était une tâche assez importante", dit René.

Mais lui et ses cinq coéquipiers n'ont pas baissé les bras. Bien sûr, le système de cache Redis a sauvé la version 2017 de Black Friday, mais cela n'a pas suffi à BlackJack. Ils ne voulaient plus rien laisser au hasard.

"L'infrastructure aurait dû être entièrement remplacée à de nombreux endroits", explique René.

Les commutateurs, les routeurs et tous les autres éléments du réseau auraient tous dû être jetés à la poubelle, les clusters réseau également. Un réseau dédié aurait dû être mis en place. Et ainsi de suite. Cela aurait coûté infiniment plus d'argent.

L'alternative : le transfert vers le cloud.

Et avant la bière, on s'est rendu compte que les systèmes étaient désormais en fait extensibles à l'infini, d'où la preuve du Black Friday. En théorie.

Isomorphe en octobre

"Toute la boutique n'est pas encore isomorphe. Seulement les parties qui sont importantes pour des jours comme le Black Friday."

L'implémentation a eu lieu à partir du mois de mai. Le Black Friday 2018 était sur le point d'arriver. René et son équipe entament la dernière phase de l'année de développement : les tests de charge. Le nouveau système les a passés les uns après les autres. Néanmoins, BlackJack a travaillé selon le système "bombarder et optimiser" et a peaufiné le système ici et là.

600% pour le Black Friday

Enfin, pour le Black Friday, BlackJack a fait monter en gamme son système. Les load balancers passent de 4 à 6, les serveurs de boutique fonctionnent sur 30 processeurs de 16 cœurs chacun au lieu de 8 processeurs octacore. Les clusters Kubernetes seront également massivement mis à l'échelle, tout comme de nombreuses autres fonctionnalités.

De nombreux ingénieurs font de même. Dès que le "Battle Log" est mis à jour avec les dernières informations de la salle de guerre de l'ingénierie, des e-mails et des SMS arrivent, dans lesquels des ingénieurs noctambules offrent leur aide et leurs conseils. C'est un chef-d'œuvre d'interaction.

Mais peu après minuit, on se rend compte qu'il n'y a pas de stress.

"Nous sommes loin d'avoir utilisé les 600%", déclare fièrement René. Et ce, bien que le trafic sur les pages soit plus important que jamais. Les utilisateurs assaillent le site de commandes et de commentaires, mais les serveurs tiennent bon.

Le lendemain du Cyber Monday, René, vêtu d'un t-shirt rouge, est assis dans un fauteuil du salon de la Pfingstweidstrasse. Il est détendu et aime parler des Engineers. Les mails élogieux de la direction ont joué leur rôle. Mais René ne veut pas se reposer sur ses lauriers. Son équipe non plus.

Les deux échecs du Black Friday

BlackJack n'enregistre pas un succès à cent pour cent. Ce sont surtout les quatre minutes de downtime qui préoccupent René.

"C'est encore trop, mais nous pouvons facilement les réduire de moitié", dit-il.

Quand on lui demande, il indique que deux des quatre minutes étaient dues à un outil appelé Queue it. Cet outil promet de créer une sorte de "salle d'attente numérique". Mais la chose aurait échoué sur toute la ligne.

"Nous étions déjà impressionnés. Mais pas pour la raison que les développeurs souhaitent", dit René et un sourire se dessine sur son visage, "nous avons été impressionnés par la rapidité avec laquelle Queue-it nous a mis à genoux. Cela n'a pas duré trois secondes."

Lors du Cyber Monday, Queue-it n'a plus été utilisé. Combiné à la baisse du trafic, cela a permis de ne jamais mettre les pages hors ligne. C'est ce qu'il appelle un succès. Il admet toutefois que cela peut être dû à une erreur d'implémentation de Queue-it, et pas nécessairement à l'outil lui-même. L'enquête est toujours en cours.

René se tourne vers l'avenir avec BlackJack. Il y a beaucoup à faire. Car si quatre minutes peuvent paraître peu, les éradiquer demandera des mois de travail. Et BlackJack, René en est sûr, y parviendra.

Mise à jour 30/11/2018 // 12:45

L'équipe BlackJack recherche d'ailleurs des renforts.

Cet article plaît à 68 personne(s)


User Avatar
User Avatar

Journaliste. Auteur. Hackers. Je suis un conteur d'histoires à la recherche de limites, de secrets et de tabous. Je documente le monde noir sur blanc. Non pas parce que je peux, mais parce que je ne peux pas m'en empêcher.


Informatique
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

Dans les coulisses

Actualités sur les fonctionnalités de la boutique, informations sur le marketing ou la logistique et bien plus encore.

Tout afficher

Ces articles pourraient aussi vous intéresser

  • Dans les coulisses

    Black Friday Week : nos serveurs sont prêts à l’attaque

    par Noah Waldner

  • Dans les coulisses

    IA et transparence des prix : projets et conclusions du Hackfest

    par Martin Jungfer

  • Dans les coulisses

    Black Friday Week 2024 : toute l’actu de Digitec Galaxus

    par Jana Pense