Dietro le quinte

Team BlackJack: lo scoglio nel mare del Black Friday

Dominik Bärlocher
30.11.2018
Traduzione: tradotto automaticamente
Immagini: Thomas Kunz

Durante il Black Friday, una squadra ha fatto parlare di sé. BlackJack ha puntato molto, ha lavorato sodo e si è risollevato dalla sconfitta per diventare il grande vincitore della serata. Uno sguardo al lavoro dei Site Reliability Engineers.

"Il Cyber Monday è stato facile", dice René Zweifel, Team Leader del Site Reliability Engineering di Digitec Galaxus, "ma il Black Friday ci ha fatto un po' tremare".

Perché era la notte prima del venerdì, quando il lavoro di un anno doveva dare prova di sé. Nell'intervista di martedì mattina, dopo che tutto è finito, René è orgoglioso. Lui e il suo team - "e tutto il team di ingegneri in generale" - hanno fatto un ottimo lavoro. Le statistiche sono impressionanti.

  • Totale downtime del Venerdì Nero: 4 minuti
  • Totale downtime del Cyber Monday: 0 minuti
  • Valori di picco: 24.000 sessioni utente al minuto

"Pensiamo che sia una buona cosa. Perché dopo il Black Friday 2017, abbiamo dovuto dire a noi stessi: 'no... solo no' e poi metterci dietro ai libri".

Il giorno dopo

Questa situazione è stata una delle ragioni per cui è stato creato il Team BlackJack. Il leader del team René Zweifel fondò il nuovo team e cercò persone che lo aiutassero nella nuova missione: Ingegneria dell'affidabilità del sito. Da quel momento in poi, il loro compito è stato quello di garantire che digitec e Galaxus rimanessero online, qualunque cosa accadesse.

"Dopo il Black Friday, il BlackJack è stato un'esperienza che non ha mai avuto successo".

"Dopo la vicenda del Black Friday, si trattava di un compito piuttosto arduo", dice René.
Ma lui e i suoi collaboratori sono stati in grado di garantire che digitec e Galaxus rimanessero online, in qualsiasi momento.
Ma lui e i suoi cinque compagni di squadra non si sono arresi. Certo, il sistema di cache Redis ha salvato la versione 2017 del Black Friday, ma non era abbastanza per BlackJack. Non volevano lasciare nulla al caso.

"L'infrastruttura avrebbe dovuto essere in grado di gestire il Black Friday in modo efficiente.

"L'infrastruttura avrebbe dovuto essere completamente sostituita in molti punti", dice René.

Switch, router e tutti gli altri elementi di rete avrebbero dovuto essere gettati nel cestino, così come i cluster di rete. Sarebbe stato necessario creare una rete dedicata. E così via. Tutto ciò sarebbe costato una quantità infinita di denaro.

L'alternativa: passare al cloud.

"Questo costa solo 'una quantità di denaro quasi infinita', quindi è più economico che avere una propria infrastruttura", dice René e ride. René ha una risata genuina, contagiosa e sincera. Il giovane barbuto con i capelli corti riflette per un attimo e poi dice: "Probabilmente è stata una storia, te lo dico io."

Salta il discorso.

Salta il racconto dettagliato e dice: "... Il processo è stato completato alla fine di maggio 2018. Poi ci siamo bevuti una birra."

E prima della birra è arrivata l'intervista.

E prima della birra è arrivata la consapevolezza che i sistemi sono effettivamente scalabili all'infinito, da cui Black Friday Proof. Teoricamente.

Isomorfico a ottobre

"L'intero negozio non è ancora isomorfo. Solo le parti che sono importanti per giornate come il Black Friday."

L'implementazione è iniziata a maggio. Il Black Friday 2018 era alle porte. René e il suo team entrarono nella fase finale dell'anno di sviluppo: i test di carico. Il nuovo sistema ha superato un test dopo l'altro. Ciononostante, BlackJack ha lavorato secondo il sistema "bombarda e ottimizza", modificando il sistema qua e là.

600% per il Black Friday

Molti ingegneri fanno lo stesso.

Molti ingegneri fanno lo stesso. Non appena il registro di battaglia viene aggiornato con le ultime informazioni provenienti dalla war room, arrivano e-mail e messaggi di testo in cui gli ingegneri nottambuli offrono il loro aiuto e i loro consigli. È un capolavoro di interazione.

Ma poco dopo la mezzanotte diventa chiaro: niente stress.

"Non abbiamo nemmeno sfiorato l'utilizzo del 600%", afferma René con orgoglio. Questo nonostante il sito web riceva più traffico che mai. Gli utenti si riversano sul sito con ordini e commenti, ma i server reggono.

Il giorno dopo il Cybernoleggio, il sito è stato inaugurato.

Il giorno dopo il Cyber Monday, René siede con una maglietta rossa su una poltrona nel salone di Pfingstweidstrasse. È rilassato e si diverte a parlare degli Ingegneri. Le e-mail di elogio della direzione hanno fatto la loro parte. Ma René non vuole dormire sugli allori. E nemmeno il suo team.

I due fallimenti del Black Friday

BlackJack non registra un successo al cento per cento. René è particolarmente preoccupato per i quattro minuti di inattività.

"È una cifra che non è stata ancora raggiunta".

"Sono ancora troppi, ma possiamo facilmente dimezzarli", dice.

Quando gli viene chiesto, dice che due dei quattro minuti sono dovuti a uno strumento chiamato Queue it. Lo strumento promette di creare una sorta di "sala d'attesa digitale". Ma la cosa è fallita in tutto e per tutto.

"Siamo rimasti impressionati".

"Siamo rimasti colpiti. Ma non per il motivo che avrebbero voluto gli sviluppatori", dice René, con un sorriso che gli attraversa il viso, "siamo rimasti colpiti dalla rapidità con cui Queue-it ci ha messo in ginocchio. Ci sono voluti meno di tre secondi."

Il giorno del Cyber Monday, Queue-it si è rivelato un vero e proprio incubo.

Il giorno del Cyber Monday, Queue-it non è stato più utilizzato. Insieme alla diminuzione delle visite, ciò significa che le pagine non sono mai state offline. Lo definisce un successo. Tuttavia, ammette che potrebbe essere dovuto a un errore di implementazione di Queue-it, non necessariamente allo strumento in sé. Le indagini sono ancora in corso.

René guarda al futuro con BlackJack. C'è molto da fare. Perché quattro minuti non sembrano molti, ma ci vorranno mesi di lavoro per eliminarli. E BlackJack, René ne è sicuro, può farlo.

Aggiornamento 30 novembre 2018 // 12:45 pm.

Il team BlackJack è anche alla ricerca di rinforzi.

A 68 persone piace questo articolo


User Avatar
User Avatar

Giornalista. Autore. Hacker. Sono un contastorie e mi piace scovare segreti, tabù, limiti e documentare il mondo, scrivendo nero su bianco. Non perché sappia farlo, ma perché non so fare altro.


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Dietro le quinte

Novità sulle funzionalità del negozio, informazioni dal marketing o dalla logistica e molto altro ancora.

Visualizza tutti

Potrebbero interessarti anche questi articoli

  • Dietro le quinte

    Settimana Black Friday: i nostri server sono pronti a darci dentro

    di Noah Waldner

  • Dietro le quinte

    Più IA e ancora più trasparenza dei prezzi – idee e risultati dell'«Hackfest»

    di Martin Jungfer

  • Dietro le quinte

    Black Friday Week 2024: tutti gli aggiornamenti da Digitec Galaxus

    di Jana Pense