Face aux licenciements et dparts massifs de Twitter, plusieurs personnes ont estim que Twitter tait condamn. Pour tenter d’en expliquer la raison, un ingnieur en fiabilit de site (SRE) ayant plus de 10 ans d’exprience dans l’industrie a prsent des dizaines de scnarios qui seraient, selon lui, de relles menaces pour l’intgrit de Twitter dans les semaines venir.

Pour donner du contexte, j’ai vu une variante de chacun de ces problmes constituer une menace srieuse pour une application d’un milliard d’utilisateurs. J’ai mme caus quelques-uns des plus techniques. J’ai t impliqu dans le triage ou la rparation encore plus .

Ingnieur SRE, qu’est-ce que c’est ?

Un ingnieur en fiabilit de site, ou SRE, est un rle qui englobe la fois des aspects de lingnierie logicielle et des oprations / infrastructures. Il englobe galement une stratgie et un ensemble de pratiques et de principes travers les offres de services et est troitement li DevOps et aux oprations. Le terme ingnierie de fiabilit de site a vu le jour chez Google en 2003 lorsquune quipe de fiabilit de site a t cre. cette poque, lquipe tait compose dingnieurs logiciels. Depuis lors, le concept dingnierie de fiabilit de site a volu et a fait son chemin dans lindustrie plus large du dveloppement de logiciels et est maintenant son propre rle au sein des organisations.

Les ingnieurs en fiabilit du site comblent le foss entre les oprations et les dveloppeurs de logiciels. Bien quil nexiste pas dapproche unique de ce quun ingnieur en fiabilit de site fait dune organisation lautre, de manire gnrale, la responsabilit dun ingnieur en fiabilit de site peut englober un large ventail dobjectifs, tels que la gestion et la surveillance de la disponibilit du systme, la latence, les performances, lefficacit, la rponse aux incidents, ainsi que la planification de la capacit des services dune organisation.

Quelques scnarios qui sont de relles menaces l’intgrit du site, selon un ingnieur en fiabilit de site

1) Un disque dur alatoire se remplit. Vous n’avez aucune ide quel point il est courant qu’un seul botier flexible provoque des pannes en cascade dans les systmes, mme ceux bien conus et tolrants aux pannes avec une maintenance active. O est la bote ? Qu’est-ce qui le remplit ? Qui va comprendre a ?

2) Un problme physique avec le rseau supprime un DC [ndlr. Data Center]. Je suppose que Twitter est principalement sur site, et j’ai vu ce qui se passe lorsqu’un arbre dtruit une ligne de fibre critique lors d’un grand vnement d’actualit.

3) Une mauvaise pousse de code fait planter le site. Empcher cela tait mon travail quotidien, et je peux vous dire que c’est l’un des scnarios les plus effrayants pour toute quipe SRE, qui le serait encore plus pour une quipe compltement en sous-effectif et puise.

4) Une mauvaise pousse de code fait planter le site d’une manire qui gche galement la possibilit de pousser un nouveau code. C’est le scnario cauchemardesque pour des quipes comme la mienne. Quand quelque chose comme a se produit, tout le monde met la main la pte. Sans une comprhension approfondie des systmes, vous pourriez ne jamais rcuprer.

Incidents critiques

5) Mystre SEV [ndlr. un incident critique]. Soudain, le site s’assombrit. Le tableau de bord est rouge. Tout semble foutu. Il n’y a aucune indication pourquoi. Vous devez faire appel aux gros canons. Les quipes dont les noms se terminent par Foundation. Qui sont-ils? Comment les appelez-vous ?

6) La base de donnes est foutue. Tout est en feu. Qui est l’expert qui doit grer une telle situation ?

7) Quelqu’un, disons, tout fait hypothtiquement, @wongmjane, trouve une faille de scurit critique dans votre application iOS. Vous devez proposer rapidement un correctif. Vous avez une quipe d’experts qui savent comment naviguer dans la bureaucratie kafkaenne d’Apple pour les mises jour d’applications, n’est-ce pas ? J’espre que vous en avez une.

8) Quelqu’un remarque qu’il est possible de lire les DM de quelqu’un d’autre en chargeant une URL particulire. Il s’agit d’un problme critique SEV1 [ndlr. Un incident critique trs fort impact. Par exemple : un service orient client comme Jira est en panne pour tous les clients] et vous avez besoin de personnes qui comprennent parfaitement comment fonctionnent vos abstractions de confidentialit et comment les corriger.

9) Le site est hors ligne 4h du matin, vous n’avez aucune ide de ce qui ne va pas. Vous avez besoin d’un IMOC (Incident Manager On Call) qui sait qui rveiller, pourquoi et comment. Quelqu’un qui comprend vos systmes, peut synthtiser les informations la vitesse de l’clair et coordonner un effort de rcupration.

10) Le systme que vous utilisez pour trouver d’autres systmes tombe en panne en interne. Aucun de vos systmes ne peut communiquer entre eux. Le site et tous vos outils chouent immdiatement. Les outils dont vous avez besoin pour annuler le changement de rupture ne rpondent pas. Pouvez-vous comprendre ceci avec une quipe squelettique ?

Et d’autres problmes

11) Il est 17h un vendredi. Les tableaux de bord passent tous au rouge en mme temps. La flotte Web connat des redmarrages en cascade. Les disques se remplissent depuis mercredi. Il y a eu des centaines de changements de code sur plusieurs systmes de verrouillage mercredi. Renversez l’un d’entre eux vos risques et prils…

12) Oh zut. Vous en avez annul un. Dsormais, les tweets de chaque compte suspendus sont visibles par tous. Les gens pourraient littralement se faire assassiner avec des machettes au-dessus de leurs postes. Ce n’est pas une hypothse. Il est maintenant 21h. Le site est foutu. Qui allez-vous appeler ?

13) Le systme qui garantit que les changements de serveur peuvent tre transmis en toute scurit la production est dfaillant. Vous avez, disons, 30 000 tests qui doivent tre excuts pour garantir la confidentialit/la scurit/la conformit/la fiabilit. L’un des tests est l’origine des checs. Pouvez-vous trouver lequel ? C’est aussi la coupe du monde. De plus le site est en panne.

Se conformer aux lois

14) Un utilisateur aux Philippines est sur le point de publier CEI sur la plate-forme. Vous ne pouvez pas laisser ce contenu en place. Vos employs ont-ils des relations avec les forces de l’ordre aux Philippines ? Vos systmes de modration de contenu fonctionnent-ils ? Avez-vous vos modrateurs ?

15) Le FBI veut inspecter le contenu des messages privs de quelqu’un qu’il pense tre sur le point de commettre le 11 septembre 2 : Atomic Boogaloo. Avez-vous un systme pour leur accorder l’accs ? Leur refusez-vous l’accs ? Comment savez-vous que c’est vraiment eux ?

16) Vous leur accordez l’accs. Maintenant, quelqu’un d’un pays connu pour ses horribles violations des droits de l’homme frappe la porte. Ils ont une citation comparatre d’apparence officielle. Les laissez-vous voir les message priv d’un dissident ? Pouvez-vous expliquer pourquoi ? Vous devrez peut-tre le faire, devant un tribunal trs officiel quelque part en Europe.

17) Un autre pays vous dit qu’il veut que toutes vos donnes sur ses utilisateurs soient stockes sur des serveurs dans son pays. Avez-vous des experts en politiques dans ce pays ? Avez-vous beaucoup d’avocats trs motivs ? Avez-vous un ingnieur infra qui sait comment partitionner vos donnes de la sorte ?

18) RGPD. Vous tes trouv en infraction. Il a fallu des mois une quipe de centaines d’ingnieurs, d’avocats, d’experts en politiques, de concepteurs et de gestionnaires d’ingnierie hardcore pour tre en conformit en premier lieu. Comment grez-vous la situation ? Je vous assure que ne pas le faire cotera plus cher que l’effectif d’une organisation.

Un manque d’employs

19) Une fois par jour, tous les jours, 00h13, un service spcifique dans votre pipeline de donnes ralentit un rythme absolu. Cela ne semble pas causer de problmes, mais vous tes un peu inquiet car cela semble empirer. Attribuez-vous un SRE pour jeter un coup d’il ? Vous en reste-t-il ?

20) Le service que vous utilisez pour dcouvrir d’autres services fonctionne bien, mais l’un de vos meilleurs ingnieurs effectue des calculs et se rend compte qu’il ne s’adaptera pas plus d’utilisateurs et plus de services, et (hypothtiquement) vous souhaitez crer une super-application appele X. Est-ce que vous la rcrivez ? Qu’est-ce que vous faites ?

21) Vous dcidez de la rcrire. 8 mois plus tard (lol) votre nouveau systme est prt accueillir ses premiers utilisateurs. Qui coordonne la migration ? Comprennent-ils vraiment les systmes complexes ? Sont-ils bons avec les gens ? Peuvent-ils procder l’excution ? Ont-ils la connaissance du domaine dont ils ont besoin ?

22) Vous venez d’embaucher un super directeur technique de Microsoft pour une organisation centrale. Lentement, la productivit de leur organisation ralentit et l’attrition grimpe trs haut. Le directeur jure que tout va bien. Si vous licenciez le directeur, l’un de vos vice-prsidents a soudainement environ 18 rapports. Qu’est-ce que vous faites ?

23) Un ingnieur vient de lancer une commande pour redmarrer la flotte. Oups, il n’a pas utilis –slow. Maintenant, tous vos caches sont vides. Tous. Chaque demande va directement la corbeille. Les bases de donnes sont toutes surcharges instantanment, certaines commencent OOM et redmarrent en boucle… Comment rechargez-vous le cache ?

Gestion des vnements

24) Coupe du monde. C’est l’vnement dterminant. Nous avions l’habitude d’organiser des soires de surveillance pour les cartes routires. La quantit de trafic que votre site reoit en une semaine est poustouflante. C’est en normes rafales. Il teste chaque systme que vous avez jusqu’ ses limites. Si l’un se casse, esprons qu’ils ne tombent pas en cascade. Mais a sera le cas

25) Saint-Sylvestre, cte est des tats-Unis. Chaque anne. Je me souviens d’tre assis l’extrieur du bureau, des feux d’artifice explosant au loin, appelant frntiquement les gens prendre des vidos. Tout le monde poste des vidos de leurs feux d’artifice. Tout le monde. Il remplira les disques et testera votre bande passante jusqu’ la limite.

26) Je l’ai dj dit, mais… CEI. Si vous le grez mal, si vos responsables politiques et vos avocats ne sont pas au top, vous allez vous faire dmolir devant le Congrs, devant des juges, dans les journaux du soir, des endroits o vous ne voulez pas tre si vous dirigez une entreprise de mdias sociaux.

Scurit physique

27) Scurit physique de vos bureaux. Les gardes de scurit m’ont dit qu’ils gardaient de longues listes de fous, les mmorisaient. Les gens veulent tuer Zuck. Comme un meurtre rituel dans la baignoire. Ils se prsentent au bureau tout le temps. Votre quipe de scurit est-elle dote de personnel et prte ?

28) Gnocide. Les gens utilisent votre plate-forme pour orchestrer des meurtres de masse, la machette dans les glises. Et vite. Rapide comme l’clair. Vous devez tre prpar avant. Si vous n’avez pas d’quipe qui sait comment dtecter et arrter a au plus vite, vous allez tre tran La Haye.

29) Rbellion. Des millions de personnes utiliseront votre plateforme pour orchestrer une rbellion contre leur gouvernement. Utilisez-vous les outils de #28 pour les arrter ? Laissez-vous les choses se passer ? Comment vous dcidez-vous? Et si vous les laissiez faire et que la mme chose se produise la semaine prochaine dans un pays que vous aimez vraiment ?

30) Facteur de bus. Supposons qu’il vous reste 3 SRE de niveau senior+ dans votre organisation Core Services. Ils sont absolument indispensables, pour des raisons que vous pouvez dduire d’en haut. Comment les gardez-vous tous en vie ? Peuvent-ils tre dans le mme avion ? Quel est le plan d’urgence s’ils le font tous de toute faon ?

Intrusion dans le rseau d’entreprise

31) Envahisseurs. Un seul botier de votre centre de donnes est connect par erreur l’Internet public et oubli pendant des annes (cela arrive vraiment, vraiment, vraiment, je le promets). Quelqu’un ouvre la bote. Il pntre vos systmes. Comment le dtectez-vous ? Que faites-vous une fois que vous l’avez dtect ?

32) Envahisseurs : les plus silencieux. Ils sont dans votre rseau. Ils ne font que regarder et attendre. Ne rien faire. Je vous promets qu’une grande organisation de scurit pourrait mme ne pas dtecter cela. S’il ne vous en reste plus un bon… Quels dgts peuvent tre causs par l’observation ? Donnes de carte de crdit ? Mots de passe ? Messages privs ?

33) Envahisseurs : Acteurs tatiques. Le PCC vient d’avoir accs vos systmes. S’il russit, il est l pour rester. Comment votre quipe de scurit le dcouvrira-t-elle ? Comment trouvera-t-elle et liminera les portes drobes ? Comment allez-vous protger les messages privs et les tweets privs des utilisateurs ? Si vous ne le faites pas, des gens pourraient mourir.

34) Envahisseurs : les chaotiques. Ils sont l pour faire des putains de dgts. Ils pourraient supprimer des donnes, redmarrer la flotte de caches et fermer le site pendant des semaines, publier des menaces nuclaires comme le POTUS… Vous feriez mieux d’avoir une grande quipe de scurit talentueuse et exprimente si vous voulez tre prt.

35) Au sujet des envahisseurs… Comment se porte la scurit informatique de votre entreprise ? Il est facile de ne penser qu’ la flotte de production, mais que se passe-t-il si l’ordinateur portable d’un ingnieur est vol dans sa Camry ? Pouvez-vous le dtecter avant qu’il ne soit signal ? Pouvez-vous verrouiller et effacer distance ? Invalider ses cls ?

Modration

36) Et encore une fois, comment va cette quipe de scurit physique ? Quelqu’un essaiera absolument de brancher un Raspberry Pi sur votre rseau d’entreprise. C’est 100 % certain. Ils essaieront d’usurper le wifi. Micros dans les bureaux excutifs. Comme dans un film d’espionnage des annes 1960. Je ne plaisante pas.

37) Modration du contenu. Vous avez besoin de 3 choses : une quipe gante de personnes vrifiant les rapports 24 heures sur 24, 7 jours sur 7, une autre quipe travaillant sur des outils pour aider cette quipe et des rendez-vous rguliers en psychiatrie pour la premire quipe. Sans blague, encore une fois. L’humanit est SOMBRE. Vos modrateurs peuvent et vont se suicider.

38) Oups ! Vous n’avez pas embauch une quipe de modration de contenu. Votre site est plein de choses trs dsagrables. Tout le monde part parce que c’est si dsagrable, ou (pire pour vous personnellement) vous tes tran devant les tribunaux pour avoir enfreint toutes sortes de lois sur la dcence, le piratage et la confidentialit/le harclement.

39) Oups ! Vous n’avez pas embauch une quipe pour crer des outils pour vos modrateurs de contenu. Ils sont compltement submergs par les millions de rapports. Ils s’puisent, vous ne pouvez pas les remplacer assez rapidement, et #38 arrive quand mme

Source : diffrents scnarios auxquels pourrait tre confront Twitter

Et vous ?

Que pensez-vous de ces scnarios ?

Lesquels vous semblent les plus probables ?

Y en a-t-il qui vous paraissent exagrs ?



Un ingnieur fiabilit de site prsente des dizaines de scnarios qui pourraient signer la fin de Twitter, suite la rduction drastique des employs dans l’entreprise par Elon Musk