diff --git a/content/cafe-devops-lyon-interruption-as-a-sageness.md b/content/cafe-devops-lyon-interruption-as-a-sageness.md new file mode 100644 index 0000000..43a4f9b --- /dev/null +++ b/content/cafe-devops-lyon-interruption-as-a-sageness.md @@ -0,0 +1,102 @@ +Title: Iaas (Interruption as a Sageness) +Date: 2021-11-12 19:00 +Category: Bloc-notes +Status: published +Tags: talk, lyon, admin, incident, méthode, dev + +Par [David Aparicio][author] [`1`][authorgl] [`2`][authorgh], organisé par [Café Devops][cafedevops] (via [Meetup][meetup]). Support (et sources) dispo sur [davidaparicio.gitlab.io][support]. + +> Père Castor, raconte nous une histoire (d'OPS) +> L'échec comme une source de connaissance. Pouvons-nous apprendre des erreurs des plus grands ? +> +> Nous allons, pour cela, faire la revue de quelques grands incidents de la dernière décennie : Github, Google, Amazon, Facebook, Apple, Microsoft, Gitlab ou plus récemment Fastly À travers la lecture des post-mortems des incidents, nous analyserons la root cause, la mise en place de la remédiation, et en extraire des bonnes pratiques. +> +> Notre speaker, David Aparicio, est ingénieur passionné en Informatique, diplômé INSA Lyon 2014, après deux années passées à UNICAMP au Brésil, il participe activement à la communauté, à travers des Meetups et des conférences. Sa devise: « Nul développeur n'est censé ignorer la sécurité » +> Si vous voulez également vous lancer comme speaker, voici ses [5 conseils pour soumettre son CfP](https://youtu.be/LWxe41DaONw) + +--- + +Notes personnelles: + +- _Post Mortem_ : base du talk +- Date du 1er bug de Grace Hooper: 1947 + - vrai insecte + - innondation +- Elliot Alderson, Allsafe corp. : Drop table sur le mauvais env + - Victimes: AWS, GitLab, Digital Ocean, OVHcloud, + - Conseils: + * Approbation manuelle/revue + * Audit/protege + - SIEM (analyse de loqs orienté sécu) + - RBAC (Role Bse Access control) + * credentials protégés (Vault, Keepass, etc.) + * … +- David au bord de la piscine, tel d'astreinte sonne: incident sur le legacy + 1. Reboot: OK + 1. tel re-sonne + 1. analyse + 1. patch KISS: reload du service si pas avail en crontab, toujours en prod au bout d'un an (TPCM: Touche Pas C'est Magique) +- SPOF + - Incident majeur 8 juin sur un grande quantité de service web + - Origine: Fastly + - CDN = SPOF + - Promesse HTTP4 ou 5 de mieux exploiter les CDN + - Conseil: + - Personnaliser les message d'erreurs + - Tester demande clients (E2E/Staging/Red-Black plate-forme) + - Procedure du IT Road book +- OVH + - Incident datalake legacy ->_flap sur zookeeper + - ? Doubler la HIP de la JVM + - ? Fine-tunning rde JVM + - -> mise en cron d'une commande de nettoyage de la DB +- Blast effect : Zookeper, key-val store, base de beaucoup de système distribué, créé en même temps qu'Hadoop +- Conseils : + - Protocole d'incident : + - war room + - doc collab + - etc. + - maintenir les version a jour des lib + - circuit breaker + - … +- Criteo + - Conseils : + - tests de perf + - monito des KPI OS + - Observabilité / sonde + - Serveur de delestage +- NewsBlur : Mise en prod d'un MongoDB de dev +- Twitch : 130G de DB publié + - Avoid HDD (Hype Driven Development) + - CI/CD + - DevSecOps: test auto de secu (admin:admin, ) + - etc. +- DNS : + - Slack + - FB + - Conseils: + - ne pas changer ses DNS pour 1.1.1.1 / 8.8.8.8 permanently + - séparation des préoccupation + - Ne pas se contenter de l'audit + - etc. +- Split-brain + - Github + + +Conclusion +========== + +- SRE blameless culture +- QA / Chaos monkey +- Formation des équipes +- Tester les backups +- CI/CD avec devSecOps +- _Wheel of misfortune_ + + +[author]: https://davidaparicio.gitlab.io/website/ +[authorgh]: https://github.com/davidaparicio +[authorgl]: https://gitlab.com/davidaparicio +[cafedevops]: https://cafedevops.org/ +[meetup]: https://www.meetup.com/fr-FR/cafe-devops-lyon/events/281097147/ +[support]: https://davidaparicio.gitlab.io/website/talks/CafeDevOps2021_IaaS.pdf