Publish conference 'interruption-as-a-sageness'

This commit is contained in:
Freezed 2021-12-05 23:28:43 +01:00
parent cf9b67c72b
commit 0074640b6b
1 changed files with 102 additions and 0 deletions

View File

@ -0,0 +1,102 @@
Title: Iaas (Interruption as a Sageness)
Date: 2021-11-12 19:00
Category: Bloc-notes
Status: published
Tags: talk, lyon, admin, incident, méthode, dev
Par [David Aparicio][author] [`1`][authorgl] [`2`][authorgh], organisé par [Café Devops][cafedevops] (via [Meetup][meetup]). Support (et sources) dispo sur [davidaparicio.gitlab.io][support].
> Père Castor, raconte nous une histoire (d'OPS)
> L'échec comme une source de connaissance. Pouvons-nous apprendre des erreurs des plus grands ?
>
> Nous allons, pour cela, faire la revue de quelques grands incidents de la dernière décennie : Github, Google, Amazon, Facebook, Apple, Microsoft, Gitlab ou plus récemment Fastly À travers la lecture des post-mortems des incidents, nous analyserons la root cause, la mise en place de la remédiation, et en extraire des bonnes pratiques.
>
> Notre speaker, David Aparicio, est ingénieur passionné en Informatique, diplômé INSA Lyon 2014, après deux années passées à UNICAMP au Brésil, il participe activement à la communauté, à travers des Meetups et des conférences. Sa devise: « Nul développeur n'est censé ignorer la sécurité »
> Si vous voulez également vous lancer comme speaker, voici ses [5 conseils pour soumettre son CfP](https://youtu.be/LWxe41DaONw)
---
Notes personnelles:
- _Post Mortem_ : base du talk
- Date du 1er bug de Grace Hooper: 1947
- vrai insecte
- innondation
- Elliot Alderson, Allsafe corp. : Drop table sur le mauvais env
- Victimes: AWS, GitLab, Digital Ocean, OVHcloud,
- Conseils:
* Approbation manuelle/revue
* Audit/protege
- SIEM (analyse de loqs orienté sécu)
- RBAC (Role Bse Access control)
* credentials protégés (Vault, Keepass, etc.)
* …
- David au bord de la piscine, tel d'astreinte sonne: incident sur le legacy
1. Reboot: OK
1. tel re-sonne
1. analyse
1. patch KISS: reload du service si pas avail en crontab, toujours en prod au bout d'un an (TPCM: Touche Pas C'est Magique)
- SPOF
- Incident majeur 8 juin sur un grande quantité de service web
- Origine: Fastly
- CDN = SPOF
- Promesse HTTP4 ou 5 de mieux exploiter les CDN
- Conseil:
- Personnaliser les message d'erreurs
- Tester demande clients (E2E/Staging/Red-Black plate-forme)
- Procedure du IT Road book
- OVH
- Incident datalake legacy ->_flap sur zookeeper
- ? Doubler la HIP de la JVM
- ? Fine-tunning rde JVM
- -> mise en cron d'une commande de nettoyage de la DB
- Blast effect : Zookeper, key-val store, base de beaucoup de système distribué, créé en même temps qu'Hadoop
- Conseils :
- Protocole d'incident :
- war room
- doc collab
- etc.
- maintenir les version a jour des lib
- circuit breaker
- …
- Criteo
- Conseils :
- tests de perf
- monito des KPI OS
- Observabilité / sonde
- Serveur de delestage
- NewsBlur : Mise en prod d'un MongoDB de dev
- Twitch : 130G de DB publié
- Avoid HDD (Hype Driven Development)
- CI/CD
- DevSecOps: test auto de secu (admin:admin, )
- etc.
- DNS :
- Slack
- FB
- Conseils:
- ne pas changer ses DNS pour 1.1.1.1 / 8.8.8.8 permanently
- séparation des préoccupation
- Ne pas se contenter de l'audit
- etc.
- Split-brain
- Github
Conclusion
==========
- SRE blameless culture
- QA / Chaos monkey
- Formation des équipes
- Tester les backups
- CI/CD avec devSecOps
- _Wheel of misfortune_
[author]: https://davidaparicio.gitlab.io/website/
[authorgh]: https://github.com/davidaparicio
[authorgl]: https://gitlab.com/davidaparicio
[cafedevops]: https://cafedevops.org/
[meetup]: https://www.meetup.com/fr-FR/cafe-devops-lyon/events/281097147/
[support]: https://davidaparicio.gitlab.io/website/talks/CafeDevOps2021_IaaS.pdf