Title: Iaas (Interruption as a Sageness)
Date: 2021-11-12 19:00
Category: Bloc-notes
Status: published
Tags: talk, lyon, admin, incident, méthode, dev

Par [David Aparicio][author] [`1`][authorgl] [`2`][authorgh], organisé par [Café Devops][cafedevops] (via [Meetup][meetup]). Support (et sources) dispo sur [davidaparicio.gitlab.io][support].

> Père Castor, raconte nous une histoire (d'OPS)
> L'échec comme une source de connaissance. Pouvons-nous apprendre des erreurs des plus grands ?
>
> Nous allons, pour cela, faire la revue de quelques grands incidents de la dernière décennie : Github, Google, Amazon, Facebook, Apple, Microsoft, Gitlab ou plus récemment Fastly À travers la lecture des post-mortems des incidents, nous analyserons la root cause, la mise en place de la remédiation, et en extraire des bonnes pratiques.
>
> Notre speaker, David Aparicio, est ingénieur passionné en Informatique, diplômé INSA Lyon 2014, après deux années passées à UNICAMP au Brésil, il participe activement à la communauté, à travers des Meetups et des conférences. Sa devise: « Nul développeur n'est censé ignorer la sécurité »
> Si vous voulez également vous lancer comme speaker, voici ses [5 conseils pour soumettre son CfP](https://youtu.be/LWxe41DaONw)

---

Notes personnelles:

- _Post Mortem_ : base du talk
- Date du 1er bug de Grace Hooper: 1947
    - vrai insecte
    - innondation
- Elliot Alderson, Allsafe corp. : Drop table sur le mauvais env
    - Victimes: AWS, GitLab, Digital Ocean, OVHcloud,
    - Conseils:
        * Approbation manuelle/revue
        * Audit/protege
            - SIEM (analyse de loqs orienté sécu)
            - RBAC (Role Bse Access control)
        * credentials protégés (Vault, Keepass, etc.)
        * …
- David au bord de la piscine, tel d'astreinte sonne: incident sur le legacy
    1. Reboot: OK
    1. tel re-sonne
    1. analyse
    1. patch KISS: reload du service si pas avail en crontab, toujours en prod au bout d'un an (TPCM: Touche Pas C'est Magique)
- SPOF
    - Incident majeur 8 juin sur un grande quantité de service web
    - Origine: Fastly
    - CDN = SPOF
    - Promesse HTTP4 ou 5 de mieux exploiter les CDN
    - Conseil:
        - Personnaliser les message d'erreurs
        - Tester demande clients (E2E/Staging/Red-Black plate-forme)
        - Procedure du IT Road book
- OVH
    - Incident datalake legacy ->_flap sur zookeeper
    - ? Doubler la HIP de la JVM
    - ? Fine-tunning rde JVM
    - -> mise en cron d'une commande de nettoyage de la DB
- Blast effect : Zookeper, key-val store, base de beaucoup de système distribué, créé en même temps qu'Hadoop
- Conseils :
    - Protocole d'incident :
        - war room
        - doc collab
        - etc.
    - maintenir les version a jour des lib
    - circuit breaker
    - …
- Criteo
    - Conseils :
        - tests de perf
        - monito des KPI OS
        - Observabilité / sonde
        - Serveur de delestage
- NewsBlur : Mise en prod d'un MongoDB de dev
- Twitch : 130G de DB publié
    - Avoid HDD (Hype Driven Development)
    - CI/CD
    - DevSecOps: test auto de secu (admin:admin, )
    - etc.
- DNS :
    - Slack
    - FB
    - Conseils:
        - ne pas changer ses DNS pour 1.1.1.1 / 8.8.8.8 permanently
        - séparation des préoccupation
        - Ne pas se contenter de l'audit
        - etc.
- Split-brain
    - Github


Conclusion
==========

- SRE blameless culture
- QA / Chaos monkey
- Formation des équipes
- Tester les backups
- CI/CD avec devSecOps
- _Wheel of misfortune_


[author]: https://davidaparicio.gitlab.io/website/
[authorgh]: https://github.com/davidaparicio
[authorgl]: https://gitlab.com/davidaparicio
[cafedevops]: https://cafedevops.org/
[meetup]: https://www.meetup.com/fr-FR/cafe-devops-lyon/events/281097147/
[support]: https://davidaparicio.gitlab.io/website/talks/CafeDevOps2021_IaaS.pdf