mirror of
https://gitlab.com/free_zed/free_zed.gitlab.io.git
synced 2024-06-17 14:12:31 +00:00
103 lines
3.8 KiB
Markdown
103 lines
3.8 KiB
Markdown
|
Title: Iaas (Interruption as a Sageness)
|
|||
|
Date: 2021-11-12 19:00
|
|||
|
Category: Bloc-notes
|
|||
|
Status: published
|
|||
|
Tags: talk, lyon, admin, incident, méthode, dev
|
|||
|
|
|||
|
Par [David Aparicio][author] [`1`][authorgl] [`2`][authorgh], organisé par [Café Devops][cafedevops] (via [Meetup][meetup]). Support (et sources) dispo sur [davidaparicio.gitlab.io][support].
|
|||
|
|
|||
|
> Père Castor, raconte nous une histoire (d'OPS)
|
|||
|
> L'échec comme une source de connaissance. Pouvons-nous apprendre des erreurs des plus grands ?
|
|||
|
>
|
|||
|
> Nous allons, pour cela, faire la revue de quelques grands incidents de la dernière décennie : Github, Google, Amazon, Facebook, Apple, Microsoft, Gitlab ou plus récemment Fastly À travers la lecture des post-mortems des incidents, nous analyserons la root cause, la mise en place de la remédiation, et en extraire des bonnes pratiques.
|
|||
|
>
|
|||
|
> Notre speaker, David Aparicio, est ingénieur passionné en Informatique, diplômé INSA Lyon 2014, après deux années passées à UNICAMP au Brésil, il participe activement à la communauté, à travers des Meetups et des conférences. Sa devise: « Nul développeur n'est censé ignorer la sécurité »
|
|||
|
> Si vous voulez également vous lancer comme speaker, voici ses [5 conseils pour soumettre son CfP](https://youtu.be/LWxe41DaONw)
|
|||
|
|
|||
|
---
|
|||
|
|
|||
|
Notes personnelles:
|
|||
|
|
|||
|
- _Post Mortem_ : base du talk
|
|||
|
- Date du 1er bug de Grace Hooper: 1947
|
|||
|
- vrai insecte
|
|||
|
- innondation
|
|||
|
- Elliot Alderson, Allsafe corp. : Drop table sur le mauvais env
|
|||
|
- Victimes: AWS, GitLab, Digital Ocean, OVHcloud,
|
|||
|
- Conseils:
|
|||
|
* Approbation manuelle/revue
|
|||
|
* Audit/protege
|
|||
|
- SIEM (analyse de loqs orienté sécu)
|
|||
|
- RBAC (Role Bse Access control)
|
|||
|
* credentials protégés (Vault, Keepass, etc.)
|
|||
|
* …
|
|||
|
- David au bord de la piscine, tel d'astreinte sonne: incident sur le legacy
|
|||
|
1. Reboot: OK
|
|||
|
1. tel re-sonne
|
|||
|
1. analyse
|
|||
|
1. patch KISS: reload du service si pas avail en crontab, toujours en prod au bout d'un an (TPCM: Touche Pas C'est Magique)
|
|||
|
- SPOF
|
|||
|
- Incident majeur 8 juin sur un grande quantité de service web
|
|||
|
- Origine: Fastly
|
|||
|
- CDN = SPOF
|
|||
|
- Promesse HTTP4 ou 5 de mieux exploiter les CDN
|
|||
|
- Conseil:
|
|||
|
- Personnaliser les message d'erreurs
|
|||
|
- Tester demande clients (E2E/Staging/Red-Black plate-forme)
|
|||
|
- Procedure du IT Road book
|
|||
|
- OVH
|
|||
|
- Incident datalake legacy ->_flap sur zookeeper
|
|||
|
- ? Doubler la HIP de la JVM
|
|||
|
- ? Fine-tunning rde JVM
|
|||
|
- -> mise en cron d'une commande de nettoyage de la DB
|
|||
|
- Blast effect : Zookeper, key-val store, base de beaucoup de système distribué, créé en même temps qu'Hadoop
|
|||
|
- Conseils :
|
|||
|
- Protocole d'incident :
|
|||
|
- war room
|
|||
|
- doc collab
|
|||
|
- etc.
|
|||
|
- maintenir les version a jour des lib
|
|||
|
- circuit breaker
|
|||
|
- …
|
|||
|
- Criteo
|
|||
|
- Conseils :
|
|||
|
- tests de perf
|
|||
|
- monito des KPI OS
|
|||
|
- Observabilité / sonde
|
|||
|
- Serveur de delestage
|
|||
|
- NewsBlur : Mise en prod d'un MongoDB de dev
|
|||
|
- Twitch : 130G de DB publié
|
|||
|
- Avoid HDD (Hype Driven Development)
|
|||
|
- CI/CD
|
|||
|
- DevSecOps: test auto de secu (admin:admin, )
|
|||
|
- etc.
|
|||
|
- DNS :
|
|||
|
- Slack
|
|||
|
- FB
|
|||
|
- Conseils:
|
|||
|
- ne pas changer ses DNS pour 1.1.1.1 / 8.8.8.8 permanently
|
|||
|
- séparation des préoccupation
|
|||
|
- Ne pas se contenter de l'audit
|
|||
|
- etc.
|
|||
|
- Split-brain
|
|||
|
- Github
|
|||
|
|
|||
|
|
|||
|
Conclusion
|
|||
|
==========
|
|||
|
|
|||
|
- SRE blameless culture
|
|||
|
- QA / Chaos monkey
|
|||
|
- Formation des équipes
|
|||
|
- Tester les backups
|
|||
|
- CI/CD avec devSecOps
|
|||
|
- _Wheel of misfortune_
|
|||
|
|
|||
|
|
|||
|
[author]: https://davidaparicio.gitlab.io/website/
|
|||
|
[authorgh]: https://github.com/davidaparicio
|
|||
|
[authorgl]: https://gitlab.com/davidaparicio
|
|||
|
[cafedevops]: https://cafedevops.org/
|
|||
|
[meetup]: https://www.meetup.com/fr-FR/cafe-devops-lyon/events/281097147/
|
|||
|
[support]: https://davidaparicio.gitlab.io/website/talks/CafeDevOps2021_IaaS.pdf
|