[!info] TL;DR : Puppeteer est la lib JavaScript open source pour piloter Chrome ou Firefox en headless via DevTools, idéale pour scraping et tests E2E.
Puppeteer : automation Chrome/Firefox en JavaScript
Bibliothèque maintenue par Google qui permet de contrôler un navigateur via le DevTools Protocol ou WebDriver BiDi. Standard de fait pour scraping et tests dev.
Ce que ça permet
- Piloter Chrome ou Firefox en headless ou avec UI
- Scraper des pages JavaScript-heavy (SPA, React)
- Lancer des tests end-to-end automatisés
- Générer des PDF et screenshots de pages
- Intercepter requêtes réseau et console logs
- S'intégrer avec MCP pour debug navigateur via IA
- Bénéficier d'une grosse communauté open source (npm)
Pour qui
- Devs qui construisent des scrapers custom
- Équipes QA qui testent des apps web complexes
- Data engineers qui industrialisent l'extraction
- Builders d'agents IA qui ont besoin de browser control
Mini-playbook
- Installer via
npm install puppeteer - Écrire un script qui ouvre une page et attend un sélecteur
- Extraire le HTML ou cliquer sur des éléments
- Déployer en serverless (Lambda, Cloud Run) avec Chromium
Pièges
- Demande des compétences JavaScript/Node solides
- Maintenance pénible si la cible change ses sélecteurs
- Anti-bots modernes contournables uniquement avec proxy
- Coûts CPU et mémoire élevés en prod (Chrome headless)
- Alternatives : Playwright, Selenium, Crawlee
Tags
- Catégorie : 🎯 Sales & Prospection
- Tags : Code, Scraping, Open Source, Dev, Free