toolSimon Willison

Extract PDF text in your browser with LiteParse for the web

L’article présente LiteParse, un outil open source qui extrait le texte de PDFs dans le navigateur sans modèles d’IA, en utilisant PDF.js et Tesseract.js. Il repose sur un parsing spatial robuste pour restituer l’ordre des textes dans les mises en page complexes (multi-colonnes). L’auteur montre comment passer le CLI Node.js existant en version web avec Claude Code.

publié 23 AVR. 2026★★★★★

Lire la sourcesimonwillison.net/2026/Apr/23/liteparse-for-the-web/#atom-everything

[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern

Source: Simon Willison
Ingéré: 23 AVR. 2026 · 19:10
Score édito: 5.0 / 5