FeedThis weekArticle
toolSimon Willison

Extract PDF text in your browser with LiteParse for the web

L’article présente LiteParse, un outil open source qui extrait le texte de PDFs dans le navigateur sans modèles d’IA, en utilisant PDF.js et Tesseract.js. Il repose sur un parsing spatial robuste pour restituer l’ordre des textes dans les mises en page complexes (multi-colonnes). L’auteur montre comment passer le CLI Node.js existant en version web avec Claude Code.

published APR 23, 2026★★★★★
Source
Simon Willison
Ingested
APR 23, 2026 · 19:10
Editorial score
5.0 / 5