toolSimon Willison

Extract PDF text in your browser with LiteParse for the web

L’article présente LiteParse, un outil open source qui extrait le texte de PDFs dans le navigateur sans modèles d’IA, en utilisant PDF.js et Tesseract.js. Il repose sur un parsing spatial robuste pour restituer l’ordre des textes dans les mises en page complexes (multi-colonnes). L’auteur montre comment passer le CLI Node.js existant en version web avec Claude Code.

published APR 23, 2026★★★★★

Read the sourcesimonwillison.net/2026/Apr/23/liteparse-for-the-web/#atom-everything

[*] Opens in a new tab · no tracking on Lantern's side

Source: Simon Willison
Ingested: APR 23, 2026 · 19:10
Editorial score: 5.0 / 5