Bonjour à toutes et tous,
Nous avons le plaisir d’annoncer l’ouverture du code source d’EDS-PDF : Extraction d’informations textuelles à partir de documents PDF, désormais référencée dans la Bibliothèque Ouverte d’Algorithmes en Santé (BOAS).
Présentation rapide :
Nom : EDS-PDF : Extraction d’informations textuelles à partir de documents PDF
Producteur : équipe Data Science de l’Entrepôt de Données de Santé (EDS) de l’AP-HP
Objectif : extraction d’informations textuelles à partir de documents PDF en fournissant des outils pour la visualisation et le traitement des PDF, ainsi que de multiples composants pour construire des modèles complexes
Langage de programmation : Python
Liens utiles :
- Fiche BOAS : EDS-PDF : Extraction d'informations textuelles à partir de documents PDF. | Health Data Hub
- Code source : GitHub - aphp/edspdf: EDS-PDF is a generic, pure-Python framework for text extraction from PDF documents. It provides the machinery to use rule- or machine-learning-based approaches to classify text blocs between body and meta-data.
Nous serions ravis de connaître vos suggestions d’amélioration ou retours d’usage.
Merci à l’équipe Data Science de l’EDS de l’AP-HP pour leur engagement en faveur de l’open source en santé !