Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 2982

☕️ Microsoft propose un outil en Python pour convertir des documents en Markdown

$
0
0

Le Markdown est un langage bien connu de balisage, permettant de formater un texte à l’aide d’instructions claires. Il est très utilisé notamment dans les milieux académiques, de l’édition ou encore dans le développement logiciel. Il y a quelques années, nous avions pris en main une série d’outils dédiés à son édition.

Avec MarkItDown, Microsoft propose justement un outil pour convertir automatiquement des documents et autres fichiers en un équivalent Markdown. L’outil est écrit en Python et se présente à la fois sous forme de bibliothèque (open source, licence MIT) et de page web, dans laquelle on fait glisser son fichier pour le convertir.

Les formats pris en charge sont les PDF, Word (docx), Excel, (xslx), PowerPoint (pptx), Zip (examine l’archive et convertit tout fichier compatible à l’intérieur), HTML ainsi que d’autres formats texte comme les CSV, JSON, XML et ainsi de suite. MarkItDown peut ainsi s’occuper, dans une certaine mesure, des images et fichiers audio. Il convertira alors les données EXIF, OCR et transcriptions de textes.

La bibliothèque peut être utilisée aussi bien dans un projet qu’en ligne de commande pour un usage immédiat. La syntaxe est de type :

markitdown path-to-file.pdf > document.md

L’un des cas d’usage mentionnés est l’IA, plus particulièrement l’analyse d’images par les LLM pour en obtenir des descriptions. Celles-ci peuvent alors être automatiquement transcrites en Markdown.


Viewing all articles
Browse latest Browse all 2982

Trending Articles