Guide PDF et Word (.docx)
Voici quelques bonnes pratiques pour assurer un résultat optimal du Chatbot.
📝Résumé des bonnes pratiques
- Éviter powerpoint (portrait à paysage)
- Ne pas fusionner plusieurs documents en 1 seul !
- Respecter les conventions de formatage : police de plus en plus grosse en fonction de l’importance du titre, une seule taille de police pour le corps du texte.
- Ajouter des élément de structure : titres, table des matières.
- S’assurer que les tableaux soient clairs : présence de lignes entre les cellules.
- Accompagner les images et screenshots d’une description.
- Avoir une page de garde avec le titre du document en gros.
🔎 Quelques exemples de documents bien structurés
Documentation - M365 - Table des matières.pdf
Pourquoi le PDF est parfois difficile à traiter ?
Les PDF représentent l’une des principales sources de connaissances qui alimentent les chatbot. Malheureusement ce format de document n’est pas facile à traiter car il ne contient aucune information sur la structure de son contenu.
Un fichier classique (.docx, .ppt, etc…) contient de nombreux éléments structurels: blocs de textes, tableaux, tables des matières, numéro de pages, en-tête et pieds de page, etc. Pourtant, lorsqu’il est converti en .pdf, tous ces éléments sont transformés en un bloc de texte posés sur une page blanche sans aucune information sur la nature de l’élément : les paragraphes ne sont que des blocs de 1 ligne posés les uns en dessous des autres, les titres ne sont plus que des blocs avec un formatage spécial (couleur, gras, ect…) sans indication de leur niveau, et les tableaux ne sont plus que des petit blocs séparés par des lignes.
Pour un humain cela ne pose aucun problème : nous arrivons à interpréter visuellement la structure du texte, mais pour une machine c’est beaucoup plus compliqué, d’autant que le formatage d’un document peut avoir des formes très (trop) variées 🫠 !
Comment améliorer la compréhension de mon PDF par le chatbot ?
Pour améliorer la compréhension du document par le chatbot, il est nécessaire que le chatbot en comprenne la structure : sections, sous-sections, tableaux. Plus ces éléments sont évidents, mieux le document peut être traité et mieux le chatbot peut y récupérer l’information ! 🥳
Il est donc nécessaire de rétablir les éléments structurels du PDF. Bien que ce ne soit pas évident, c’est largement faisable si la structure du PDF est assez évidente.
💡 Au final, même pour nous les humains, un document clair, structuré, avec une mise en page sans trop de fioriture est généralement plus agréable à lire et permet d’y récupérer l’information nécessaire plus rapidement.
🛠️Le format
Quelques recommandations:
- privilégier l’orientation portrait à paysage (i.e word à powerpoint): les documents au format portrait viennent souvent de logiciels dont le but principal est l’édition de texte (word, google doc, etc…). Ces logiciels forcent un sens de lecture plus intuitif (haut bas et gauche droite). Même les documents sur plusieurs colonnes peuvent être bien compris. Au contraire, les logiciels comme powerpoint permettent de mettre en forme des documents plus difficiles à interpréter : l’ordre de lecture d’une diapositive peut-être mal compris par le chatbot, et donc les blocs de texte qui y figurent peuvent être lus dans le désordre. En plus le format “powerpoint” encourage l’ajout d’information difficiles à interpréter (graphiques, schéma) et superflues (masque de diapositive, décorations).
- respecter les convention de formatage de style : il est par exemple communément admis que des titres de section plus gros signifient que le titre est plus important, ou qu’un élément indenté appartient à l’élément qui le précède (c.f table des matières).
- Avoir une page de garde dont le seul élément textuel est le titre du document, écrit en gros.
📝 La table des matières
La table des matières est un élément important qui permet d’indiquer la structure du document. Au delà de 2 pages, un document est censé être sectionné et donc avoir la table des matières. Pour assurer qu’elle soit bien exploitée par le chatbot, mieux vaut s’assurer qu’elle est un formatage “classique”:
- utiliser les fonctionnalités automatiques de création de table des matière : c’est le meilleur moyen de s’assurer que le format sois bien standardisé, et que les numéros de pages soient bien à jour. Et c’est plus rapide que d’écrire une table des matières à la main. 😉
- s’assurer que la table a un format “classique”:
- les titres des parties d’un même niveau sont bien alignés
- les titres des sous-parties sont indentés d’une tabulation par rapport à la partie à laquelle ils appartiennent.
- le titre et le numéro de page sont relié par une ligne d’un symbole courant (point, tiret)
- le numéro de page est aligné sur la gauche

Exemple de table des matière bien formatée
🗓️Les tableaux
Les récentes avancées technologiques ont repoussé la capacité des IA à comprendre les tableaux 🦾. Heureusement, car ils sont parfois indispensables pour représenter l’information. Toujours est-il qu’ils ne sont pas le format idéal pour un chatbot, donc avoir un tableau avec une structure bien apparente est toujours un plus.
Voici quelques exemples de bons et moins bon cas.
✅ Les bons

✅ La présence de cellules fusionnées pourrait poser problème. Elle est toutefois bien prise en charge tant que les lignes sont bien visibles.

✅ La présence de lignes permet de bien comprendre la structure. Les noms des colonnes sont présents également
❌ Les… moins bons

❌ Bien que ce tableau puisse paraitre clair, sa structure n’est pas idéale. Les lignes ne sont que suggérées, l’une des colonne na pas de nom, la présence de symbole $ uniquement sur certaines lignes est perturbante.

❌La signification des images dans une cellule est difficile à comprendre. Mieux vaut écrire la signification
🖼️ Les images
La technologie progresse, et vite ! Mais l’interprétation des images par les machines reste un vrai défi, surtout quand celles-ci sont porteuse d’information difficiles à interpréter comme des graphiques ou des captures d’écran.
Pour s’assurer que leur information ne soit pas perdue, mieux vaut accompagner les images d’une légende qui décrit bien son contenu. Même pour un humain, une légende est souvent indispensable à la compréhension d’un graphique.
Exemple d’image qui nécessite une annotation, et de son annotation correspondante.
Annotation :
Etape 1 : Effectuer un clic droit sur l’icône d’imprimante.
Etape 2 : Sélectionner « imprimante par défaut »