Skip to content

Préparation des documents pour ingestion

Introduction

La qualité de vos applications avec RAG (Retrieval-Augmented Generation) dans Wikit Semantics dépend fortement de la préparation de vos documents source. Ce guide présente les bonnes pratiques pour optimiser vos documents avant leur ingestion dans la plateforme.

Formats supportés

Wikit Semantics prend en charge les formats suivants :

  • PDF
  • Word (.docx)
  • Texte brut (.txt)
  • HTML (.html)
  • Markdown (.md)
  • JSON (.json) au format Wikit Semantics

Bonnes pratiques générales

Structure et organisation

  • Privilégiez la clarté : Les documents bien structurés avec titres, sous-titres et paragraphes sont mieux interprétés
  • Utilisez une hiérarchie logique : Organisez l'information de manière cohérente avec une progression logique
  • Évitez les documents trop denses : Préférez plusieurs documents thématiques plutôt qu'un seul document très long
  • Maintenez une granularité cohérente dans les sections à chaque niveau de titre : Les fragments de document à l’issue de l’ingestion auront un format plus adapté aux étapes de recherche sémantique et de génération de réponse.

Contenu et formatage

  • Utilisez un texte exploitable : Assurez-vous que le texte soit sélectionnable et non sous forme d'image
  • Évitez le texte en colonnes multiples quand possible
  • Privilégiez les formats structurés : HTML et Markdown préservent mieux la structure que des PDF scannés

Recommandations spécifiques par type de document

Documents PDF

  • Assurez-vous que le PDF contient du texte recherchable et non des images de texte
  • Vérifiez que la table des matières est fonctionnelle et que les signets sont correctement définis
  • Optimisez la taille du fichier

Documents Word

  • Utilisez les styles de titre intégrés pour une meilleure structure
  • Ajoutez des descriptions aux images pour le contexte
  • Complétez les propriétés du document (titre, auteur, mots-clés)

HTML et Markdown

  • Respectez une structure sémantique avec titres (<h1>, <h2>, etc.) et paragraphes
  • Utilisez des attributs alt pour les images
  • Évitez le code HTML inutilement complexe

Conclusion

Une préparation soignée de vos documents source garantit des performances optimales de vos applications RAG dans Wikit Semantics. Privilégiez des documents bien structurés, au contenu textuel exploitable et organisés de manière logique pour obtenir les meilleurs résultats.