Skip to content

Connecteur Url Scrapper

Configuration du connecteur

Le connecteur Url Scrapper permet de synchroniser le contenu de pages web spécifiques vers Wikit Semantics. Il récupère le contenu HTML des pages indiquées, les convertit en markdown et les indexe dans votre base de connaissances.

Nom du champFormat / TypeObligatoireCommentaire
Liste d'URLsListe de textes (URLs)Liste des URLs des pages web à synchroniser. Si une URL n'est pas valide, elle ne sera pas ajoutée à la liste.
Url du serviceURLURL du service Scrappy utilisé pour l'extraction du contenu. Sélectionner l'environnement correspondant (Développement, Préproduction ou Production).
Options de la pageObjet de configurationOptions permettant de personnaliser l'extraction du contenu des pages.
Seulement le contenu principalOui / NonSi activé, seul le contenu principal de la page sera extrait, en excluant les éléments périphériques (menu, pied de page, etc.).
Sélecteurs CSS à exclureListe de textesPermet d'exclure certaines parties du contenu via des sélecteurs CSS (exemple : .nav, #footer, .sidebar).
En-têteObjet clé/valeurPermet de rajouter des informations dans le header des requêtes HTTPS (par exemple pour l'authentification ou des paramètres personnalisés).

💡 Les champs marqués ✅ sont obligatoires pour que le connecteur puisse fonctionner.

Fonctionnement du connecteur

Le connecteur Url Scrapper fonctionne en mode de synchronisation intelligente :

  • Synchronisation à la demande : Le connecteur se déclenche manuellement ou selon la planification configurée dans Wikit Connect.
  • Extraction du contenu : Pour chaque URL configurée, le connecteur récupère le contenu HTML de la page, puis le convertit en format markdown via le service Scrappy.
  • Métadonnées extraites : Le connecteur récupère automatiquement les métadonnées de la page (titre, description, mots-clés, Open Graph, langue, etc.).
  • Gestion des modifications : Le connecteur compare les documents extraits avec ceux déjà présents dans Semantics pour déterminer s'il faut insérer, mettre à jour ou supprimer des documents.
  • Suppression automatique : Les pages qui ne sont plus présentes dans la liste des URLs sont automatiquement supprimées de la base de connaissances.

Le connecteur traite les URLs de manière séquentielle et applique les options de page (extraction du contenu principal, exclusion de sélecteurs CSS) de manière uniforme à toutes les URLs.

Prérequis

Avant de configurer le connecteur dans la console Wikit Connect :

  1. Accès réseau : Assurez-vous que le serveur Wikit Connect dispose d'un accès réseau aux URLs que vous souhaitez synchroniser.
  2. URLs publiques ou accessibles : Les URLs doivent être accessibles publiquement ou via les en-têtes HTTP configurés (authentification basique, tokens, etc.).
  3. Service Scrappy : Vous devez disposer d'une URL de service Scrappy fonctionnelle (fournie par Wikit selon votre environnement).
  4. Contenu HTML valide : Les pages web doivent retourner du contenu HTML structuré pour une extraction optimale.

FAQ

Quelle est la différence entre "Seulement le contenu principal" et "Sélecteurs CSS à exclure" ?

L'option "Seulement le contenu principal" active un algorithme automatique qui tente d'identifier et d'extraire uniquement le contenu principal de la page (article, corps de texte), en excluant les éléments périphériques comme les menus, pieds de page et barres latérales.

L'option "Sélecteurs CSS à exclure" vous permet de spécifier manuellement des sélecteurs CSS précis pour exclure des éléments spécifiques (par exemple .advertising, #comments, .related-articles). Cette option est plus précise et vous donne un contrôle total sur ce qui doit être exclu.

Vous pouvez combiner les deux options pour un résultat optimal.

Comment synchroniser des pages web protégées par authentification ?

Pour synchroniser des pages web nécessitant une authentification, utilisez le champ "En-tête" pour ajouter les informations d'authentification nécessaires :

  • Authentification basique HTTP : Ajoutez un en-tête Authorization avec la valeur Basic [base64(username:password)]
  • Token d'authentification : Ajoutez un en-tête Authorization avec la valeur Bearer [votre-token]
  • Cookie de session : Si vos pages nécessitent une authentification par cookie de session, utilisez plutôt le connecteur Url Scrapper Cookie Auth qui gère automatiquement la connexion et la récupération des cookies.
Que se passe-t-il si une URL devient inaccessible ou retourne une erreur ?

Si une URL retourne une erreur (404, 500, timeout, etc.) lors de la synchronisation :

  • Le connecteur enregistre l'erreur dans les logs de synchronisation
  • Les autres URLs continuent d'être traitées normalement
  • Si un document existait déjà pour cette URL dans Semantics, il reste inchangé (il n'est pas supprimé)
  • Vous pouvez consulter les erreurs dans l'historique de synchronisation du connecteur dans la console Wikit Connect

Il est recommandé de vérifier régulièrement les logs de synchronisation pour identifier et corriger les URLs défaillantes.

Comment identifier les bons sélecteurs CSS à exclure ?

Pour identifier les sélecteurs CSS à exclure :

  1. Ouvrez la page web dans votre navigateur
  2. Utilisez les outils de développement (clic droit > "Inspecter l'élément" ou F12)
  3. Identifiez les éléments HTML que vous souhaitez exclure (menu de navigation, publicités, commentaires, etc.)
  4. Notez les classes CSS (.nom-de-classe) ou identifiants (#identifiant) de ces éléments
  5. Ajoutez ces sélecteurs dans le champ "Sélecteurs CSS à exclure"

Exemples courants : .header, .footer, .sidebar, .nav, .advertisement, #comments, .related-posts