URL Scrapper Cookie Auth | Documentation Wikit

Configuration du connecteur

Le connecteur Url Scrapper Cookie Auth permet de synchroniser le contenu de pages web protégées par authentification vers Wikit Semantics. Il se connecte automatiquement à un formulaire de login pour obtenir les cookies de session nécessaires, puis récupère le contenu des pages protégées.

Nom du champ	Format / Type	Obligatoire	Commentaire
Liste d'URLs	Liste de textes (URLs)	✅	Liste des URLs des pages web à synchroniser. Si une URL n'est pas valide, elle ne sera pas ajoutée à la liste.
Url du service	URL	✅	URL du service Scrappy utilisé pour l'extraction du contenu. Sélectionner l'environnement correspondant (Développement, Préproduction ou Production).
Options de la page	Objet de configuration	➖	Options permettant de personnaliser l'extraction du contenu des pages.
Seulement le contenu principal	Oui / Non	➖	Si activé, seul le contenu principal de la page sera extrait, en excluant les éléments périphériques (menu, pied de page, etc.).
Sélecteurs CSS à exclure	Liste de textes	➖	Permet d'exclure certaines parties du contenu via des sélecteurs CSS (exemple : `.nav`, `#footer`, `.sidebar`).
En-tête	Objet clé/valeur	➖	Permet de rajouter des informations dans le header des requêtes HTTPS (par exemple pour des paramètres personnalisés additionnels).
Authentification	Objet de configuration	✅	Configuration de l'authentification pour accéder aux pages protégées.
URL de la page d'authentification	URL	✅	URL complète de la page de connexion où se trouve le formulaire d'authentification.
Nom d'utilisateur	Texte libre	✅	Identifiant de connexion pour accéder aux pages protégées.
Mot de passe	Mot de passe / Token	✅	Mot de passe associé au nom d'utilisateur.
Champs cachés	Objet clé/valeur	➖	Champs cachés supplémentaires du formulaire de connexion (par exemple : `csrf_token`, `redirect_url`, `domain`, etc.).

💡 Les champs marqués ✅ sont obligatoires pour que le connecteur puisse fonctionner.

Fonctionnement du connecteur

Le connecteur Url Scrapper Cookie Auth fonctionne en mode de synchronisation intelligente avec gestion automatique de l'authentification :

Processus de synchronisation

Connexion automatique : Au début de chaque synchronisation, le connecteur accède à la page de login et détecte automatiquement le formulaire d'authentification.
Récupération des cookies : Le connecteur remplit le formulaire avec les identifiants fournis (nom d'utilisateur, mot de passe et éventuels champs cachés), le soumet, puis récupère les cookies de session générés.
Extraction du contenu : Pour chaque URL configurée, le connecteur utilise les cookies de session pour accéder aux pages protégées, récupère leur contenu HTML, puis le convertit en markdown via le service Scrappy.
Métadonnées extraites : Le connecteur récupère automatiquement les métadonnées de chaque page (titre, description, mots-clés, Open Graph, langue, etc.).
Gestion des modifications : Le connecteur compare les documents extraits avec ceux déjà présents dans Semantics pour déterminer s'il faut insérer, mettre à jour ou supprimer des documents.
Suppression automatique : Les pages qui ne sont plus présentes dans la liste des URLs sont automatiquement supprimées de la base de connaissances.

Les cookies de session sont valables uniquement pendant la durée de la synchronisation et sont régénérés à chaque nouvelle exécution du connecteur.

Prérequis

Avant de configurer le connecteur dans la console Wikit Connect :

Compte de service : Créez un compte utilisateur dédié à la synchronisation avec les droits d'accès nécessaires aux pages à synchroniser.
Page de login accessible : La page de connexion doit être accessible depuis le serveur Wikit Connect et contenir un formulaire HTML standard.
Formulaire d'authentification compatible : Le formulaire de login doit être un formulaire HTML classique (non-JavaScript). Les pages utilisant une authentification OAuth, SAML ou d'autres mécanismes complexes ne sont pas supportées par ce connecteur.
Identification des champs cachés : Si le formulaire de connexion contient des champs cachés (tokens CSRF, URL de redirection, etc.), vous devez les identifier au préalable (via les outils de développement du navigateur) et les configurer dans le champ "Champs cachés".
Service Scrappy : Vous devez disposer d'une URL de service Scrappy fonctionnelle (fournie par Wikit selon votre environnement).
URLs accessibles après authentification : Les URLs à synchroniser doivent être accessibles une fois authentifié avec le compte de service configuré.

FAQ

Comment identifier les champs cachés du formulaire de connexion ?

Pour identifier les champs cachés du formulaire :

Accédez à la page de connexion dans votre navigateur
Ouvrez les outils de développement (F12 ou clic droit > "Inspecter")
Allez dans l'onglet "Elements" ou "Inspecteur"
Localisez la balise <form> du formulaire de connexion
Recherchez les balises <input type="hidden"> à l'intérieur du formulaire
Notez les attributs name et value de ces champs cachés

Exemple : Si vous trouvez <input type="hidden" name="csrf_token" value="abc123">, vous devez ajouter dans le champ "Champs cachés" : {"csrf_token": "abc123"}

Important : Si la valeur d'un champ caché change à chaque chargement de page (comme un token CSRF dynamique), vous devrez peut-être utiliser un autre type de connecteur ou contacter le support Wikit.

Le connecteur échoue avec une erreur d'authentification, que faire ?

Si le connecteur renvoie une erreur d'authentification, vérifiez les points suivants :

Identifiants corrects : Vérifiez que le nom d'utilisateur et le mot de passe sont corrects en vous connectant manuellement sur la page de login.
URL de login correcte : Assurez-vous que l'URL de la page d'authentification est exacte et accessible.
Champs cachés : Vérifiez que tous les champs cachés obligatoires sont correctement configurés avec leurs valeurs.
Noms des champs : Le connecteur détecte automatiquement les champs de formulaire pour le nom d'utilisateur et le mot de passe. Si votre formulaire utilise des noms non-standard, l'authentification peut échouer.
Authentification complexe : Si votre page utilise une authentification OAuth, SAML, double facteur (2FA) ou un formulaire JavaScript, ce connecteur ne sera pas compatible. Contactez le support Wikit pour des solutions alternatives.

Consultez les logs de synchronisation dans la console Wikit Connect pour plus de détails sur l'erreur.

Les cookies de session expirent-ils entre deux synchronisations ?

Oui, les cookies de session ne sont pas conservés entre deux synchronisations. À chaque exécution du connecteur, le processus complet d'authentification est effectué :

Nouvelle connexion à la page de login
Soumission du formulaire avec les identifiants
Récupération de nouveaux cookies de session
Utilisation de ces cookies pour accéder aux pages protégées

Cette approche garantit que le connecteur utilise toujours des cookies valides, même si la durée de vie des sessions est courte sur votre système cible.

Quelle est la différence avec le connecteur Url Scrapper standard ?

Critère	Url Scrapper	Url Scrapper Cookie Auth
Pages accessibles	Pages publiques ou avec authentification par en-têtes HTTP	Pages protégées par formulaire de connexion
Authentification	Via en-têtes HTTP (Basic Auth, Bearer Token, etc.)	Via formulaire HTML avec cookies de session
Configuration	Plus simple (pas de gestion de session)	Nécessite la configuration des identifiants de connexion
Cas d'usage	Pages publiques, APIs avec tokens	Intranets, espaces membres, plateformes avec login

Utilisez le connecteur Url Scrapper Cookie Auth si vos pages nécessitent une connexion via un formulaire HTML classique. Utilisez le connecteur Url Scrapper standard pour toutes les autres situations.

Connecteur Url Scrapper Cookie Auth ​

Configuration du connecteur ​

Fonctionnement du connecteur ​

Processus de synchronisation ​

Prérequis ​

FAQ ​

Connecteur Url Scrapper Cookie Auth

Configuration du connecteur

Fonctionnement du connecteur

Processus de synchronisation

Prérequis

FAQ