Connecteur Url Scrapper Cookie Auth
Configuration du connecteur
Le connecteur Url Scrapper Cookie Auth permet de synchroniser le contenu de pages web protégées par authentification vers Wikit Semantics. Il se connecte automatiquement à un formulaire de login pour obtenir les cookies de session nécessaires, puis récupère le contenu des pages protégées.
| Nom du champ | Format / Type | Obligatoire | Commentaire |
|---|---|---|---|
| Liste d'URLs | Liste de textes (URLs) | ✅ | Liste des URLs des pages web à synchroniser. Si une URL n'est pas valide, elle ne sera pas ajoutée à la liste. |
| Url du service | URL | ✅ | URL du service Scrappy utilisé pour l'extraction du contenu. Sélectionner l'environnement correspondant (Développement, Préproduction ou Production). |
| Options de la page | Objet de configuration | ➖ | Options permettant de personnaliser l'extraction du contenu des pages. |
| Seulement le contenu principal | Oui / Non | ➖ | Si activé, seul le contenu principal de la page sera extrait, en excluant les éléments périphériques (menu, pied de page, etc.). |
| Sélecteurs CSS à exclure | Liste de textes | ➖ | Permet d'exclure certaines parties du contenu via des sélecteurs CSS (exemple : .nav, #footer, .sidebar). |
| En-tête | Objet clé/valeur | ➖ | Permet de rajouter des informations dans le header des requêtes HTTPS (par exemple pour des paramètres personnalisés additionnels). |
| Authentification | Objet de configuration | ✅ | Configuration de l'authentification pour accéder aux pages protégées. |
| URL de la page d'authentification | URL | ✅ | URL complète de la page de connexion où se trouve le formulaire d'authentification. |
| Nom d'utilisateur | Texte libre | ✅ | Identifiant de connexion pour accéder aux pages protégées. |
| Mot de passe | Mot de passe / Token | ✅ | Mot de passe associé au nom d'utilisateur. |
| Champs cachés | Objet clé/valeur | ➖ | Champs cachés supplémentaires du formulaire de connexion (par exemple : csrf_token, redirect_url, domain, etc.). |
💡 Les champs marqués ✅ sont obligatoires pour que le connecteur puisse fonctionner.
Fonctionnement du connecteur
Le connecteur Url Scrapper Cookie Auth fonctionne en mode de synchronisation intelligente avec gestion automatique de l'authentification :
Processus de synchronisation
Connexion automatique : Au début de chaque synchronisation, le connecteur accède à la page de login et détecte automatiquement le formulaire d'authentification.
Récupération des cookies : Le connecteur remplit le formulaire avec les identifiants fournis (nom d'utilisateur, mot de passe et éventuels champs cachés), le soumet, puis récupère les cookies de session générés.
Extraction du contenu : Pour chaque URL configurée, le connecteur utilise les cookies de session pour accéder aux pages protégées, récupère leur contenu HTML, puis le convertit en markdown via le service Scrappy.
Métadonnées extraites : Le connecteur récupère automatiquement les métadonnées de chaque page (titre, description, mots-clés, Open Graph, langue, etc.).
Gestion des modifications : Le connecteur compare les documents extraits avec ceux déjà présents dans Semantics pour déterminer s'il faut insérer, mettre à jour ou supprimer des documents.
Suppression automatique : Les pages qui ne sont plus présentes dans la liste des URLs sont automatiquement supprimées de la base de connaissances.
Les cookies de session sont valables uniquement pendant la durée de la synchronisation et sont régénérés à chaque nouvelle exécution du connecteur.
Prérequis
Avant de configurer le connecteur dans la console Wikit Connect :
Compte de service : Créez un compte utilisateur dédié à la synchronisation avec les droits d'accès nécessaires aux pages à synchroniser.
Page de login accessible : La page de connexion doit être accessible depuis le serveur Wikit Connect et contenir un formulaire HTML standard.
Formulaire d'authentification compatible : Le formulaire de login doit être un formulaire HTML classique (non-JavaScript). Les pages utilisant une authentification OAuth, SAML ou d'autres mécanismes complexes ne sont pas supportées par ce connecteur.
Identification des champs cachés : Si le formulaire de connexion contient des champs cachés (tokens CSRF, URL de redirection, etc.), vous devez les identifier au préalable (via les outils de développement du navigateur) et les configurer dans le champ "Champs cachés".
Service Scrappy : Vous devez disposer d'une URL de service Scrappy fonctionnelle (fournie par Wikit selon votre environnement).
URLs accessibles après authentification : Les URLs à synchroniser doivent être accessibles une fois authentifié avec le compte de service configuré.
FAQ
Comment identifier les champs cachés du formulaire de connexion ?
Pour identifier les champs cachés du formulaire :
- Accédez à la page de connexion dans votre navigateur
- Ouvrez les outils de développement (F12 ou clic droit > "Inspecter")
- Allez dans l'onglet "Elements" ou "Inspecteur"
- Localisez la balise
<form>du formulaire de connexion - Recherchez les balises
<input type="hidden">à l'intérieur du formulaire - Notez les attributs
nameetvaluede ces champs cachés
Exemple : Si vous trouvez <input type="hidden" name="csrf_token" value="abc123">, vous devez ajouter dans le champ "Champs cachés" : {"csrf_token": "abc123"}
Important : Si la valeur d'un champ caché change à chaque chargement de page (comme un token CSRF dynamique), vous devrez peut-être utiliser un autre type de connecteur ou contacter le support Wikit.
Le connecteur échoue avec une erreur d'authentification, que faire ?
Si le connecteur renvoie une erreur d'authentification, vérifiez les points suivants :
Identifiants corrects : Vérifiez que le nom d'utilisateur et le mot de passe sont corrects en vous connectant manuellement sur la page de login.
URL de login correcte : Assurez-vous que l'URL de la page d'authentification est exacte et accessible.
Champs cachés : Vérifiez que tous les champs cachés obligatoires sont correctement configurés avec leurs valeurs.
Noms des champs : Le connecteur détecte automatiquement les champs de formulaire pour le nom d'utilisateur et le mot de passe. Si votre formulaire utilise des noms non-standard, l'authentification peut échouer.
Authentification complexe : Si votre page utilise une authentification OAuth, SAML, double facteur (2FA) ou un formulaire JavaScript, ce connecteur ne sera pas compatible. Contactez le support Wikit pour des solutions alternatives.
Consultez les logs de synchronisation dans la console Wikit Connect pour plus de détails sur l'erreur.
Les cookies de session expirent-ils entre deux synchronisations ?
Oui, les cookies de session ne sont pas conservés entre deux synchronisations. À chaque exécution du connecteur, le processus complet d'authentification est effectué :
- Nouvelle connexion à la page de login
- Soumission du formulaire avec les identifiants
- Récupération de nouveaux cookies de session
- Utilisation de ces cookies pour accéder aux pages protégées
Cette approche garantit que le connecteur utilise toujours des cookies valides, même si la durée de vie des sessions est courte sur votre système cible.
Quelle est la différence avec le connecteur Url Scrapper standard ?
| Critère | Url Scrapper | Url Scrapper Cookie Auth |
|---|---|---|
| Pages accessibles | Pages publiques ou avec authentification par en-têtes HTTP | Pages protégées par formulaire de connexion |
| Authentification | Via en-têtes HTTP (Basic Auth, Bearer Token, etc.) | Via formulaire HTML avec cookies de session |
| Configuration | Plus simple (pas de gestion de session) | Nécessite la configuration des identifiants de connexion |
| Cas d'usage | Pages publiques, APIs avec tokens | Intranets, espaces membres, plateformes avec login |
Utilisez le connecteur Url Scrapper Cookie Auth si vos pages nécessitent une connexion via un formulaire HTML classique. Utilisez le connecteur Url Scrapper standard pour toutes les autres situations.