Import des fichiers
Comme nous l'avons vu dans la page capacité et utilisation de Synclab , nous rappelons que Synclab dans sa composante drive permet de gérer des fichiers et ainsi de faciliter l'extraction des connaissances. Pour profiter pleinement des capacités de Synclab il incombe à l'utilisateur d'importer les fichiers qu'il souhaite intégrer à sa base de connaissance dans l'application.
Lors de l'importation d'un document Synclab utilise plusieurs étapes pour s'assurer que le fichier sera adapté au traitement ultérieur. Ces étapes comprennent :
- La vérification du type de fichier.
- L'analyse antivirus (l'analyse antivirus ne se substitue pas à un antivirus traditionnel, mais elle permet de détecter les fichiers potentiellement dangereux).
- La génération des embeddings (pour en savoir plus vous pouvez consulter notre article le rag comment ça marche ? )
- La génération d'une description et de tags. Pour générer la description du document nous utilisons des méthodes de machine learning, qui permettent de créer des clusters des thèmes abordés dans le document. Ces clusters sont ensuite utilisés pour générer des résumés et des descriptions des documents. Ces résumés et descriptions sont stockés dans la base de données et peuvent être utilisés pour la recherche et la récupération d'informations.
- La génération des questions. Basé sur les mêmes technologies que les deux générations précédentes, des LLMs sont utilisés afin de générer des questions sur le contenu du document. Ces questions sont ensuite proposées en guise de suggestions lors des requêtes.
- Les vignettes : pour les formats pdf et images, nous générons également des vignettes. Ces vignettes sont des images miniatures qui représentent le contenu du document. Elles sont utilisées pour afficher un aperçu du document dans l'interface utilisateur de Synclab. Les vignettes sont générées à partir de la première page contenu du document. Elles sont principalement utilisées pour favoriser la navigation et l'aspect mnémotechnique.
A noter : supprimer un fichier entraîne la suppression, en cascade, de tous les éléments générés lors de l'import. Cela signifie que si un fichier est supprimé, toutes les informations associées à ce fichier, y compris les embeddings, les résumés, les descriptions, les tags, les questions et les vignettes, seront également supprimés de la base de données.
Les zones d'importations
Les zones d'importation permettent de glisser-déposer les documents directement dans l'application. Il existe 3 zones principales d'importation en glisser / déposer afin de permettre de choisir la zone d'importation la plus adaptée au besoin. A cela s'ajoute une zone d'importation fixe via le bouton + en bas à droite dans "Mes documents / ma collection ":
Import unique ou import Multiple
L'importation de fichiers peut se faire de deux manières différentes : l'importation unique et l'importation multiple.
- L'importation unique permet d'importer un seul fichier à la fois
- L'importation multiple permet de sélectionner plusieurs fichiers en même temps.
Dans les deux cas, il suffit de sélectionner le ou les fichiers à importer depuis le système de fichier de l'ordinateur personnel, puis de maintenir enfoncée le clic gauche de la souris tout en sélectionnant les fichiers souhaités (glisser / déposer).
Importation maximale: jusqu'à 400 fichiers à la fois.
Quelques règles lors de l'importation
-
Une fois une importation lancée patienter jusqu'à ce que le téléchargement soit terminé avant de pouvoir lancer le suivant.
-
Pour annuler un téléchargement, il suffit de recharger la page en confirmant sa fermeture :
Tous les fichiers importés jusqu'alors seront maintenus et ils seront accessibles dans la collection de destination.
- Aucun fichier ne peut être importé deux fois.
L'objectif ici est d'éviter les doublons dans la base de connaissances. Basé sur un algorithme de hachage, tout fichier, même avec un nom différent ayant un contenu strictement identique à un fichier existant sera rejeté. Cette action permet d'assurer que dans la context du RAG, chaque fichier soit unique. Cela évite les biais lors de la génération des LLMs par une surreprésentation de certains fichiers ou contenus du fichier.
Pour en savoir plus consulter notre article sur le Rag comment ça marche ?