Le rôle des modèles de langage dans Synclab

Dans Synclab nous avons intégré 3 types de modèles d'intelligence artificielle. Les modèles de génération de texte, des modèles de vision et des modèles d'embedding.

La listes des modèles que nous intégrons à notre plateforme est la suivante :

ModèleCréateursFournisseur
Meta-Llama-3_3-70B-InstructMetaOVH Cloud
llama-3.1-70b-instructMetaOVH Cloud
qwen2.5-coder-32b-instructQwenOVH Cloud
deepseek-r1-distill-llama-70bDeepSeekOVH Cloud
bge-multilingual-gemmaBAAIOVH Cloud

Les créateurs de modèles sont les entreprises ayant développé ces modèles. Par exemple, Meta a créé le modèle Llama, tandis que Google a développé le modèle Gemma. Il en est de même pour QWEN et Deepseek. Ces entreprises ne doivent pas être confondues avec le fournisseur de service qui est celui qui met en place l'infrastructure matériel pour héberger ces modèles. Ces modèles sont hébergés sur l'infrastructure matériel d'OVH, une plateforme cloud souveraine Française, qui fournit l'infrastructure nécessaire pour exécuter ces modèles. OVH n'est plus à présenté, elle est une entreprise française et de ce fait respecte, tout comme nous, les lois Européennes sur la protection des données. Aucune des données n'est donc transférée en dehors de l'Union Européenne.

Modèles générateur de description, de tags et de questions

Le modèle utilisé pour générer les descriptions, les tags et les questions est le modèle Llama 3.1-8b-instruct. Ce modèle est optimisé pour la génération de texte et est capable de produire des descriptions, des tags et des questions de haute qualité en fonction du contenu du document. Il est particulièrement utile pour améliorer la recherche documentaire en fournissant des métadonnées pertinentes pour chaque document.

Modèles générateur de description, et d'analyse d'image

Le modèles utilisé pour générer les descriptions et analyser les images est le modèle Gemma-3-27b-it. Ce modèle est optimisé pour la génération de texte issu d'image et l'analyse d'image. Il est capable de produire des descriptions détaillées et pertinentes en fonction du contenu de l'image. Il est particulièrement utile pour améliorer la recherche documentaire en fournissant des métadonnées pertinentes pour chaque image.

Modèles de génération de réponse

Lorsqu'une requête à un ou plusieurs document(s), collection, ou corpus est déclenchée, il est possible de choisir le modèle de langage à utiliser. Par défaut, le modèle de langage est Llama 3.3-70B.

Modèles d'embeddings

Le modèle d'embeddings utilisé est le modèle BGE-multilingual-gemma. Ce modèle est optimisé pour la création d'embeddings de haute qualité en fonction du contenu du document. Il est particulièrement utile pour améliorer la recherche documentaire en fournissant des embeddings pertinents pour chaque document.

Cette page vous a t-elle été utile ?