
La qualité d’un moteur de recherche visuelle se joue sur un instant décisif : la transformation d’une image ou d’un texte en un vecteur numérique. Plus ce vecteur capture finement le sens de la requête, meilleure est la recherche. C’est la raison pour laquelle Visual Image Search ne s’appuie pas sur un seul modèle, mais combine deux modèles d’embedding complémentaires. Cette architecture hybride, dite en deux étages, est au cœur de la précision et de la vitesse que nous offrons. Comprendre cette architecture, c’est comprendre pourquoi nos résultats paraissent justes au premier coup.

SigLIP 2 : la compréhension texte et image
SigLIP 2 est un modèle d’embedding qui excelle dans l’alignement entre le langage et la vision. Contrairement à un classifieur classique, il projette les images et les textes dans un même espace vectoriel partagé. Concrètement, cela signifie qu’une requête texte comme « robe rouge à pois » va se positionner près des images de robes correspondantes, même si la description exacte n’apparaît dans aucune métadonnée de votre catalogue. C’est ce qui rend la recherche en langage naturel possible, tolérante aux approximations et capable d’interpréter l’intention derrière les mots, plutôt que la lettre.
DINOv2 : la perception visuelle pure
Là où SigLIP 2 brille sur le sens, DINOv2 excelle sur la perception visuelle fine. Entraîné en auto-supervisé sur des centaines de millions d’images, il apprend à capturer des détails comme la texture, la forme, la géométrie et les motifs. Il est particulièrement efficace quand la requête est elle-même une image, et qu’il faut distinguer deux produits visuellement très proches — par exemple deux paires de sneakers différant seulement par le nombre de bandes. DINOv2 apporte cette précision chirurgicale que le seul alignement texte-image ne peut garantir, et qui fait la différence entre « similaire » et « identique ».

Le meilleur des deux, dans un index unique
Plutôt que de choisir entre les deux, nous fusionnons leurs forces. Les embeddings sont stockés dans un index vectoriel performant, et à chaque requête nous récupérons un premier lot de candidats à large rappel grâce à SigLIP 2. Ces candidats sont ensuite réordonnés par DINOv2, qui affine le classement pour identifier le « même produit ». Ce schéma en deux étages combine un rappel élevé et une précision de tri de qualité, tout en restant sous la barre des 100 millisecondes pour l’utilisateur final. Le visiteur ne perçoit que la pertinence, jamais la complexité.
Une infrastructure pensée pour la production
Au-delà des modèles, l’architecture repose sur des briques éprouvées : un index vectoriel HNSW avec quantification pour scaler à des dizaines de millions d’images, une API asynchrone pour l’ingestion par lots, et une isolation multi-tenant qui garantit que chaque client ne voit que ses données. Chaque brique est dimensionnée pour monter en charge sans refonte. L’objectif est simple : offrir une qualité de recherche digne des meilleurs acteurs du marché, sans imposer à nos clients de gérer une infrastructure complexe ou coûteuse.

Le fine-tuning pour les catalogues de niche
Pour les catalogues très spécialisés — pièces auto, matériel médical, mobilier ancien — les modèles génériques peuvent être insuffisants. C’est pourquoi l’architecture prévoit un fine-tuning optionnel, qui adapte les embeddings aux spécificités d’un domaine. En réentraînant légèrement sur un sous-ensemble représentatif, on gagne en pertinence sur les nuances que seul un expert du métier sait distinguer. Ce mécanisme permet de conjuguer la généralité d’un modèle de fondation et la précision d’un modèle spécialisé, sans repartir de zéro.
La gestion des attributs et des filtres
La similarité visuelle ne suffit pas toujours : elle doit s’articuler avec les attributs structurés de votre catalogue. Un client peut chercher visuellement une robe, mais vouloir restreindre à une taille ou une gamme de prix. L’architecture gère cette combinaison en appliquant des filtres sur les métadonnées au moment de la recherche vectorielle. Les candidats sont ainsi filtrés par catégorie, prix, disponibilité ou tout autre attribut, avant ou pendant le calcul de similarité. Cette articulation entre le visuel et le structuré est essentielle pour garantir des résultats à la fois pertinents et exploitables commercialement, sans renvoyer des produits hors contexte.
Sécurité et isolation des embeddings
Dans un contexte multi-tenant, la sécurité des embeddings est primordiale. Chaque vecteur porte un identifiant de tenant qui est systématiquement vériqué à chaque requête, ce qui garantit qu’aucune fuite de données n’est possible entre clients. Les clés API sont spécifiques à chaque tenant et assorties de quotas configurables, ce qui limite l’impact d’un éventuel abus. Cette isolation par conception permet à des concurrents directs de partager la même infrastructure sans risque de croisement de données. C’est un gage de confiance indispensable pour les e-commerces qui confient leur catalogue, et une garantie de conformité avec les exigences de protection des données.
Conclusion : la précision comme avantage compétitif
L’architecture SigLIP 2 + DINOv2 n’est pas un détail technique : c’est ce qui fait la différence entre une recherche approximative et une recherche qui convertit. En combinant rappel sémantique et re-ranking visuel, nous obtenons des résultats que vos clients perçoivent comme justes, au premier coup. C’est cette perception de justesse qui transforme un visiteur en acheteur, et qui justifie l’investissement dans une architecture à deux étages plutôt qu’un modèle unique.