Résumé
Cette thèse porte sur l’indexation et l’accélération de la recherche dans les nuages de points 3D, pour la reconnaissance de lieux à grande échelle. L’objectif est de rechercher des nuages similaires à un nuage requête dans une base de données de nuages géoréférencés, en établissant une représentation du nuage, puis en la recherchant dans la base pour obtenir une liste de candidats triés par ordre de similarité.
Les méthodes de l’état de l’art en reconnaissance de lieux à partir de nuages de points se concentrent principalement sur la construction de la représentation des nuages, plutôt que sur une recherche efficace de candidats similaires. Cette seconde étape repose généralement sur une recherche exhaustive, au mieux avec un arbre k-d, ce qui la rend coûteuse en temps de calcul lorsque le volume du référentiel de nuages de points augmente, ou moins intéressante pour des vecteurs de grande dimension. C’est pourtant une situation typique dans les applications actuelles de l’information géographique, telles que la reconnaissance de lieux à grande échelle ou la mise à jour des référentiels. À l’inverse, la littérature sur le sujet en robotique se concentre majoritairement sur des scénarios de fermeture de boucle, souvent limités à l’échelle d’une rue ou d’un quartier. Pour répondre à ce problème, nous avons choisi de nous inspirer des méthodes de recherche d’information de l’état de l’art. Cette thèse apporte trois contributions à la problématique de la reconnaissance de lieux à grande échelle, en s’appuyant exclusivement sur les informations géométriques contenues dans les nuages de points.
Notre première contribution, nommée DSI-3D, repose sur l’approche du Differentiable Search Index (DSI), capable de générer l’identifiant des documents pertinents en réponse à une requête textuelle. Pour associer ce type d’indices aux données 3D, nous nous inspirons des Vision Transformers tels que GIT, conçus initialement pour la génération automatique de descriptions d’images. En remplaçant l’encodeur d’image par un encodeur 3D, notre méthode apprend à générer des indices à partir de nuages de points, ce qui permet une recherche de nuages de points similaires en temps d’inférence constant. Plusieurs stratégies d’encodage, spécialisées pour la géolocalisation, ont été étudiées et évaluées sur un jeu de données de l’état de l’art en robotique (KITTI).
Notre seconde contribution consiste en l’adaptation des données de cartographie territoriale LiDAR HD de l’IGN, présentes sur tout le territoire français, à des tâches de reconnaissance de lieux. Ce jeu de données présente des caractéristiques d’acquisition sensiblement différentes de celles de la cartographie mobile, mais il offre la possibilité d’être étendu à l’échelle nationale. Cette évaluation a nécessité un nouvel entraînement de l’encodeur 3D, impliquant un découpage du jeu de données en ensembles d’apprentissage et d’évaluation. Afin d’évaluer la capacité de généralisation des descripteurs appris, deux zones de Paris ont été sélectionnées pour valider cet entraînement.
Notre dernière contribution explore deux améliorations de DSI-3D, conçues pour s’adapter aux grands jeux de données. Premièrement, nous étudions une stratégie de recherche basée sur les mélanges d’experts (Mixtures of Experts, MoE). Leur principe consiste à scinder un modèle d’apprentissage en plusieurs sous-modèles indépendants, appelés experts, chacun étant spécialisé dans un sous-ensemble spécifique de nuages de points. Deuxièmement, dans le cadre d’un stage de Master, nous étudions l’application d’un mécanisme de reclassement pour améliorer les performances de la reconnaissance de lieux dans les nuages de points, en réorganisant la liste des candidats selon la similarité de leurs caractéristiques locales.
Ce travail vise à ouvrir des perspectives sur l’amélioration de la reconnaissance de lieux à grande échelle à partir de nuages de points 3D, en particulier en ce qui concerne l’utilisation de la recherche générative, tout en stimulant les recherches futures sur l’intégration de méthodes multimodales pour la reconnaissance de lieux.