Исследователи из T-Bank AI Research, ИТМО и Центра робототехники Сбера разработали метод точной визуальной локализации по одному изображению

Исследователи T-Bank AI Research совместно с Лабораторией BE2R ИТМО и Центром робототехники Сбера представили GSplatLoc — метод визуальной локализации, который по одному RGB-кадру (со смартфона или робота) определяет положение камеры с точностью до сантиметров, а ориентацию — до градусов.

Метод сочетает классическое сопоставление ключевых точек с визуальной (фотометрической) оптимизацией на основе 3D Gaussian Splatting (3DGS) — «быстрого» трехмерного представления сцены, и работает в реальном времени в трех режимах качества работы.

Разработка была отмечена мировым научным сообществом: работа принята в секцию устных докладов (oral) на международной конференции уровня А по интеллектуальным роботам и системам (IROS 2025), которая прошла с 19 по 25 октября 2025 года в Ханчжоу (Китай).

GSplatLoc снижает требования к аппаратуре: для надежной локализации достаточно обычной RGB-камеры. Это позволяет частично отказаться от лидаров и глубинных сенсоров (RGB-D, Time-of-Flight (ToF)), снижая стоимость роботов и AR-устройств. Примеры:

  • Робототехника (в ТЦ и на складах): вместо связки «лидар + камера + IMU» во многих случаях достаточно камеры и IMU (акселерометр/гироскоп).
  • AR-навигация в зданиях: достаточно камеры смартфона и заранее подготовленной 3DGS-карты, без специальных маркеров или RGB-D;
  • Путь к семантике и агентам: встроенные признаки в 3D-представлении создают основуу для дальнейшей интеграции с семантическими и языковыми модулями, что полезно для автономных агентов и интеллектуальных ассистентов.

Суть открытия

Новый метод состоит из двух стадий.

1. Моделирование сцены (подготовка, выполняется один раз).

Из набора изображений пространства с известными позами камер строится 3DGS-представление: сцена описывается набором трёхмерных «пятен» (гауссиан), что позволяет быстро рендерить изображение. Для каждого исходного кадра предобученная модель находит ключевые точки и извлекает для них дескрипторы — компактные числовые «отпечатки» заметных мест. Затем в ходе обучения мы встраиваем (дистиллируем) эти дескрипторы в параметры 3D-гауссиан: обучаем представление так, чтобы при рендеринге с соответствующих поз синтезированное изображение сцены максимально совпадало с исходными кадрами — не только по цвету и геометрии, но и по тем самым «отпечаткам». Иначе говоря, 3D-представление получает встроенную «память для поиска» соответствий. (В обычном 3DGS по умолчанию сохраняется лишь цвет — RGB.)

2. Оценка позы нового изображения (использование, в реальном времени).

Для каждого входного кадра решается задача однокадровой абсолютной релокализации в заранее подготовленной 3DGS-карте (это не SLAM, который строит карту и трекает позу по видеопотоку). Процесс включает две подстадии:

— грубая поза по сопоставлению 2D-ключевых точек с 3D-моделью с учётом «встроенных» дескрипторов (далее — стандартный расчёт положения камеры);

— уточнение позы за счёт визуальной подстройки (фотометрической оптимизации): сравниваются расхождения между реальным снимком и синтезированным изображением, сгенерированным тем же 3DGS-представлением сцены.

Такое разделение — подготовка один раз → использование многократно — обеспечивает работу в реальном времени и стабильную сантиметровую точность на практике.

Уникальность метода

В GSplatLoc добавили два ключевых решения: во-первых, дистилляция дескрипторов ключевых точек в параметры 3D-гауссиан на стадии построения представления сцены, а во-вторых, использование 3DGS как основы для быстрой визуальной оптимизации. В отличие от классических structure-based подходов (SIFT/ORB/SuperPoint + PnP/RANSAC), сильно зависящих от качества совпадений и текстуры сцены, и от нейросетевых регрессоров позы/координат сцены, хуже масштабируемых на большие уличные локации, GSplatLoc сочетает надёжное 2D–3D сопоставление с фотометрическим уточнением позы в реальном времени на «быстром» дифференцируемом рендерере 3DGS. Это дает несколько практических преимуществ:

  • Дистилляция признаков в 3D-гауссианы превращает 3D-представление в поисковую базу для соответствий между 2D-ключевыми точками на изображении и 3D-гауссианами.
  • Использование 3DGS значительно ускоряет обучение и применение (инференс) по сравнению с неявными нейросетевыми представлениями (NeRF), что упрощает масштабирование на большие и динамичные уличные сцены.
  • Предложены три режима работы — «грубый», «базовый» и «точный», — позволяющие настраивать баланс между скоростью и точностью под конкретное железо и задачу.