Исследователи из T-Bank AI Research, ИТМО и Центра робототехники Сбера разработали метод точной визуальной локализации по одному изображению
27.10.2025 /
Т-Банк (бывш.Тинькофф Банк)
Исследователи T-Bank AI Research совместно с Лабораторией BE2R ИТМО и Центром робототехники Сбера представили GSplatLoc — метод визуальной локализации, который по одному RGB-кадру (со смартфона или робота) определяет положение камеры с точностью до сантиметров, а ориентацию — до градусов. Метод сочетает классическое сопоставление ключевых точек с визуальной (фотометрической) оптимизацией на основе 3D Gaussian Splatting (3DGS) — «быстрого» трехмерного представления сцены, и работает в реальном времени в трех режимах качества работы. Разработка была отмечена мировым научным сообществом: работа принята в секцию устных докладов (oral) на международной конференции уровня А по интеллектуальным роботам и системам (IROS 2025), которая прошла с 19 по 25 октября 2025 года в Ханчжоу (Китай). GSplatLoc снижает требования к аппаратуре: для надежной локализации достаточно обычной RGB-камеры. Это позволяет частично отказаться от лидаров и глубинных сенсоров (RGB-D, Time-of-Flight (ToF)), снижая стоимость роботов и AR-устройств. Примеры:
Суть открытия Новый метод состоит из двух стадий. 1. Моделирование сцены (подготовка, выполняется один раз). Из набора изображений пространства с известными позами камер строится 3DGS-представление: сцена описывается набором трёхмерных «пятен» (гауссиан), что позволяет быстро рендерить изображение. Для каждого исходного кадра предобученная модель находит ключевые точки и извлекает для них дескрипторы — компактные числовые «отпечатки» заметных мест. Затем в ходе обучения мы встраиваем (дистиллируем) эти дескрипторы в параметры 3D-гауссиан: обучаем представление так, чтобы при рендеринге с соответствующих поз синтезированное изображение сцены максимально совпадало с исходными кадрами — не только по цвету и геометрии, но и по тем самым «отпечаткам». Иначе говоря, 3D-представление получает встроенную «память для поиска» соответствий. (В обычном 3DGS по умолчанию сохраняется лишь цвет — RGB.) 2. Оценка позы нового изображения (использование, в реальном времени). Для каждого входного кадра решается задача однокадровой абсолютной релокализации в заранее подготовленной 3DGS-карте (это не SLAM, который строит карту и трекает позу по видеопотоку). Процесс включает две подстадии: — грубая поза по сопоставлению 2D-ключевых точек с 3D-моделью с учётом «встроенных» дескрипторов (далее — стандартный расчёт положения камеры); — уточнение позы за счёт визуальной подстройки (фотометрической оптимизации): сравниваются расхождения между реальным снимком и синтезированным изображением, сгенерированным тем же 3DGS-представлением сцены. Такое разделение — подготовка один раз → использование многократно — обеспечивает работу в реальном времени и стабильную сантиметровую точность на практике. Уникальность метода В GSplatLoc добавили два ключевых решения: во-первых, дистилляция дескрипторов ключевых точек в параметры 3D-гауссиан на стадии построения представления сцены, а во-вторых, использование 3DGS как основы для быстрой визуальной оптимизации. В отличие от классических structure-based подходов (SIFT/ORB/SuperPoint + PnP/RANSAC), сильно зависящих от качества совпадений и текстуры сцены, и от нейросетевых регрессоров позы/координат сцены, хуже масштабируемых на большие уличные локации, GSplatLoc сочетает надёжное 2D–3D сопоставление с фотометрическим уточнением позы в реальном времени на «быстром» дифференцируемом рендерере 3DGS. Это дает несколько практических преимуществ:
Источник: https://tbank.ru/about/news/27102025-researchers-from-t-bank-ai-research-itmo-and-sber-h...
|
|


