Модель GigaEmbeddings открывает бизнесу новые возможности для AI-обработки текстов

04.08.2025 / Сбербанк

Исследователи Сбера научили искусственный интеллект глубоко понимать русский язык, что открывает новые возможности в области умного поиска и совершенствовании чат-ботов. Научная статья под названием «GigaEmbeddings — эффективная модель векторных представлений для русского языка» (GigaEmbeddings — Efficient Russian Language Embedding Model) была представлена на престижной конференции ACL 2025. В ней описана интонационная модель обработки текстов.

Модель GigaEmbeddings на основе языковой модели GigaChat-3B использует трёхэтапный процесс обучения, в который входит предварительное обучение, точная настройка и мультизадачное обучение. Благодаря оптимизации архитектуры параметры удалось сократить на 25% без потери качества. Модель доступна на GitVerse и HuggingFace.

До сих пор бизнесу не хватало качественных инструментов для работы с русским языком. Существующие решения либо требовали огромных вычислительных ресурсов, либо плохо справлялись с задачами поиска, классификации и кластеризации текстов. GigaEmbeddings помогает решать эти проблемы.

Модель оптимальна для решения таких задач, как умный поиск в e-commerce (например, точное понимание запросов на маркетплейсах), создание чат-ботов с расширенными возможностями (RAG-системы), анализ обращений клиентов в банках и финтехе, генерация персонализированных рекомендаций в медиа и ретейле.

Фёдор Минькин, технический директор GigaChat Сбербанка:

Сегодня мы закрываем критически важную потребность рынка в качественных NLP-решениях для русского языка. Наша комплексная платформа позволяет бизнесу радикально оптимизировать все процессы работы с текстами — от базового поиска и рекомендательных алгоритмов до передовых RAG-систем в чат-ботах. Особую ценность представляет глубокая языковая адаптация — то, чего годами не хватало российскому рынку. Компании наконец-то получают единое решение — им больше не нужно собирать функционал по частям из зарубежных продуктов. Мы ожидаем, что GigaEmbeddings станет новым отраслевым стандартом, особенно для финансового сектора, ретейла и госуслуг, где точность обработки русскоязычного контента напрямую влияет на бизнес-результат.