В ходе VII форума «Франкенштейн на кибербанке: ИИ и технологии будущего в финансовом секторе» Богдан Гарбар, CPO и руководитель Центра платформенных ИИ-решений ОТП Банка, презентовал инженерную методику расчета вычислительных мощностей для сервисов на базе генеративного искусственного интеллекта.
Планирование вычислительных ресурсов остается одной из ключевых задач при внедрении генеративного ИИ. До сих пор большинство компаний принимали решения на основе экспертных оценок, приблизительных ориентиров и данных из непрозрачных источников, что затрудняло точное бюджетирование и повышало инвестиционные риски. Избыточные закупки приводили к замораживанию капитала в быстро устаревающем оборудовании, а недостаток мощностей вызывал сбои в работе сервисов, снижение скорости и недовольство клиентов.
«Когда мы начинали внедрять генеративный ИИ, столкнулись с классической дилеммой: заложить слишком много ресурсов — заморозить капитальные затраты, заложить слишком мало — потерять клиентов из-за неработающего сервиса. Существующие калькуляторы и бенчмарки оказались непрозрачными, и мы решили разобраться, как все работает на атомарном уровне», — отметил Богдан Гарбар.
Разработка ОТП Банка позволяет перейти от интуитивных предположений к обоснованным расчетам капитальных затрат на GPU-серверы — самый дорогостоящий компонент инфраструктуры для больших языковых моделей.
«Мы создали не просто калькулятор, а инструмент для принятия решений: на какой инфраструктуре строить решение, в каком объеме закупать оборудование и как эффективно распределять вычислительные ресурсы между задачами. Модель связывает ожидаемую нагрузку и требования к качеству сервиса с ключевыми финансовыми показателями проекта — капитальными затратами (CapEx), совокупной стоимостью владения (TCO) и возвратом инвестиций (ROI). В отличие от типовых подходов, она рассчитывает необходимый объем графических процессоров (GPU) на основе реальных бизнес-параметров и ряда технических факторов, которые напрямую влияют на потребность в вычислительных мощностях: объема памяти для одной пользовательской сессии, применения оптимизаций, включая квантование моделей, а также использования специализированных техник обработки запросов, позволяющих снизить нагрузку без потери качества сервиса. Это дает возможность определить минимально необходимый объем оборудования, достаточный для выполнения целевых SLA при оптимальных затратах», — подчеркнул Богдан Гарбар.
- 28 мая ОТП Банк признан «Проектом года» IV премии Сравни за интеграцию кредитов, займов и карт на платформе
- Директор по ИИ ОТП Банка Маркосьянц на AI Future Forum: без открытия данных для ИИ-агентов банки станут «витриной за стеклом»
- Сервис полностью встроен в систему ДБО: подать уведомление и отслеживать налоги теперь можно в онлайн-кабинете
