Расскажем, как разработали для компании «Актру» ряд AI-модулей, которые расшифровывают аудио- и видеофайлы и суммаризируют текст за несколько минут.
Кто наш клиент?
Это сервис «НаВстрече», интеллектуальная платформа для записи и анализа онлайн-коммуникаций и офлайн-совещаний.
Какую боль он захотел закрыть?
Представьте: середина рабочего дня, у вас было уже три онлайн-встречи, впереди ещё несколько. И вам нужно вспомнить какой-то важный факт, о котором говорили на первом созвоне. Чтобы найти нужные данные, приходится переслушивать запись — в среднем она длится час, если не больше. На такую, казалось бы, простую задачу уходит много времени.
Неоцифрованные звонки — враг для всех: от фрилансеров до компаний любого масштаба. Информация хранится бессистемно и быстро найти нужное невозможно. Платформа «НаВстрече», наш клиент, захотела закрыть эту боль целевой аудитории.
Какая стояла задача?
Разработать несколько AI-модулей, работающих и автономно, и комплексно, которые расшифровывают аудио- и видеофайлы и суммаризируют информацию оттуда.
Что мы сделали?
За год сотрудничества сделали целую экосистему для обработки контента.
Этап 1: Модуль записи и основа бэкенда
Разработали дополнение к серверной основе и реализовала первый модуль — захват звука с микрофона и его базовая обработка. Поскольку проект развивался итеративно, этот этап рассматривался как стартовая точка, не перегруженная лишним функционалом.
Этап 2: Транскрибация речи
Следующим шагом стал модуль перевода аудио в текст. Использовались готовые модели (в частности, Whisper), настроенные под задачи проекта. Учитывалась необходимость точной разбивки по временным меткам.
Этап 3: Суммаризация
Один из самых чувствительных компонентов — формирование саммари. Реализованы два варианта:
— коробочное решение — для клиентов с закрытым контуром (например, госструктур);
— облачное решение — с подключением мощных нейромоделей, обеспечивающих высокое качество суммаризации.
Этап 4: Браузерные боты
Разработан телеграм-бот, а также организована инфраструктура браузерного ВКС-бота, которого можно «приглашать» в онлайн-встречи. Уже реализована интеграция с Google Meet, Яндекс. Телемостом и Zoom.
Параллельно с разработкой внутренняя команда заказчика создавала графический интерфейс.
С какими трудностями столкнулись и как их решали
Главной технологической проблемой стал разрыв между ожиданиями по качеству суммаризации и реальными ресурсами в коробочной версии. Качественные языковые модели требуют высокопроизводительных GPU и большого объёма памяти — таких мощностей на старте проекта у заказчика не было.
Чтобы не откладывать запуск продукта, мы приняли решение временно сосредоточиться на облачном варианте: так мы быстро развернули стабильную версию сервиса с высоким качеством саммари. Параллельно архитектура коробочного решения была сохранена и отложена до момента, когда появятся доступные ресурсы. Сейчас эта версия дорабатывается и тестируется на новых аппаратных платформах с учётом оптимизаций под TensorRT.
Второй значимый вызов касался организации процессов. Изначально работа строилась как классическая схема «подрядчик-заказчик» с отдельными задачами. Но уже на раннем этапе стало понятно, что продукт требует гибкой и быстрой доработки, часто без формализованных ТЗ. Решением стал переход на совместный бэклог и единый цикл планирования: команды синхронизировали спринты, приоритизировали задачи вместе и стали работать как одна продуктовая команда. Это позволило быстрее реагировать на изменения и не терять время на длинные итерации согласования.
Результат
Совместными усилиями «НаВстрече» и «Иневилс» достигли таких результатов:
— Платформа, которая умеет: записывать и транскрибировать встречи, делать саммари, протоколы и другие отчеты, анализировать и формировать рекомендации пользователям;
— Архитектура, готовая к коробочной и облачной эксплуатации;
— Встроенная интеграция с видеосервисами;
— Подключаемые боты;
— Возможность масштабирования под госструктуры и корпоративный сектор.
Система была создана не только усилиями «Иневилс», но именно благодаря их работе получила важные модули, включая основной модуль транскрибации. В планах компаний — дальнейшее равзвитие системы.
Сейчас мы продолжаем оказывать техническую поддержку сервиса — например, оптимизируем AI-модули, когда меняется версия нейросети. Также регулярно дорабатываем качество и скорость распознавания.