Кейс: модуль транскрибации и суммаризации для «НаВстрече»

Кейс: модуль транскрибации и суммаризации для «НаВстрече»

Расскажем, как разработали для компании «Актру» ряд AI-модулей, которые расшифровывают аудио- и видеофайлы и суммаризируют текст за несколько минут.

Кто наш клиент?

Это сервис «НаВстрече», интеллектуальная платформа для записи и анализа онлайн-коммуникаций и офлайн-совещаний. 

Какую боль он захотел закрыть?

Представьте: середина рабочего дня, у вас было уже три онлайн-встречи, впереди ещё несколько. И вам нужно вспомнить какой-то важный факт, о котором говорили на первом созвоне. Чтобы найти нужные данные, приходится переслушивать запись — в среднем она длится час, если не больше. На такую, казалось бы, простую задачу уходит много времени.

Неоцифрованные звонки — враг для всех: от фрилансеров до компаний любого масштаба. Информация хранится бессистемно и быстро найти нужное невозможно. Платформа «НаВстрече», наш клиент, захотела закрыть эту боль целевой аудитории.

Какая стояла задача?

Разработать несколько AI-модулей, работающих и автономно, и комплексно, которые расшифровывают аудио- и видеофайлы и суммаризируют информацию оттуда.

Что мы сделали?

За год сотрудничества сделали целую экосистему для обработки контента.

Этап 1: Модуль записи и основа бэкенда

Разработали дополнение к серверной основе и реализовала первый модуль — захват звука с микрофона и его базовая обработка. Поскольку проект развивался итеративно, этот этап рассматривался как стартовая точка, не перегруженная лишним функционалом.

Этап 2: Транскрибация речи

Следующим шагом стал модуль перевода аудио в текст. Использовались готовые модели (в частности, Whisper), настроенные под задачи проекта. Учитывалась необходимость точной разбивки по временным меткам.

Этап 3: Суммаризация

Один из самых чувствительных компонентов — формирование саммари. Реализованы два варианта:

— коробочное решение — для клиентов с закрытым контуром (например, госструктур);

— облачное решение — с подключением мощных нейромоделей, обеспечивающих высокое качество суммаризации.

Этап 4: Браузерные боты

Разработан телеграм-бот, а также организована инфраструктура браузерного ВКС-бота, которого можно «приглашать» в онлайн-встречи. Уже реализована интеграция с Google Meet, Яндекс. Телемостом и Zoom.

Параллельно с разработкой внутренняя команда заказчика создавала графический интерфейс.

С какими трудностями столкнулись и как их решали

Главной технологической проблемой стал разрыв между ожиданиями по качеству суммаризации и реальными ресурсами в коробочной версии. Качественные языковые модели требуют высокопроизводительных GPU и большого объёма памяти — таких мощностей на старте проекта у заказчика не было.

Чтобы не откладывать запуск продукта, мы приняли решение временно сосредоточиться на облачном варианте: так мы быстро развернули стабильную версию сервиса с высоким качеством саммари. Параллельно архитектура коробочного решения была сохранена и отложена до момента, когда появятся доступные ресурсы. Сейчас эта версия дорабатывается и тестируется на новых аппаратных платформах с учётом оптимизаций под TensorRT.

Второй значимый вызов касался организации процессов. Изначально работа строилась как классическая схема «подрядчик-заказчик» с отдельными задачами. Но уже на раннем этапе стало понятно, что продукт требует гибкой и быстрой доработки, часто без формализованных ТЗ. Решением стал переход на совместный бэклог и единый цикл планирования: команды синхронизировали спринты, приоритизировали задачи вместе и стали работать как одна продуктовая команда. Это позволило быстрее реагировать на изменения и не терять время на длинные итерации согласования.

Результат

Совместными усилиями «НаВстрече» и «Иневилс» достигли таких результатов:

— Платформа, которая умеет: записывать и транскрибировать встречи, делать саммари, протоколы и другие отчеты, анализировать и формировать рекомендации пользователям;

— Архитектура, готовая к коробочной и облачной эксплуатации;

— Встроенная интеграция с видеосервисами;

— Подключаемые боты;

— Возможность масштабирования под госструктуры и корпоративный сектор.

Система была создана не только усилиями «Иневилс», но именно благодаря их работе получила важные модули, включая основной модуль транскрибации. В планах компаний — дальнейшее равзвитие системы.

Сейчас мы продолжаем оказывать техническую поддержку сервиса — например, оптимизируем AI-модули, когда меняется версия нейросети. Также регулярно дорабатываем качество и скорость распознавания.

Review Success Project