Описание функциональных характеристик программного обеспечения «Sasha AI Audio»
Правообладатель: ООО «Полезный звонок» (ИНН 7806631117) Наименование ПО: Sasha AI Audio Назначение: программный сервис синтеза речи (преобразование текста в речь, Text-to-Speech) с программным интерфейсом (API) и веб-интерфейсом управления.
1. Назначение и область применения
Sasha AI Audio предназначено для автоматического преобразования текстовой информации в аудиоданные (синтез речи на русском языке). ПО применяется для:
- озвучивания текстов и уведомлений в информационных системах;
- голосовых ответов в системах телефонии и контакт-центрах;
- создания аудиоконтента (озвучка статей, рассылок, обучающих материалов);
- интеграции синтеза речи в сторонние приложения через REST API.
2. Класс ПО
Программное обеспечение относится к классам: «Серверное и связующее ПО» / «Средства искусственного интеллекта» — системы синтеза речи (раздел классификатора, соответствующий технологиям обработки естественного языка и синтеза речи).
3. Функциональные характеристики
3.1. Синтез речи
- Преобразование произвольного текста (до 5000 символов на запрос) в аудио.
- Поддержка двух взаимозаменяемых движков синтеза:
- Silero TTS — встроенный движок, исполняемый локально на серверах правообладателя/пользователя, работает автономно (без обращения к внешним сетевым сервисам);
- Yandex SpeechKit — российский облачный сервис синтеза речи (используется опционально, по выбору пользователя).
- Выбор голоса из каталога (мужские и женские голоса русского языка).
- Регулировка скорости речи (0.5–2.0).
- Поддержка разметки SSML.
- Выходные форматы аудио: MP3, OGG Opus, WAV.
3.2. Программный интерфейс (API)
- REST API для интеграции синтеза в сторонние системы.
- Аутентификация по персональным API-ключам.
- Методы: получение списка голосов, синтез речи, управление аккаунтом.
- Машиночитаемая спецификация OpenAPI (Swagger).
3.3. Личный кабинет (веб-интерфейс)
- Регистрация и аутентификация пользователей.
- Интерактивный синтез речи с предпрослушиванием и скачиванием результата.
- Создание и отзыв API-ключей.
- Просмотр истории запросов синтеза.
- Просмотр баланса, тарифа и расхода символов.
3.4. Кэширование
- Результаты синтеза кэшируются по содержимому запроса.
- Повторные идентичные запросы возвращаются из кэша и не расходуют баланс.
3.5. Биллинг и квоты
- Учёт расхода в символах синтеза.
- Тарифные планы с месячными лимитами.
- Контроль остатка и автоматический сброс лимита по расчётному периоду.
3.6. Учёт и журналирование
- Журнал запросов синтеза (движок, голос, объём, статус, источник).
- Агрегированная статистика расхода по дням.
4. Технологический стек
| Компонент | Технология |
|---|---|
| Backend API | Node.js (TypeScript), NestJS |
| База данных | PostgreSQL |
| Движок синтеза (свой) | Silero TTS (Python, PyTorch), FastAPI |
| Веб-интерфейс | Next.js (TypeScript, React) |
| Контейнеризация | Docker, Docker Compose |
Все компоненты являются свободным/открытым ПО либо собственной разработкой
правообладателя. Перечень сторонних компонентов и их лицензий приведён в
документе 03-storonnie-komponenty.md.
5. Сведения о независимости от иностранных сервисов
- Основной движок синтеза (Silero TTS) исполняется локально и не требует обращения к каким-либо внешним сетевым сервисам; ПО сохраняет работоспособность в изолированном (офлайн) окружении.
- Дополнительный движок (Yandex SpeechKit) является российским облачным сервисом и используется по выбору пользователя.
- ПО не использует и не предоставляет доступ к иностранному ПО или сервисам, имеющим экспортные ограничения, а также к сервисам, доступ к которым ограничен на территории Российской Федерации.
6. Минимальные требования к окружению
- ОС: Linux (поддерживаются российские дистрибутивы — Astra Linux, РЕД ОС и др.).
- Docker и Docker Compose.
- Не менее 4 ГБ ОЗУ (рекомендуется 8 ГБ) и 2 vCPU.
- Не менее 5 ГБ свободного места (с учётом модели синтеза).
- Графический ускоритель (GPU) не обязателен; синтез Silero работает на CPU.
7. Контакты по вопросам эксплуатации и настройки
По вопросам установки, настройки и эксплуатации ПО:
- Александр Вологдин, технический директор (CTO)
- Телефон: +7 999 648-07-18
- Правообладатель: ООО «Полезный звонок»