Описание функциональных характеристик программного обеспечения «Sasha AI Audio»

Правообладатель: ООО «Полезный звонок» (ИНН 7806631117) Наименование ПО: Sasha AI Audio Назначение: программный сервис синтеза речи (преобразование текста в речь, Text-to-Speech) с программным интерфейсом (API) и веб-интерфейсом управления.


1. Назначение и область применения

Sasha AI Audio предназначено для автоматического преобразования текстовой информации в аудиоданные (синтез речи на русском языке). ПО применяется для:

  • озвучивания текстов и уведомлений в информационных системах;
  • голосовых ответов в системах телефонии и контакт-центрах;
  • создания аудиоконтента (озвучка статей, рассылок, обучающих материалов);
  • интеграции синтеза речи в сторонние приложения через REST API.

2. Класс ПО

Программное обеспечение относится к классам: «Серверное и связующее ПО» / «Средства искусственного интеллекта» — системы синтеза речи (раздел классификатора, соответствующий технологиям обработки естественного языка и синтеза речи).

3. Функциональные характеристики

3.1. Синтез речи

  • Преобразование произвольного текста (до 5000 символов на запрос) в аудио.
  • Поддержка двух взаимозаменяемых движков синтеза:
    • Silero TTS — встроенный движок, исполняемый локально на серверах правообладателя/пользователя, работает автономно (без обращения к внешним сетевым сервисам);
    • Yandex SpeechKit — российский облачный сервис синтеза речи (используется опционально, по выбору пользователя).
  • Выбор голоса из каталога (мужские и женские голоса русского языка).
  • Регулировка скорости речи (0.5–2.0).
  • Поддержка разметки SSML.
  • Выходные форматы аудио: MP3, OGG Opus, WAV.

3.2. Программный интерфейс (API)

  • REST API для интеграции синтеза в сторонние системы.
  • Аутентификация по персональным API-ключам.
  • Методы: получение списка голосов, синтез речи, управление аккаунтом.
  • Машиночитаемая спецификация OpenAPI (Swagger).

3.3. Личный кабинет (веб-интерфейс)

  • Регистрация и аутентификация пользователей.
  • Интерактивный синтез речи с предпрослушиванием и скачиванием результата.
  • Создание и отзыв API-ключей.
  • Просмотр истории запросов синтеза.
  • Просмотр баланса, тарифа и расхода символов.

3.4. Кэширование

  • Результаты синтеза кэшируются по содержимому запроса.
  • Повторные идентичные запросы возвращаются из кэша и не расходуют баланс.

3.5. Биллинг и квоты

  • Учёт расхода в символах синтеза.
  • Тарифные планы с месячными лимитами.
  • Контроль остатка и автоматический сброс лимита по расчётному периоду.

3.6. Учёт и журналирование

  • Журнал запросов синтеза (движок, голос, объём, статус, источник).
  • Агрегированная статистика расхода по дням.

4. Технологический стек

Компонент Технология
Backend API Node.js (TypeScript), NestJS
База данных PostgreSQL
Движок синтеза (свой) Silero TTS (Python, PyTorch), FastAPI
Веб-интерфейс Next.js (TypeScript, React)
Контейнеризация Docker, Docker Compose

Все компоненты являются свободным/открытым ПО либо собственной разработкой правообладателя. Перечень сторонних компонентов и их лицензий приведён в документе 03-storonnie-komponenty.md.

5. Сведения о независимости от иностранных сервисов

  • Основной движок синтеза (Silero TTS) исполняется локально и не требует обращения к каким-либо внешним сетевым сервисам; ПО сохраняет работоспособность в изолированном (офлайн) окружении.
  • Дополнительный движок (Yandex SpeechKit) является российским облачным сервисом и используется по выбору пользователя.
  • ПО не использует и не предоставляет доступ к иностранному ПО или сервисам, имеющим экспортные ограничения, а также к сервисам, доступ к которым ограничен на территории Российской Федерации.

6. Минимальные требования к окружению

  • ОС: Linux (поддерживаются российские дистрибутивы — Astra Linux, РЕД ОС и др.).
  • Docker и Docker Compose.
  • Не менее 4 ГБ ОЗУ (рекомендуется 8 ГБ) и 2 vCPU.
  • Не менее 5 ГБ свободного места (с учётом модели синтеза).
  • Графический ускоритель (GPU) не обязателен; синтез Silero работает на CPU.

7. Контакты по вопросам эксплуатации и настройки

По вопросам установки, настройки и эксплуатации ПО:

  • Александр Вологдин, технический директор (CTO)
  • Телефон: +7 999 648-07-18
  • Правообладатель: ООО «Полезный звонок»