Инженеры Facebook представили новую модель, которая может определить до пяти разных голосов, затем перевести их в текст или разделить на разные дорожки.
Искусственный интеллект (ИИ) компании Facebook научили определять до пять разных голосов в одном разговоре, переводить их в текст или разделить на пять разных дорожек. Команда утверждает, что новый метод превосходит все аналоги по качеству и быстроте разделения источников речи, подавлению шума и реверберации.
Facebook использовала новую рекуррентную нейронную сеть для создания нового класса алгоритмов, использующих внутреннее состояние, похожее на память, для обработки последовательностей входов переменных. При этом модель может автоматически определить говорящих и выбрать речевую модель.
Разделение речи является важнейшим шагом на пути к улучшению коммуникации в различных приложениях — при помощи голосовых сообщений или потокового аудио. Кроме того, методы разделения речи, предложенные исследователями, можно применить для подавления фонового шума, например, при записи музыкальных инструментов.