Інженери Facebook представили нову модель, яка може визначити до п'яти різних голосів, потім перевести їх в текст або розділити на різні доріжки.
Штучний інтелект (ШІ) компанії Facebook навчили визначати до п'ять різних голосів в одній розмові, переводити їх в текст або розділити на п'ять різних доріжок. Команда стверджує, що новий метод перевершує всі аналоги за якістю і швидкістю поділу джерел мови, придушення шуму і реверберації.
Facebook використовувала нову рекуррентную нейронну мережу для створення нового класу алгоритмів, що використовують внутрішній стан, схожий на пам'ять, для обробки послідовностей входів змінних. При цьому модель може автоматично визначити тих, хто говорить і вибрати мовну модель.
Поділ мови є найважливішим кроком на шляху до поліпшення комунікації в різних додатках - за допомогою голосових повідомлень або потокового аудіо. Крім того, методи поділу мови, запропоновані дослідниками, можна застосувати для придушення фонового шуму, наприклад, під час запису музичних інструментів.