Inżynierowie Facebooka wprowadzili nowy model, który może zidentyfikować do pięciu różnych głosów, a następnie przetłumaczyć je na tekst lub podzielić na różne utwory.
Sztuczna inteligencja Facebooka nauczyła Cię, jak rozpoznać do pięciu różnych głosów w jednej rozmowie, przetłumaczyć je na tekst lub podzielić na pięć różnych ścieżek. Zespół twierdzi, że nowa metoda przewyższa wszystkie analogi pod względem jakości i szybkości separacji źródeł mowy, redukcji szumów i pogłosu.
Facebook wykorzystał nową rekurencyjną sieć neuronową do stworzenia nowej klasy algorytmów wykorzystujących stan wewnętrzny podobny do pamięci do przetwarzania sekwencji zmiennych wejściowych. W takim przypadku model może automatycznie zidentyfikować głośniki i wybrać model mowy.
Separacja mowy jest kluczowym krokiem w kierunku poprawy komunikacji w różnych aplikacjach - przy użyciu wiadomości głosowych lub strumieniowego przesyłania dźwięku. Ponadto zaproponowane przez naukowców metody separacji mowy można wykorzystać do tłumienia szumu tła, na przykład podczas nagrywania instrumentów muzycznych.