Zestaw danych głosowych i dźwiękowych to nasz cel etykietowania.

Analiza dźwięku
W jej przebiegu wydobywamy informacje z sygnałów dźwiękowych, aby je przeanalizować, sklasyfikować, porównać i przechować.
Analiza głosu
W tym przypadku analizujemy dźwięki mowy. Służy ona między innymi do identyfikacji czy rozpoznawania mowy, gdzie znajduje zastosowanie sztuczna sieć neuronowa. Znajduje szerokie zastosowanie w analizie medycznej i weryfikowaniu rozmówcy.
Transkrypcja
Polega na przetworzeniu ludzkiej mowy na tekst. Stała się dostępna dzięki rozpoznawaniu mowy.
Transkrypcja korekcyjna
Jest to konwersja mowy ludzkiej na tekst z zastosowaniem korekcji. Sprawdzane jest i ewentualnie korygowane każde słowo.
Tłumaczenie i lokalizacja
W tłumaczeniu przekształcamy słowa języka źródłowego na tekst, a następnie tekst przekładamy na inny docelowy język. Lokalizacja zaś dopasowuje tłumaczone słowa na konkretny region, dostosowując znaczenie do specyfiki kulturowej. Czyni to tłumaczone słowa bardziej zrozumiałe i łatwo przyswajalne dla odbiorcy, przykładem tego są różnice w tłumaczeniu na język angielski – Wielka Brytania i Stany Zjednoczone.

Analiza dźwięku