Разметка аудио представляет собой сложную задачу, требующую понимания контекста и содержания речи. Основные задачи включают в себя:
Транскрибацию речи — расшифровка аудио в текстовый формат, что позволяет алгоритмам машинного обучения понимать смысл произнесенного.
Классификацию тональности — выявление эмоциональной окраски речи, что полезно в задачах, где необходимо оценивать эмоциональное состояние говорящего.
Выделение ключевых фраз — выделение важных моментов, таких как события, имена, места и другие ключевые элементы в речи.