Для обучения искусственного интеллекта нужны большие массивы данных. Термин Big Data стал очень модным и прочно ассоциируется с технологическим фронтиром XXI века, а фразой о том, что данные — это новая нефть, уже никого не удивишь.
Как результат, многие компании убеждены, что чем больше у них данных, тем большую ценность из них можно извлечь. Однако тот факт, что для получения хорошего экономического эффекта данные нужно собрать, разметить и обработать, — обычно остается в тени.
Потребность в аннотировании данных растет по причине роста популярности машинного обучения. Это неудивительно, поскольку только люди способны создать эталонную разметку, которая необходима для обучения ML-модели.
И если в некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, то в других критичность наличия погрешностей в большом датасете крайне велика.
Стоит ли уточнять, что к таковым областям относится аннотирование данных для беспилотных автомобилей, где всегда много входящих переменных, постоянному учету которых нужно обучить ML модель, и где любой сбой чреват транспортными происшествиями, а то и человеческими жертвами.
Принцип «мусор на входе, мусор на выходе» стоит воспринимать со всей серьезностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на ML-модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения