Разметка данных для обучения нейросети

Что дает разметка данных для обучения нейросети: классы, инструкции, спорные случаи, контроль качества и передаваемый датасет.

Нейросеть учится на примерах. Если в данных не указано, что именно нужно находить, отличать или предсказывать, модель будет искать закономерности сама и может выучить не тот признак. Разметка данных превращает сырые изображения, тексты, аудио или записи событий в обучающий материал: каждому примеру задается смысл, который модель должна освоить.

Для бизнеса разметка важна не как отдельная ручная операция, а как этап разработки ИИ-решения. От нее зависит, сможет ли модель находить дефект на линии, классифицировать обращение клиента, выделять нужную фразу в звонке, распознавать комплектность изделия или отличать нормальный режим оборудования от отклонения. Ошибка в разметке часто возвращается позже в виде ошибки модели.

Начать с задачи

Разметку нельзя начинать с инструмента. Сначала нужно определить, какое решение должна принимать модель. Она должна отличать годное изделие от брака, находить область дефекта, распознавать тип нарушения, выделять объект на изображении, классифицировать текст, искать риск в звонке или прогнозировать состояние оборудования. От ответа зависит весь датасет.

Например, для контроля дефектов можно размечать изображение целиком как годное или дефектное. Можно выделять рамкой область дефекта. Можно точно обводить контур. Можно указывать тип дефекта, степень критичности и зону изделия. Каждая схема дает модели разные данные и подходит для разных решений в эксплуатации.

Поэтому статья про подготовку данных для обучения нейросети является предшествующим этапом: сначала нужно собрать и очистить данные, понять их состав и ограничения, затем выбирать схему разметки.

Выбрать схему

Схема разметки описывает, какие метки ставятся и что они означают. В компьютерном зрении это может быть класс изображения, рамка вокруг объекта, контур дефекта, ключевые точки, зона интереса или комбинация признаков. В текстах это могут быть категории обращений, сущности, намерения, тональность, факты или риски. В аудио, фрагменты речи, участники диалога, паузы, нарушения скрипта и важные события.

Чем точнее схема соответствует задаче, тем полезнее модель. Если для производства важен сам факт брака, классификации может быть достаточно. Если оператору нужно увидеть место дефекта, нужны координаты. Если изделие отправляется на разные маршруты в зависимости от типа ошибки, нужны классы. Если важна геометрия дефекта, потребуется более точная разметка.

Лишняя детализация тоже вредна. Если модель должна принимать простое решение, чрезмерно сложная схема увеличит стоимость и срок разметки, но не даст дополнительной пользы. Хорошая схема балансирует управленческую задачу, качество данных, сложность разметки и требования к модели.

Описать правила

Инструкция разметки нужна для того, чтобы разные люди размечали один и тот же пример одинаково. В ней фиксируются классы, определения, примеры, границы, спорные случаи, порядок действий и запреты. Если инструкция расплывчатая, разметчики начинают принимать решения по-своему, а датасет становится противоречивым.

Для промышленного дефекта важно указать, где проходит граница дефекта, какие пятна считаются нормой, что делать с бликами, загрязнениями, частично видимыми объектами, разными партиями материала и смазанными кадрами. Для анализа звонков важно определить, что считать возражением, риском, нарушением скрипта, обещанием менеджера или запросом клиента.

Инструкция должна меняться по мере появления новых примеров. На первых сотнях данных почти всегда находятся ситуации, которые не были описаны заранее. Их нужно не решать каждый раз заново, а добавлять в правила разметки и помечать как отдельный тип спорного случая.

Собрать примеры

Качественная разметка невозможна без представительной выборки. Если в датасете есть только идеальные изображения, модель плохо работает на реальной линии. Если в выборке мало редких дефектов, модель может их пропускать. Если данные собраны в одном освещении, другая смена или партия материала может резко снизить качество.

Для производственных задач в выборке нужны разные партии, режимы, смены, варианты изделия, допустимые отклонения, загрязнения, шумы, спорные случаи, примеры до и после переналадки. Для речевой аналитики нужны разные менеджеры, клиенты, длительности звонков, темы, сценарии, качество записи и типы диалогов.

В проектах обучения нейросетей разметка и сбор данных идут рядом. Иногда после первой проверки модели становится понятно, каких примеров не хватает. Тогда датасет расширяется, инструкция уточняется, а модель обучается заново или дообучается.

Проверять качество

Качество разметки нельзя оценивать только по количеству размеченных примеров. Важны согласованность, точность, полнота, отсутствие дублей, понятные правила спорных случаев и связь метки с задачей модели. Если один дефект разные разметчики называют разными классами, модель получит противоречивый сигнал.

Контроль качества разметки может включать повторную проверку части примеров, сравнение решений нескольких разметчиков, экспертную валидацию, поиск аномальных меток, проверку баланса классов и тестовое обучение модели. Если после обучения модель ошибается на понятных примерах, нужно смотреть архитектуру модели и датасет.

Для промышленных задач полезно отдельно проверять ложные срабатывания и пропуски. Ложная тревога остановит линию или отправит годное изделие на повторный контроль. Пропуск дефекта даст брак дальше по маршруту. Разметка должна учитывать оба риска, потому что бизнес-цена этих ошибок может быть разной.

Формат датасета

Размеченный датасет должен быть передаваемым и воспроизводимым. В нем нужны исходные данные, метки, структура классов, инструкция разметки, версии, сведения об исключенных примерах, формат файлов и описание разделения на обучение, проверку и тест. Тогда с датасетом можно работать дальше, а не держать его только внутри одного инструмента.

Для изображений формат может включать файлы, координаты рамок, маски сегментации, классы и метаданные. Для текстов, исходные фрагменты, сущности, категории и признаки. Для аудио, записи, расшифровки, временные интервалы, участники и метки событий. Важно, чтобы формат соответствовал выбранной модели и дальнейшему внедрению.

Компания, которая заказывает разработку ИИ-решения, получает ценность в виде обученной модели, размеченного датасета, правил и версий. Эти материалы становятся основой для дальнейшего улучшения, дообучения и проверки качества. Это особенно важно, если решение должно развиваться после первого запуска.

Спорные случаи

Спорные случаи не нужно прятать. Они показывают границы задачи. Например, дефект почти не виден, объект перекрыт, запись звонка шумная, клиент говорит намеком, изделие находится между двумя допустимыми состояниями. Если такие случаи встречаются в реальности, для них нужны правила обработки.

Иногда спорный пример лучше исключить из обучения и оставить для экспертного анализа. Иногда ему нужен отдельный класс. Иногда требуется собрать больше похожих данных. Иногда бизнес должен решить, как действовать при сомнении: отправлять изделие на проверку, показывать предупреждение оператору, просить менеджера подтвердить смысл или сохранять низкую уверенность модели.

В статьях про контроль сборки изделия и визуальные датчики такие случаи встречаются постоянно: допустимое смещение, тень, блик, частично закрытая деталь, вариант комплектации. Качество разметки определяет, будет ли модель устойчивой к таким ситуациям.

Связь с внедрением

Разметка должна учитывать, как модель будет работать после обучения. Если модель будет запускаться на производственной линии, нужны реальные кадры с этой линии, ее освещением, скоростью, вибрацией и положением изделия. Если модель будет анализировать звонки, нужны реальные записи с телефонии, шумами, перебиваниями и разными сценариями общения.

Также нужно заранее понять, какой результат должна выдавать модель: класс, координаты, вероятность, текстовый вывод, статус, событие качества, предупреждение оператору, подсказку менеджеру или сигнал в другую систему. Разметка должна готовить модель именно к этому результату.

Страница ИИ-решений описывает общий подход: искусственный интеллект должен быть связан с процессом клиента. Разметка данных является частью этой связки, потому что она переводит бизнес-задачу на язык примеров, по которым модель учится.

С чего начать

Начинать стоит с короткого описания задачи и доступных данных. Что модель должна находить, какие решения она будет поддерживать, какие данные уже есть, какие нужно собрать, где возникают спорные случаи, кто может подтвердить правильную метку и какой формат результата нужен после обучения.

Дальше готовится пилотная схема разметки: несколько классов, инструкция, примеры, контроль качества и небольшой набор данных для первой проверки. После тестового обучения становится видно, где классы слишком широкие, где примеров мало, где разметка противоречит задаче и какие данные нужно дособрать.

Если у компании уже есть изображения, записи, тексты или производственные данные для ИИ-проекта, стоит начать с оценки их пригодности и схемы разметки. Такой разбор показывает, сколько данных реально можно использовать, какие метки нужны модели и какой датасет должен быть передан вместе с обученной нейросетью.