Разметка данных для ИИ в предиктивной аналитике: особенности и подходы | Ершов Андрей Николаевич

Особенности разметки данных для использования инструментов искусственного интеллекта в предиктивной аналитике

Введение

Предиктивная аналитика — это область применения инструментов искусственного интеллекта (ИИ), основной задачей которой является выдача рекомендаций о необходимости проведения ремонта и обслуживания промышленного и другого оборудования.

В предиктивной аналитике существуют различные подходы к определению дефектов. Некоторые из них сразу определяют и показывают, где возник дефект в оборудовании, другие указывают на вероятное место расположения проблемы и предположительное время до наступления негативного события. Иногда различия в подходах требуют различные инструменты, которые требуются при разметке данных.

Предиктивная аналитика может быть разработана и на основе классических математических методов, но применение машинного обучения способно повысить точность прогнозных моделей. Однако для того, чтобы алгоритмы машинного обучения могли эффективно работать, требуются как качественная разметка данных, так и период накопления данных, на основе которого будут строиться прогнозные модели.

В данной статье будет рассмотрен процесс разметки данных для ИИ, особенности работы с ними в контексте производственных площадок, а также роль инженеров и программистов в этом процессе.

Справка об эксперте

Ершов Андрей Николаевич

    Ершов Андрей Николаевич

  • Руководитель Центра предиктивного анализа и искусственного интеллекта ООО «Объединенная сервисная компания» группа ПАО «ММК»
  • Кандидат экономических наук.
  • Эксперт рабочей группы по формированию правовых основ и принципов регулирования правоотношений, связанных с процессами управления промышленными данными в Российской Федерации.
  • Член рабочей группы «Искусственный интеллект в промышленности» при Министерстве промышленности Российской Федерации (ТК 164).
  • Член рабочей группы по внедрению системы дистанционного контроля (надзора) промышленной безопасности опасных производственных объектах (Ростехнадзор РФ).

Процесс разметки данных для ИИ

Разметка данных — это процесс присвоения каждому элементу набора данных определенных меток или категорий, которые затем применяются при обучении моделей ИИ. Разметка может включать в себя классификацию изображений, текстов или сигналов, выделение объектов на изображениях, аннотирование видео и аудиозаписей, а также другие формы маркировки данных. Процесс разметки включает в себя следующие ключевые этапы:

  • Сбор данных. На начальном этапе происходит сбор данных из различных источников, таких как сенсоры (модули мониторинга), камеры, текстовые файлы, интернет, различные системы и архивы данных. Данные могут быть структурированными (например, таблицы с четко определенными значениями) или неструктурированными (изображения, тексты, аудио и видеофайлы, сохраненные без определенной закономерности);
  • Очистка данных. Прежде чем начать разметку, данные должны быть очищены от неточностей, пробелов, дубликатов, прочерков, неверного формата данных и других неточностей. Это помогает минимизировать неправильные предсказания и повысить точность модели ИИ;
  • Выбор метода разметки. В зависимости от задачи используется различный подход к разметке данных. Например, для задачи классификации изображения разметка может заключаться в присвоении меток каждому изображению. Для задачи анализа текстов – в аннотировании ключевых слов и предложений;
  • Разметка данных. На этом этапе осуществляется непосредственно разметка данных. Она может быть выполнена вручную или с использованием полуавтоматических методов. Важным аспектом является привлечение к этому процессу специалистов, обладающих экспертизой в конкретной области, так как точность разметки напрямую влияет на успех обучения модели ИИ;
  • Валидация разметки. После разметки данных требуется их проверка на соответствие стандартам качества. Это включает проверку правильности каждой метки и оценку согласованности разметки между разными специалистами (если к разметке одновременно привлекается несколько специалистов).

Важность качества исходных данных для разметки

Качество исходных данных – это фундаментальный аспект успешной работы любой модели ИИ. Плохое качество данных неизбежно приведет к ошибкам на этапе обучения и, как следствие, к недостоверным прогнозам. Существует несколько ключевых факторов, влияющих на качество данных:

  • Точность данных. Поступающая информация должна быть точной, актуальной и репрезентативной для решаемой задачи. Даже небольшие ошибки или пропуски в данных могут существенно снизить точность предсказаний модели;
  • Полнота данных. Неполные данные могут привести к неправильной интерпретации событий, а это, в свою очередь, скажется на точности модели. Важно, чтобы все необходимые данные были доступны и корректно обработаны;
  • Релевантность данных. Информация обязана соответствовать поставленной задаче. Также требуется четко понимать, как информация получена и в чем специфика применяемой модели ИИ. Например, при прогнозировании технического состояния оборудования важно учитывать данные с конкретных сенсоров и их характеристики;
  • Шум и аномалии. Наличие шума и аномальных данных может сбивать с толку модель, особенно на этапе обучения. Необходимо тщательно фильтровать данные и удалять или корректировать аномалии перед началом разметки.

Только при соблюдении этих условий можно ожидать достаточно высоких результатов от предсказательных моделей ИИ.

Разметка данных для ИИ в предиктивной аналитике

Предиктивная аналитика использует большое количество данных при создании моделей, которые предсказывают вероятные события на основе исторической информации об оборудовании, а также на основе информации, собираемой с модулей мониторинга (датчиков), расположенных на оборудовании. Процесс разметки данных в предиктивной аналитике имеет свои особенности, и их необходимо учитывать.

Специфика данных.

Для предиктивной аналитики часто применяются данные, собираемые с различных датчиков и устройств, а также журналов выхода оборудования из строя, что требует особого подхода к их интерпретации и разметке. К примеру, на производстве применяются данные с сенсоров, установленных на производственном оборудовании, которые могут предоставлять огромные массивы информации о температуре, давлении, вибрации и других параметрах оборудования. Инженеры, занимающиеся разметкой таких данных, должны обладать глубокими знаниями о специфике этих устройств и правильно интерпретировать поступающие сигналы. Например, резкое изменение показаний вибрации «вверх» может свидетельствовать о возможной неисправности, а может свидетельствовать о появлении механического воздействия и замер необходимо исключить.

Кроме того, необходимо сопоставлять данные. Зачастую на предприятиях уже существуют значительные объемы данных по различным параметрам, но их анализ в отдельности ничего не даст. Только при наложении данных друг на друга, сохраняя временные метки и метки качества, можно найти зависимости. Примером может служить соотнесение информации из журналов ремонтов с показателями повышения вибрации, температуры, давления и т.д. Наложение данных друг на друга позволяет сформировать так называемые уставки для модели с целью заблаговременного определения трендов развития дефектов в аналогичных случаях.

Роль инженеров в разметке данных.

Часто возникает вопрос относительно того, кто же отвечает за разметку данных: программисты или инженеры? Зачастую на практике разметку данных для предиктивной аналитики выполняют именно инженеры, а не программисты. Программисты, в свою очередь, занимаются обработкой данных и разработкой моделей на основе этих данных. Разделение ролей крайне важно, так как успешная разметка данных, а соответственно и точность модели, зависит от компетенции инженеров в их конкретной области.

Инженеры должны быть в курсе, какие датчики установлены на оборудовании и какую информацию они собирают, как интерпретировать данные, поступающие с датчиков (какие отклонения в показаниях могут быть сигналом о неполадках, а какие допустимыми вариациями), какие особенности работы оборудования существуют, а главное, понимать возможные причины сбоев, а также учитывать условия эксплуатации и сезонность, так как данные летом и зимой также могут изменяться.

Рассмотрим пример с производственной линией. Инженер заметил, что один из датчиков вибрации на электродвигателе начал показывать рост значений параметра. Данный скачок вибрации может указывать на износ подшипника. Но проведя дополнительный анализ данных и изучив историю работы электродвигателя, инженер определил, что хоть вибрация и превышает допустимые нормы, но она не является вибрацией непосредственно диагностируемого электродвигателя, а «приходит» с приводимого в движение смежного агрегата и направил обслуживающий персонал в истинное место возникновения проблемы, тем самым сэкономив время на обнаружение дефекта. Таким образом при объединении знаний обслуживающего персонала и цифровых технологий можно снижать наступление неблагоприятных событий и проводить заблаговременную диагностику и выявление дефектов.

Такое глубокое знание предметной области позволяет инженерам правильно размечать данные, выделять важные признаки и исключать шум. Программисты же, используя эту размеченную информацию, разрабатывают модели, которые могут эффективно предсказывать события, такие как поломки оборудования или оптимальные моменты для его обслуживания.

Разработка алгоритмов.

Программисты и математики являются экспертами в разработке алгоритмов, но без качественно размеченных данных их работа будет затруднена. Компетенции специалистов, занимающихся разработкой алгоритмов, включают:

  • Способность анализировать данные и выявлять закономерности;
  • Знание методов обработки сигналов и работы сенсоров;
  • Навыки работы с большими массивами данных и программными средствами для их анализа, включая инструменты ML и ИИ;

Таким образом, грамотная разметка данных требует участия специалистов из разных областей, особенно инженеров, имеющих практический опыт работы на диагностируемом оборудовании, разбирающимся в их устройстве и технологии в целом.

В качестве заключения можно отметить, что разметка данных – ключевой этап в построении моделей ИИ для предиктивной аналитики. Качество исходных данных и правильная их интерпретация напрямую влияют на точность предсказаний, что делает работу инженеров незаменимой в этом процессе. Их компетенции в области работы с модулями мониторинга (датчиками) и анализом полученных данных обеспечивают основу для создания эффективных моделей. Программисты и математики, в свою очередь, используют эти данные для создания алгоритмов, способных предсказывать важные события с высокой точностью.

Автор статьи: Ершов Андрей Николаевич

#ПредиктивнаяАналитика #РазметкаДанных #ИскусственныйИнтеллект #ЕршовАндрейИИ #МашинноеОбучение #ПромышленныеДанные #АнализДанных #ТехническаяДиагностика #УмноеОборудование #ЦифровизацияПромышленности #МодернизацияПроизводства #ПредупреждениеПоломок #УмныеДатчики