Особенности разметки данных для использования инструментов искусственного интеллекта в предиктивной аналитике
Введение
Предиктивная аналитика — это область применения инструментов искусственного интеллекта (ИИ), основной задачей которой является выдача рекомендаций о необходимости проведения ремонта и обслуживания промышленного и другого оборудования.
В предиктивной аналитике существуют различные подходы к определению дефектов. Некоторые из них сразу определяют и показывают, где возник дефект в оборудовании, другие указывают на вероятное место расположения проблемы и предположительное время до наступления негативного события. Иногда различия в подходах требуют различные инструменты, которые требуются при разметке данных.
Предиктивная аналитика может быть разработана и на основе классических математических методов, но применение машинного обучения способно повысить точность прогнозных моделей. Однако для того, чтобы алгоритмы машинного обучения могли эффективно работать, требуются как качественная разметка данных, так и период накопления данных, на основе которого будут строиться прогнозные модели.
В данной статье будет рассмотрен процесс разметки данных для ИИ, особенности работы с ними в контексте производственных площадок, а также роль инженеров и программистов в этом процессе.
Справка об эксперте
Ершов Андрей Николаевич
- Руководитель Центра предиктивного анализа и искусственного интеллекта ООО «Объединенная сервисная компания» группа ПАО «ММК»
- Кандидат экономических наук.
- Эксперт рабочей группы по формированию правовых основ и принципов регулирования правоотношений, связанных с процессами управления промышленными данными в Российской Федерации.
- Член рабочей группы «Искусственный интеллект в промышленности» при Министерстве промышленности Российской Федерации (ТК 164).
- Член рабочей группы по внедрению системы дистанционного контроля (надзора) промышленной безопасности опасных производственных объектах (Ростехнадзор РФ).
Процесс разметки данных для ИИ
Разметка данных — это процесс присвоения каждому элементу набора данных определенных меток или категорий, которые затем применяются при обучении моделей ИИ. Разметка может включать в себя классификацию изображений, текстов или сигналов, выделение объектов на изображениях, аннотирование видео и аудиозаписей, а также другие формы маркировки данных. Процесс разметки включает в себя следующие ключевые этапы:
- Сбор данных. На начальном этапе происходит сбор данных из различных источников, таких как сенсоры (модули мониторинга), камеры, текстовые файлы, интернет, различные системы и архивы данных. Данные могут быть структурированными (например, таблицы с четко определенными значениями) или неструктурированными (изображения, тексты, аудио и видеофайлы, сохраненные без определенной закономерности);
- Очистка данных. Прежде чем начать разметку, данные должны быть очищены от неточностей, пробелов, дубликатов, прочерков, неверного формата данных и других неточностей. Это помогает минимизировать неправильные предсказания и повысить точность модели ИИ;
- Выбор метода разметки. В зависимости от задачи используется различный подход к разметке данных. Например, для задачи классификации изображения разметка может заключаться в присвоении меток каждому изображению. Для задачи анализа текстов – в аннотировании ключевых слов и предложений;
- Разметка данных. На этом этапе осуществляется непосредственно разметка данных. Она может быть выполнена вручную или с использованием полуавтоматических методов. Важным аспектом является привлечение к этому процессу специалистов, обладающих экспертизой в конкретной области, так как точность разметки напрямую влияет на успех обучения модели ИИ;
- Валидация разметки. После разметки данных требуется их проверка на соответствие стандартам качества. Это включает проверку правильности каждой метки и оценку согласованности разметки между разными специалистами (если к разметке одновременно привлекается несколько специалистов).
Важность качества исходных данных для разметки
Качество исходных данных – это фундаментальный аспект успешной работы любой модели ИИ. Плохое качество данных неизбежно приведет к ошибкам на этапе обучения и, как следствие, к недостоверным прогнозам. Существует несколько ключевых факторов, влияющих на качество данных:
- Точность данных. Поступающая информация должна быть точной, актуальной и репрезентативной для решаемой задачи. Даже небольшие ошибки или пропуски в данных могут существенно снизить точность предсказаний модели;
- Полнота данных. Неполные данные могут привести к неправильной интерпретации событий, а это, в свою очередь, скажется на точности модели. Важно, чтобы все необходимые данные были доступны и корректно обработаны;
- Релевантность данных. Информация обязана соответствовать поставленной задаче. Также требуется четко понимать, как информация получена и в чем специфика применяемой модели ИИ. Например, при прогнозировании технического состояния оборудования важно учитывать данные с конкретных сенсоров и их характеристики;
- Шум и аномалии. Наличие шума и аномальных данных может сбивать с толку модель, особенно на этапе обучения. Необходимо тщательно фильтровать данные и удалять или корректировать аномалии перед началом разметки.
Только при соблюдении этих условий можно ожидать достаточно высоких результатов от предсказательных моделей ИИ.
Разметка данных для ИИ в предиктивной аналитике
Предиктивная аналитика использует большое количество данных при создании моделей, которые предсказывают вероятные события на основе исторической информации об оборудовании, а также на основе информации, собираемой с модулей мониторинга (датчиков), расположенных на оборудовании. Процесс разметки данных в предиктивной аналитике имеет свои особенности, и их необходимо учитывать.
Специфика данных.
Для предиктивной аналитики часто применяются данные, собираемые с различных датчиков и устройств, а также журналов выхода оборудования из строя, что требует особого подхода к их интерпретации и разметке. К примеру, на производстве применяются данные с сенсоров, установленных на производственном оборудовании, которые могут предоставлять огромные массивы информации о температуре, давлении, вибрации и других параметрах оборудования. Инженеры, занимающиеся разметкой таких данных, должны обладать глубокими знаниями о специфике этих устройств и правильно интерпретировать поступающие сигналы. Например, резкое изменение показаний вибрации «вверх» может свидетельствовать о возможной неисправности, а может свидетельствовать о появлении механического воздействия и замер необходимо исключить.
Кроме того, необходимо сопоставлять данные. Зачастую на предприятиях уже существуют значительные объемы данных по различным параметрам, но их анализ в отдельности ничего не даст. Только при наложении данных друг на друга, сохраняя временные метки и метки качества, можно найти зависимости. Примером может служить соотнесение информации из журналов ремонтов с показателями повышения вибрации, температуры, давления и т.д. Наложение данных друг на друга позволяет сформировать так называемые уставки для модели с целью заблаговременного определения трендов развития дефектов в аналогичных случаях.
Роль инженеров в разметке данных.
Часто возникает вопрос относительно того, кто же отвечает за разметку данных: программисты или инженеры? Зачастую на практике разметку данных для предиктивной аналитики выполняют именно инженеры, а не программисты. Программисты, в свою очередь, занимаются обработкой данных и разработкой моделей на основе этих данных. Разделение ролей крайне важно, так как успешная разметка данных, а соответственно и точность модели, зависит от компетенции инженеров в их конкретной области.
Инженеры должны быть в курсе, какие датчики установлены на оборудовании и какую информацию они собирают, как интерпретировать данные, поступающие с датчиков (какие отклонения в показаниях могут быть сигналом о неполадках, а какие допустимыми вариациями), какие особенности работы оборудования существуют, а главное, понимать возможные причины сбоев, а также учитывать условия эксплуатации и сезонность, так как данные летом и зимой также могут изменяться.
Рассмотрим пример с производственной линией. Инженер заметил, что один из датчиков вибрации на электродвигателе начал показывать рост значений параметра. Данный скачок вибрации может указывать на износ подшипника. Но проведя дополнительный анализ данных и изучив историю работы электродвигателя, инженер определил, что хоть вибрация и превышает допустимые нормы, но она не является вибрацией непосредственно диагностируемого электродвигателя, а «приходит» с приводимого в движение смежного агрегата и направил обслуживающий персонал в истинное место возникновения проблемы, тем самым сэкономив время на обнаружение дефекта. Таким образом при объединении знаний обслуживающего персонала и цифровых технологий можно снижать наступление неблагоприятных событий и проводить заблаговременную диагностику и выявление дефектов.
Такое глубокое знание предметной области позволяет инженерам правильно размечать данные, выделять важные признаки и исключать шум. Программисты же, используя эту размеченную информацию, разрабатывают модели, которые могут эффективно предсказывать события, такие как поломки оборудования или оптимальные моменты для его обслуживания.
Разработка алгоритмов.
Программисты и математики являются экспертами в разработке алгоритмов, но без качественно размеченных данных их работа будет затруднена. Компетенции специалистов, занимающихся разработкой алгоритмов, включают:
- Способность анализировать данные и выявлять закономерности;
- Знание методов обработки сигналов и работы сенсоров;
- Навыки работы с большими массивами данных и программными средствами для их анализа, включая инструменты ML и ИИ;