Совместная статья руководства ФЦПР ИИ РФ и ООО "Предикта" о качестве оценки датасетов

Стандартизация методики оценки качества датасетов и моделей машинного обучения при внедрении ИИ-решений в отраслях промышленности

Аннотация

Потребность ускоренного внедрения технологий искусственного интеллекта (ИИ) в отраслях промышленности с целью достижения технологического суверенитета в перспективных отраслях возможна при стандартизации методик оценки качества датасетов и моделей машинного обучения ИИ-решений.

Ключевые слова

Искусственный интеллект, ИИ, экспертиза, методология, машинное обучение, модели машинного обучения, ИИ в промышленности, датасеты, наборы данных

Введение

Важнейшей задачей на сегодняшний день является развитие технологий искусственного интеллекта и тиражирование решений в области искусственного интеллекта (далее – ИИ-решений) не только среди различных организаций, но и в отраслях экономики.

Фундаментальной составляющей для функционирования ИИ-решений являются данные и модели машинного обучения. Применение единых стандартов при проверке качества датасетов и моделей машинного обучения может существенно сократить издержки на отбор потенциальных решений для внедрения, а также ускорить внедрение проверенных, апробированных и зарекомендовавших себя ИИ-решений.

Предлагаемые в статье подходы направлены на непосредственное практическое применение и имеют высокую значимость для решения прикладных задач в области внедрения ИИ. Несмотря на исходное формирование авторами данной статьи методик оценки качества датасетов и моделей машинного обучения для целей отбора ИИ-решений в отраслях промышленности, предложенные подходы применимы для поддержки цифровой трансформации, повышения уровня цифровой зрелости и повышения уровня проникновения ИИ-технологий во всех отраслях экономики и социальной сферы.

Важно отметить, что существующие уровень готовности датасетов и уровень технологической готовности моделей машинного обучения при выборе готового ИИ-решения для внедрения в организации являются важным, но не достаточным критерием. Источник данных, на основании которого производилось обучение модели, может играть более весомое значение, чем, например, полнота такого набора данных.

В связи с этим, становится очевидным потребность в специализированной методологии, учитывающей специфику критериев, влияющих на выбор технологического решения во время отбора.

Общий подход к оценке качества моделей
машинного обучения

Верхнеуровневый подход к оценке качества моделей машинного обучения можно представить в виде интегрального показателя, основанного на трех ключевых составляющих.

Качество данных является первым и базовым показателем. Данные являются одной из фундаментальных основ обучения, так как в них содержится информация о закономерностях, которые пытаются обобщить математические алгоритмы, заложенные в моделях.

Качество процесса разработки – вторая составляющая интегрального показателя качества моделей машинного обучения. Процесс разработки моделей машинного обучения носит итеративный характер, и сами итерации в общем случае не меняются, однако при этом на практике отсутствуют какие-то формализуемые универсальные методы достижения высокого качества.

Для достижения максимально возможного качества в рамках конкретной задачи тестируются различные комбинации признаков, способов их предварительной обработки, алгоритмов обучения, оптимизируемых ими функций ошибки и гиперпараметров. На практике возможна ситуация, когда модель с гиперпараметрами по умолчанию и отсутствием какой-либо предварительной обработки данных может сразу дать приемлемый результат. В то же время некоторые процессы настолько сложны или случайны, что ни одна существующая модель не сможет обобщить их с достаточным качеством. Таким образом, в качестве универсальных критериев качества процесса разработки невозможно использовать такие как: применение конкретного вида модели, функции ошибки, вида обработки данных и т.д.

Качество результатов – является одним из самых значимых критериев оценки качества модели машинного обучения. Разработка любой модели машинного обучения ведётся с целью обобщения наблюдаемых закономерностей и построения на основании этого каких-либо содержательных выводов. В связи с этим её общее качество невозможно рассматривать в отрыве от того, какая у нее основная задача и достигается ли запланированный результат.

Далее рассмотрим каждый из трех показателей, которые также являются интегральными.

Оценка качества данных

Основываясь на практическом опыте анализа различных ИИ-решений были сформированы следующие ключевые критерии качества данных:

1.       Наличие пропусков.

2.       Наличие аномальных данных.

3.       Согласованность форматов данных.

4.       Уникальность данных (проверка на дубликаты).

5.       Сбалансированность классов (для задач классификации).

6.       Корректность данных.

7.       Корректность разметки (для задач обучения с учителем).

8.   Наличие артефактов обработки - критерий отслеживает наличие в данных артефактов обработки, таких как, например, технические символы, которые могут появляться при взаимодействии с API.

9.       Согласованность временных данных (для временных рядов).

10.    Полнота документации.

11.    Соответствие требованиям законодательства.

12.    Достоверность источников данных.

13.    Достаточность датасета для обучения.

Оценка качества процесса разработки

В отличие от данных, которые являются промежуточным звеном и могут быть обработаны и преобразованы оценщиком в процессе работы с ними, качество разработки оценивается постфактум в отношении полностью завершённого процесса, не подлежащего изменениям. В случае выдачи рекомендаций разработчику модифицированное решение будет представлять из себя, фактически, уже другую модель. В результате были сформулированы следующие ключевые критерии качества процесса разработки:

1.       Отсутствие данных из обучающей выборки в тестовой.

2.       Соотношение размеров обучающей и тестовой выборок.

3.       Обоснование выбора алгоритма машинного обучения, проводилось ли тестирование альтернативных алгоритмов обучения, на основании которых выбран итоговый алгоритм, либо задача решается только одним алгоритмом.

4.       Применялись ли методы, предотвращающие переобучение, такие как, регуляризация, кросс-валидация, ансамблирование, ограничение глубины деревьев и пр.

5.       Осуществлялся ли отбор признаков или вклад каждого признака в итоговый результат неизвестен.

6.       Оптимизация гиперпараметров - применялись ли методы оптимизации гиперпараметров, такие как, поиск по сетке, байесовская оптимизация и др.

7.       Анализ разложения ошибки на смещение и разброс.

8.       Входной контроль данных - способность модели работать с данными, содержащими пропуски и иные ошибки.

9.       Интерпретируемость результатов.

10.    Возможности предварительной настройки.

11.    Инструменты визуализации и контроля.

12.    Требования к компетенциям пользователя или удобство пользования моделью для людей, не являющихся специалистами в машинном обучении.

13.    Зависимость от зарубежных / открытых библиотек и инструментов.

14.    Полнота документации.

15.    Сбалансированность данных обучения и теста (для задач классификации).

Оценка качества результатов

Ключевыми критериями качества результатов работы моделей машинного обучения являются:

1.       Решение моделью актуальных отраслевых задач (применимо для моделей, не носящих исследовательский характер).

2.       Оценка качества работы модели на тестовых данных в разрезе метрик машинного обучения.

3.       Новизна модели - оценка уникальности разработанной модели на российском и международном рынках.

4.       Стабильность - способность модели сохранять обобщающую способность при обучении на подмножествах обучающей выборки.

5.       Робастность - способность модели сохранять качество при зашумлении или искажении входных данных.

6.       Автономность - степень человеческого участия для обеспечения эффективной эксплуатации модели.

7.       Наличие и оценка результатов опытной эксплуатации модели.

8.       Масштаб применимости - насколько модель применима в реальной работе российских предприятий.

9.       Соответствие требованиям законодательства и наличие механизмов отключения модели при выявлении нарушений.

10.    Уровень технологической зрелости (по шкалам TRL и CRL).

11.    Оценка обоснованности потребляемых вычислительных ресурсов.

Особенности методики

Базовая методика оценки качества датасетов и моделей машинного обучения предполагает три уровня качества: низкий, средний и высокий. Интегральный показатель качества предлагается рассчитывать, как отношение суммы набранных по каждому пункту баллов к максимально возможной сумме.

При этом важно отметить, что в зависимости от задач организации, внедряющей ИИ-решение, могут быть скорректированы коэффициенты и веса отдельных критериев.

Так, например, наличие пропусков - критерий определяющий, насколько полны данные, и проверяющий количество отсутствующих значений в признаковом пространстве и разметке, может быть абсолютно не значителен в сравнении с критерием достоверности источника данных. Иными словами, модель, обученная на наборе данных, взятым из интернета, несмотря на высокий коэффициент качества, может полностью игнорироваться в сравнении с моделью, обученной на основании данных, предоставленных самим заказчиком системы.

Заключение

Выбор технологического решения для автоматизации процессов зачастую является трудоёмкой задачей. Однако она не может сравниться с объемом ресурсов, необходимых для устранения последствий при неудачном выборе такого решения.

Применение единой методологии оценки качества датасетов и моделей машинного обучения позволит принимать наиболее обоснованные управленческие решения и продвигать наиболее качественные
ИИ-решения. Безусловно при наличии массовой апробации сама методика оценки качества датасетов и моделей машинного обучения будет усовершенствована и дополнена в соответствии с прикладными результатами.

При этом уже сегодня очевидна практическая польза применения разработанной методики, учитывающей специфику отечественного рынка информационных технологий.

Использование методики оценки датасетов и качества моделей машинного обучения позволит существенно повысить качество внедряемых ИИ-решений и ускорить достижение Российской Федерацией технологического суверенитета, в том числе в отраслях промышленности и других перспективных отраслях.

Литература

1.        Указ Президента Российской Федерации от 10 октября 2019 года № 490 о Национальной стратегии развития искусственного интеллекта на период до 2030 года.

2.        Постановление Правительства Российской Федерации от 15 апреля 2023 года №603.

3.        Методические рекомендации по цифровой трансформации государственных корпораций и компаний с государственным участием: [сайт]. URL: https://digital.gov.ru/uploaded/files/140020231228obnovlennyiemetodicheskierekomendatsiiv12sokraschennyie-1.pdf (дата обращения: 17.01.2024).

4.        Приказ Минцифры России от 18.11.2020 г. № 600 «Об утверждении методик расчета целевых показателей национальной цели развития Российской Федерации «Цифровая трансформация».

5.        Федеральный центр прикладного развития искусственного интеллекта: [сайт]. URL: https://aigov.ru/ (дата обращения: 22.01.2024).


Справочно:

 

Ершов Андрей Николаевич


  • Заместитель директора по цифровым продуктам и сервисам ООО «Предикта»
  • Эксперт рабочей группы по вопросам стандартизации  области применения технологий искусственного интеллекта в промышленности (РГ-ТК164-5)

Полная версия статьи на стр. 414 сборника (скачать)