Почему ошибаются алгоритмы машинного обучения

Мы часто слышим о том, как очередной сложный алгоритм искусственного интеллекта начал ошибаться или стал следовать предрассудкам, которым машины не должны быть подвержены. Почему так происходит?

Из-за чего появляются эти ложные положительные и отрицательные ответы и так ли это важно? Для начала давайте определим три термина из Матрицы смешения: точность, возврат и правильность.

Точность

Точность – это процент верно классифицированных положительных ответов. При высокой точности алгоритм правильно размечает максимальное количество верных элементов. К примеру, инструменты медицинской диагностики должны быть очень точными, так как болезнь может осложниться, если ее вовремя не обнаружить.

В ситуации, когда время настолько ценно, нужно минимизировать количество ложных негативных откликов. Точно так же, если в системе вашей компании произойдет сбой, лучше иметь точную модель, чтобы:

  • устранить проблему,
  • найти виновника как можно быстрее, чтобы не отрывать сотрудников от исполнения их обязанностей.

Возврат

В свою очередь, возврат – это доля в процентах возвращенных релевантных элементов. К примеру, если искать в гугле книги из серии про Гарри Поттера, возврат будет равен количеству книг, разделенному на семь.
В идеале возврат равен единице. В этом случае нас ждут проблемы, и пользователям придется вручную копаться в нерелевантных результатах поиска. Вдобавок к этому, если пользователь не получит релевантной выдачи, он вряд ли станет что-то покупать, и это навредит финансовым показателям.

Правильность

Правильность – это доля верных предсказаний от общего количества элементов в процентах. Правильность плохо служит в качестве показателя качества работы модели, особенно если классы разбалансированы. Чтобы работа с точностью, возвратом, правильностью и матрицами смешения имела смысл, обучающие данные должны содержать достоверную информацию о населении, и тогда модель сможет обучиться правильно.

Матрицы смешения

Матрицы смешения – это основа матриц эффективности затрат, то есть итоговой стоимости. Для бизнеса этот термин понять легко на примере анализа доходов и расходов. Думаю, в случае с дискриминацией одного класса относительно другого все будет сложнее.

Тем не менее эта работа, пожалуй, даже более срочная и важная. Нашим продуктам уделяют все больше внимания, и ошибки будут все более заметными и значимыми для компаний.

Ошибки машинного обучения, вызванные исходными данными

Крупнейший по объему этап работы в машинном обучении – это сбор и очищение данных, на которых будет учиться модель. Преобразование данных – это не так уж интересно, и постоянно думать о формировании отсчетов, выбросах и распределении генеральной совокупности может быть скучным и утомительным делом. Однако затем из-за таких упущений при обработке данных и появляются ошибки алгоритмов.

Каждый день в мире генерируется 2,5 эксабайт информации, так что данных для обучения наших моделей предостаточно. Есть фотографии лиц с разным цветом кожи, в очках и без них, с широкими или узкими, карими или серыми глазами.

Существуют мужские и женские голоса с самыми разными акцентами. Нежелание принимать во внимание эти культурные особенности данных может привести нас к моделям, которые будут игнорировать, и таким образом маргинализировать, определенную демографическую группу. К примеру, тот случай, когда алгоритм от Google по ошибке принимал лица афроамериканцев за горилл. Или подушки безопасности, которые должны защищать пассажиров, едва не убивали женщин в аварийной ситуации. Эти ложноположительные отклики, то есть заключения алгоритма о том, что все в порядке, когда риск действительно есть, могут стоить кому-то жизни.

Как бороться с ошибками машинного обучения

Между тем, если нам предстоит обучать машины работе с LinkedIn и резюме, то появляется научный инструмент борьбы с предрассудками, победить которые люди не в состоянии. Некорректные алгоритмы оценки рисков появляются из-за обучения моделей по наборам данных, уже содержащим эти перекосы вследствие исторических причин. Это можно исправить, если работать с историческими предрассудками так, чтобы модель учитывала пол, возраст и расу человека без дискриминации какого-либо меньшинства.

Данные, которые содержатся в моделях обучения с подкреплением, могут привести к резкому улучшению или ухудшению результатов. Экспоненциальный рост или падение качества может привести к более надежным беспилотным автомобилям, которые учатся при каждой своей поездке, или же они могут убедить человека из Северной Каролины в существовании в Вашингтоне банды по торговле людьми, которой на самом деле нет.

Почему машины начинают ошибаться? Мы учим их этому, используя ошибочные тренировочные данные.

Источник
Оригинал

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.