Эта статья продолжает общий обзор исследования «Объяснимое глубокое обучение и визуальная интерпретируемость».

Машинное обучение теперь влияет на многие аспекты нашей жизни, от поиска в Интернете, потоковых сервисов, рекомендаций на веб-сайтах электронной коммерции, интеллектуальных динамиков и прогнозов акций до систем уголовного правосудия и здравоохранения. Он всемогущ в потребительских товарах, таких как камеры, смартфоны и персональные помощники.

Предприятия заинтересованы в применении машинного обучения для более эффективного принятия решений, бизнес-прогнозирования, снижения затрат, управления рисками, повышения производительности и разработки новых продуктов и услуг.

Машинное обучение — это отрасль компьютерных наук, в которой используются статистические методы, чтобы дать компьютерным системам возможность учиться на данных, находить закономерности в данных и делать высокоточные прогнозы. Другими словами, это набор методов, используемых для обучения компьютеров тому, как учиться, рассуждать, воспринимать, различать, делать выводы, общаться и принимать решения, как это делают люди. Это большая часть современного искусственного интеллекта (ИИ). Здесь данные охватывают множество вещей, таких как слова, числа, изображения, видео и многое другое.

Машинное обучение учится на опыте, следуя пути природы миллионы лет назад. Это сдвиг парадигмы от программирования, когда все инструкции должны быть явно переданы компьютеру, к «косвенному» программированию. Компьютер изучает закономерности из данных без явного программирования.

Сказать, что компьютерное зрение может конкурировать со зрительными способностями, еще недавно было нереально. Это больше не так. Методы машинного обучения теперь могут распознавать объекты на изображении. Взрослый может оцифровывать рукописные символы, транскрибировать речь в текст, классифицировать типы вин, поддерживать диагностику тяжелых заболеваний, сопоставлять новости или продукты с интересами пользователя и выбирать результаты, релевантные поиску. Кроме того, на дорогах есть беспилотные автомобили, которые могут управлять более безопасно, чем средний человек.

Эти достижения подпитываются недавним всплеском данных, ростом вычислительной мощности за последние несколько лет и более быстрыми алгоритмами, которые привели к прорывам в машинном обучении. Эти три основных компонента привели к возникновению революции глубокого обучения.

Увеличение объема данных

Экспоненциальный рост данных в последнее время подпитывает отрасли, технологии и услуги, основанные на машинном обучении. Тем не менее, люди и машины сегодня генерируют больше данных, чем когда-либо прежде. Каждый день одни только люди производят огромное количество данных, начиная от текста, аудио, видео, сенсорных данных и многого другого. Ожидается, что в ближайшие десятилетия это число будет увеличиваться.

Другим примером является автомобиль с более чем 100 датчиками для контроля нескольких функций, таких как уровень топлива, радарные датчики и ультрасенсоры для обнаружения на близком расстоянии.

Вычислительная мощность

Благодаря закону Мура процессорные чипы продолжают уменьшаться в размерах при увеличении вычислительной мощности, которая увеличилась в три-четыре раза по сравнению с серединой 1990-х годов. Передовая вычислительная мощность, которая неизбежно сделала все это возможным, проистекает из закона Мура и открытия графических процессоров (GPU).

Впервые графические процессоры были разработаны для повышения скорости и вычислительной мощности в игровой индустрии и предоставления геймерам богатого высокоскоростного трехмерного изображения \cite{Yosinski2015}. Они были в 20–50 раз эффективнее традиционных центральных процессоров (ЦП) для машинного обучения и глубокого обучения.

Open AI, некоммерческая исследовательская организация, продвигающая безопасность ИИ, отмечает:

Усовершенствования в вычислительной технике были ключевым компонентом прогресса ИИ, поэтому, пока эта тенденция сохраняется, стоит подготовиться к последствиям систем, далеко выходящих за рамки сегодняшних возможностей.

Примером может служить распознавание речи, когда компьютер должен выполнять миллионы вычислений в секунду, чтобы система могла запоминать и распознавать закономерности в данных. Эта задача требовала огромной вычислительной мощности, которая до недавнего времени была недоступна. Напротив, Марвин Мински, математик-новатор, ведущий ученый и основатель Лаборатории искусственного интеллекта Массачусетского технологического института (MIT AI Lab), работал над ИИ в 1957 году, когда компьютеры были в миллиарды раз медленнее, чем сейчас. Эти машины были дорогими и обеспечивали лишь часть производительности и скорости вычислений.

Алгоритмические инновации

Взрыв данных и прогресс в вычислительной мощности сделали возможным создание более совершенных и усовершенствованных алгоритмов, а также создание более обширных наборов данных, которые алгоритмы могут обрабатывать в любой момент времени для задач машинного обучения.

Традиционно алгоритмы явно программировались людьми для выполнения различных задач. Современные алгоритмы усложнились до такой степени, что могут облегчить машинное обучение и позволить компьютерам самообучаться на основе данных. До недавнего времени не существовало адекватных структурированных или неструктурированных данных для обучения компьютеров самостоятельному выполнению сложных задач, не говоря уже о разработке сложных алгоритмов, позволяющих машинам обучаться самостоятельно.

Примером может служить автомобиль с автономным управлением, который использует расширенный набор визуальных данных для построения своей карты в режиме реального времени и навигации по дорогам. Каждый видеокадр, собранный беспилотным автомобилем, должен быть обогащен данными для идентификации таких объектов, как дорожные знаки, пешеходы, деревья или тротуары в каждом кадре.

По словам эксперта по искусственному интеллекту и профессора MIT Sloan Эрика Бриньолфссона, в этих алгоритмах машинного обучения произошли некоторые значительные улучшения, которые улучшили базовые алгоритмы. Некоторые из них были введены 30 или 40 лет назад, но сейчас их доработали и улучшили благодаря более быстрым вычислениям и огромным объемам данных. Это делает более удобным выяснить, что работает и не работает сверхурочно.

Сочетание этих трех вещей, вычислительной мощности, объемов данных и более совершенных алгоритмов, может обеспечить миллионное улучшение некоторых приложений, от распознавания изображений и синтеза речи до беспилотных автомобилей.

В следующей статье этой серии рассказывается о ранней революции в глубоком обучении и однослойной нейронной сети, называемой восприятием:

https://medium.com/deepviz/explainable-ai-and-visual-interpretability-dawn-of-neural-networks-part-5-b302e7d85650