Анализ главных компонентов (PCA) — это мощная тактика уменьшения размерности. Что такое уменьшение размерности и зачем мы это делаем? Уменьшение размерности означает ограничение количества независимых переменных в нашей модели. Мы делаем это, потому что хотим упростить управление данными и их визуализацию или сократить вычислительные затраты. Если бы у нас было, скажем, 1000 переменных, мы бы не стали рассматривать 1000 различных графиков распределения. Не говоря уже о визуализации корреляций между этими переменными. Если мы хотим построить график корреляции каждой переменной с другой переменной, это создаст 1 000 000 графиков. Это явно невыполнимо. Может показаться разумным удалить столбцы с относительно меньшей прогностической силой, однако удаление любой переменной может привести к потере большого количества ценной информации. Анализ главных компонентов — это метод, который уменьшает размерность, сохраняя при этом значительно большую прогностическую силу, чем если бы мы полностью исключили исходную переменную.

Если у нас есть 5 переменных, рост, вес, пол, возраст и этническая принадлежность, у нас есть пять измерений. Запустив анализ основных компонентов, мы преобразуем наши данные в новый набор данных. Этот новый набор данных по-прежнему будет иметь 5 переменных, но это не будут рост, вес, пол, возраст и этническая принадлежность. Вместо этого каждая переменная теперь представляет собой некоторую комбинацию роста, веса, пола, возраста и этнической принадлежности. По этой причине интерпретируемость была потеряна. Каждая из этих новых переменных называется главными компонентами или собственными векторами.

Я сказал, что PCA уменьшит размерность, но я также сказал, что у нас будет такое же количество функций после выполнения PCA. Кажется, это противоречит. Значение состоит в том, что PCA гарантирует, что предсказательная сила переменной, т. е. важность нашей переменной, больше всего обнаруживается в основном компоненте 1, за которым следует главный компонент 2 и т. д. Следовательно, главный компонент n (который в этом примере равен 5) обладает очень малой предсказательной силой. Таким образом, мы можем отбросить главный компонент 5, не теряя при этом много полезной информации, и теперь мы уменьшили размерность до 4. Мы можем отбросить любое количество главных компонентов, какое захотим, в зависимости от того, насколько мы хотим уменьшить размерность. Не имеет смысла сохранять все главные компоненты, потому что вы не уменьшили размеры. Если вы не уменьшите размеры, вы просто преобразуете свои данные в менее интерпретируемую форму, которая имеет такую ​​же предсказательную силу, как и исходный набор данных.

Теперь мы знаем, что такое анализ главных компонентов и почему он полезен. Но я уверен, что чрезвычайно непонятно, как это возможно. Рассмотрим график ниже с осью X и осью Y, представляющей переменную x и переменную y.

На изображении слева показан наш исходный набор данных, построенный в двух измерениях. Очевидно, что и x, и y обладают предсказательной силой, и мы не хотели бы отбрасывать ни одну из переменных из-за диапазона дисперсии, который мы видим на каждой оси. Если бы вы просто посмотрели на значение x каждой точки, оно бы варьировалось от 2,5 до 8 единиц. Разброс значений у составляет около 3–7 единиц.

Взгляните на прямые углы в центре графика слева. Красная линия представляет собой вектор, на который приходится наибольший разброс по точкам. Это выглядит как линия наилучшего соответствия. Это главный компонент 1. Зеленая линия перпендикулярна красной линии. Это главный компонент 2. График справа показывает, что происходит, когда мы переориентируем наши данные, существенно наклонив график, чтобы получить изображение, к которому мы более привыкли. Это две наши новые переменные. Это уже не x и y, а pc1 и pc2. Pc1 находится в диапазоне примерно от -3 до 4, тогда как pc2 находится в диапазоне от -1 до 1. Теперь, если мы хотим удалить переменную, в данном случае pc2, мы можем сделать это без потери почти такого же количества ценной информации. В этом сила анализа главных компонентов.