Межкластерные и внутрикластерные расстояния

Я нашел следующие формулы для межкластерных и внутрикластерных расстояний, и я не уверен, что понимаю, как они работают.

введите здесь описание изображения

Межкластерное расстояние

введите здесь описание изображения

Разве в приведенных выше формулах не должен быть квадратный корень?

Межкластерные и внутрикластерные:

введите здесь описание изображениявведите здесь описание изображения

Почему индекс j начинается с N+1? А не с 1 на N2?

Какой из них правильный? Или есть аналоги? Или я должен выбрать расстояние между центроидами для межкластерного расстояния? Кажется довольно простым. А как насчет внутрикластерного расстояния?

Я нашел формулы из Википедии http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation еще труднее понять.

Мне нужно вычислить эти расстояния, чтобы правильно сгруппировать цвета, чтобы создать уменьшенную цветовую палитру, поэтому я думаю, что чем точнее эти расстояния, тем точнее группировка (формула вместо расстояния между центроидами расстояние для межкластерного ). Векторы являются трехмерными (компоненты RGB).


person Tanatos Daniel    schedule 24.08.2014    source источник


Ответы (1)


Многие алгоритмы на самом деле не используют «расстояние».

К-средние, например, минимизируют дисперсию, то есть сумму квадратов, которую вы видите здесь. Теперь сумма квадратов является возведенным в квадрат евклидовым расстоянием, поэтому можно утверждать, что этот алгоритм также пытается минимизировать евклидовы расстояния; но «естественная» формулировка алгоритма использует не евклидовы расстояния, а сумму квадратов. если я не ошибаюсь, то же самое относится и к кластеризации Уорда, что вы должны вычислять ее, используя дисперсию, а не евклидово расстояние.

Обратите внимание, что если вы минимизируете z^2, а z не может быть отрицательным, то вы также минимизируете z.

См. также: https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering

person Has QUIT--Anony-Mousse    schedule 25.08.2014
comment
Я пытаюсь реализовать алгоритм BIRCH, и я нашел это .ppt, где говорится, что я должен найти ближайшую запись в дереве, вычислив евклидово и манхэттенское расстояния, а также перечисленные выше. - person Tanatos Daniel; 25.08.2014