У меня есть набор документов, которые я пытаюсь кластеризовать на основе их словарного запаса (то есть сначала делаю корпус, а затем разреженную матрицу с помощью команды DocumentTermMatrix и так далее). Чтобы улучшить кластеры и лучше понять, какие функции/слова заставляют конкретный документ попадать в конкретный кластер, я хотел бы знать, каковы наиболее отличительные черты для каждого кластера.
Пример этого есть в книге Ланца Machine Learning with R, если вы ее знаете — он группирует профили подростков в социальных сетях по интересам, к которым они привязаны, и в итоге получается таблица наподобие это показывает «каждый кластер ... с функциями, которые больше всего отличают его от других кластеров»:
cluster 1 | cluster 2 | cluster 3 ....
swimming | band | sports ...
dance | music | kissed ....
Теперь мои функции не столь информативны, но я все же хотел бы построить что-то подобное.
Однако в книге не объясняется, как была построена таблица. Я изо всех сил старался творчески гуглить, и, возможно, ответом является какой-то очевидный расчет средств кластера, но, будучи новичком в R, а также в статистике, я не мог этого понять. Любая помощь очень ценится, включая ссылки на предыдущие вопросы или другие ресурсы, которые я, возможно, пропустил!
Спасибо.