Я запускал реализацию DBSCAN sci-kit Learn для кластеризации набора фотографий с геотегами по широте/долготе. По большей части это работает довольно хорошо, но я столкнулся с несколькими случаями, которые озадачили. Например, было два набора фотографий, для которых введенное пользователем текстовое поле указывало, что фотография была сделана в Центральном парке, но широта/долгота для этих фотографий не были сгруппированы вместе. Сами фотографии подтвердили, что оба набора наблюдений были сделаны из Центрального парка, но широта и долгота на самом деле отличались друг от друга дальше, чем epsilon.
После небольшого расследования я обнаружил, что причина этого в том, что геотеги широты и долготы (которые были сгенерированы из GPS телефона) довольно неточны. Когда я посмотрел на точность определения местоположения каждой фотографии, я обнаружил, что они сильно различаются (я видел погрешность до 600 метров) и что, если принять во внимание точность определения местоположения, эти два набора фотографий находятся в пределах близкое расстояние с точки зрения широты / долготы.
Есть ли способ учесть погрешность в широте/долготе, когда вы делаете DBSCAN?
(Примечание: я не уверен, что этот вопрос сформулирован так, как должен быть, поэтому, если я могу что-то сделать, чтобы сделать его более ясным, пожалуйста, дайте мне знать.)