Введение
Изо дня в день мы видим, как публикуется множество моделей глубокого обучения на основе изображений. Но для создания любой модели также требуются обучающие данные.
Для обучения модели на основе Vision доступно множество обучающих данных. Некоторые из них упомянуты здесь
- Imagenet: ImageNet — это база данных изображений, организованная в соответствии с иерархией WordNet (в настоящее время только существительные), в которой каждый узел иерархии представлен сотнями и тысячами изображений.(от веб-сайт imagenet)
- Google Open Images : Открытые изображения — это набор данных из примерно 9 миллионов изображений, аннотированных метками на уровне изображения, ограничивающими рамками объектов, масками сегментации объектов, визуальными отношениями и локализованными описаниями. Он содержит в общей сложности 16 миллионов ограничительных рамок для 600 классов объектов на 1,9 млн изображений, что делает его самым большим из существующих наборов данных с аннотациями о местоположении объектов.(из набора данных изображений Google)

- Набор данных COCO от Microsoft: это набор данных изображений, состоящий из 91 типа объектов, с общей
2,5 миллионами помеченных экземпляров в 328 тыс. изображений(из набора данных coco ).
Таких наборов данных много, для разного использования. Но если вы посмотрите на эти наборы данных, то увидите, что доступен только конечный набор категорий. Например, вы не можете найти снежного тигра или многих других видов животных, растений или людей, работающих в определенной среде (на производстве или в больнице).
Простой ответ для получения изображений пользовательских категорий — разработать собственный набор данных. Но разработка собственного набора данных — это громоздкая задача, так как для этого требуются тысячи объектов с разным фоном, плюс это также займет много времени. Так что делать?
Подход
Простой ответ — собирать данные с онлайн-сайтов. Некоторые из этих веб-сайтов предоставляют доступ к API для прямой загрузки данных с дневным лимитом. Данные также могут быть удалены из поисковых систем, таких как google, bing и т. д. Существует несколько таких API, которые можно использовать для прямого извлечения данных.
- Flickr API:мы все знаем, что платформа flickr используется для обмена фотографиями и видео, но знаете ли вы, что flickr также предоставляет flickr-api, который можно использовать для загружать изображения, и это бесплатно для некоммерческого использования. Доступ к Flickr-api можно получить с помощью клиента Python, такого как flickrapi. Чтобы начать загрузку данных, сначала нам нужно получить ключ и секрет от flickr, которые можно взять из приведенного выше URL-адреса flickr. Получив учетные данные, мы можем передать любой запрос и получить соответствующие данные.
2. Google API: с помощью этого пользователь может загружать изображения, извлекая результаты поиска изображений Google. Хотя есть проблемы с авторскими правами и конфиденциальностью при загрузке изображений. Но на этот вопрос можно не обращать внимания, если мы собираемся использовать эти изображения в исследовательских целях и не будем их публиковать. Тем не менее, Google очень часто меняет свою структуру и т. д., часто внося изменения в код, что само по себе довольно сложно.
К счастью, существуют сообщества с открытым исходным кодом, они создали некоторые библиотеки, которые постоянно обновляются и могут быть легко использованы для загрузки изображений.< br /> один из них — Google Images Download.
3. API Bing: данные можно загружать так же, как и Google, но недостатком является то, что результаты поиска изображений Bing меньше, чем в Google. Таким образом, при использовании bing собирается меньше данных.
Существует множество реализаций на основе Python, которые очень похожи на загрузку из Google. один из них реализован ультралитиками можно посмотреть здесь.
