Предисловие

Kaggle — одна из крупнейших платформ сообщества специалистов по данным, которая предоставляет доступ к различным наборам данных, соревнованиям, strong>ресурсы и мощные инструменты для изучения данных и машинного обучения.

  • Kaggle позволяет нам использовать свои наборы данных, загружая их или используя свой API.
  • В этой статье мы рассмотрим последнюю часть, где мы можем просто использовать ключ API, предоставленный нам Kaggle.com, который можно хранить в любом месте на вашем диске Google. .

Предпосылки

Чтобы следовать этой статье, вам необходимо иметь аккаунт Kaggle (для создания ключа API) и аккаунт Google (для использования Google Colab).

Генерация ключа API

Чтобы сгенерировать ключ API Kaggle, выполните следующие действия:

  1. Войдите в свою учетную запись kaggle.com
  2. В правом верхнем углу вы можете увидеть свой профиль. Нажав на нее, вы увидите возможность просмотреть свой профиль, настройки учетной записи или выйти из системы. Нажмите Настройки учетной записи (обозначается значком шестеренки).

  1. На странице вашей учетной записи вы можете прокрутить вниз, пока не увидите раздел API. В этом разделе вы можете увидеть кнопку Создать новый токен API. Нажмите на него.

  1. Вам будет предоставлен файл JSON с именем kaggle.json, который содержит Ключ API, который является личным только для вашей учетной записи и не должен использоваться совместно.
  2. Вам нужно сохранить этот ключ API в папке с именем .kaggle, так как библиотека API по умолчанию ищет его в вашей локальной системе.

Настройка

  • В этой статье я покажу, как получить доступ к токену через Google Диск.
  • Прежде чем запускать необходимые сценарии, сначала необходимо загрузить файл kaggle.json на Google Диск.
  • Тем временем вы можете создать новый блокнот для совместной работы, чтобы не отставать от этой статьи.
  • После того как вы загрузили файл, вам необходимо подключить дисковое хранилище к вашему новому блокноту для совместной работы с помощью следующей команды:
drive.mount('/content/drive')
  • Вам будет предложено предоставить доступ к хранилищу вашего диска, выбрав свою учетную запись и авторизовавшись с помощью ключа.

  • Теперь, когда вы смонтировали диск, мы можем загрузить и импортироватьвсе необходимые библиотеки в этот экземпляр совместной работы.
  • Начиная с необходимых библиотек, мы сначала установим библиотеки kaggle и kaggle-cli, используя следующие команды:
!pip install -q kaggle
!pip install -q kaggle-cli
  • Теперь вам нужно запустить приведенный ниже скрипт, который создает папку с именем .kaggle на вашем диске, копирует в нее файл kaggle.json и изменяет доступ таким образом, чтобы только вы могли получить доступ и прочитать файл kaggle.json:
!mkdir -p ~/.kaggle
!cp "/content/drive/MyDrive/kaggle.json" ~/.kaggle/
!cat ~/.kaggle/kaggle.json
!chmod 600 ~/.kaggle/kaggle.json
  • На выходе должно быть ваше имя пользователя kaggle и ваш ключ API, и мы настроены на загрузку наборов данных.

Доступ к общедоступному набору данных

  • Чтобы загрузить набор данных здесь, вам нужно скопировать URL-адрес после kaggle.com, т. е. имя пользователя, загрузившего, и имя набора данных, который он загрузил.
  • И требуемая команда будет иметь вид:
!kaggle datasets download -d username/dataset_name
!kaggle datasets download -d nicholasjhana/energy-consumption-generation-prices-and-weather
  • Вы можете увидеть прогресс загрузки, а затем убедиться, что файлы видны, в левой части интерфейса совместной работы.

  • Но данные находятся в zip-файле. Вы можете извлечь содержимое с помощью следующей команды:
!unzip /content/energy-consumption-generation-prices-and-weather.zip
  • Теперь вы можете использовать библиотеку pandas для проверки данных.

Доступ к набору данных соревнований

  • Процедура такая же, за исключением того, что вам сначала нужно ознакомиться с условиями указанного конкурса.
  • Чтобы загрузить набор данных здесь, вам нужно скопировать URL-адрес после kaggle.com, т. е. название соревнования.
  • И требуемая команда будет иметь вид:
!kaggle competitions download -c competition_name
  • Доступ к набору данных и соревнованиям можно найти здесь.
  • URL-адрес нашего набора данных: https://www.kaggle.com/c/tabular-playground-series-feb-2022
  • Итак, вам нужно скопировать: table-playground-series-Feb-2022.
  • Команда должна выглядеть так:
!kaggle competitions download -c tabular-playground-series-feb-2022
  • Опять же, файл находится в заархивированном формате, но вы можете распаковать его с помощью команды !unzip.

Заключение

  • Вот и все…
  • Вы можете получить доступ к записной книжке, которую я создал для справки, здесь.
  • Все, что вам нужно сделать, это сгенерировать и загрузитьваш ключ API на свой диск Google перед запуском вышеуказанного блокнота.

Заключительные мысли и заключительные комментарии

Есть некоторые жизненно важные моменты, которые люди не понимают, занимаясь наукой о данных или путешествием в области искусственного интеллекта. Если вы один из них и ищете способ уравновесить эти минусы, ознакомьтесь с сертификационными программами, предоставляемыми INSAID на их веб-сайте. . Если вам понравилась эта история, я рекомендую вам пройти Глобальный сертификат в области науки о данных, потому что он будет охватывать ваши основы, а также алгоритмы машинного обучения(базовые для продвижения) .