Эта статья была первоначально размещена на нашем сайте компании. Платформа для разработчиков Lakera позволяет командам машинного обучения создавать отказоустойчивые модели компьютерного зрения.
Развертывание современных моделей машинного обучения часто может привести к множеству проблем из-за зависимостей от более важных пакетов — чаще всего PyTorch и TensorFlow. В Lakera мы выпустили реализацию модели CLIP OpenAI, которая полностью устраняет необходимость в PyTorch, позволяя вам быстро и без проблем установить эту фантастическую модель в производстве и на периферийных устройствах.

CLIP (Contrastive Language-Image Pre-Training) поддерживает некоторые из самых захватывающих приложений для преобразования изображений в текст, которые существуют прямо сейчас. Это нейронная сеть, обученная на множестве пар (изображение, текст). На естественном языке ему можно дать указание предсказать наиболее релевантный фрагмент текста по изображению без прямой оптимизации для задачи, аналогично нулевым возможностям GPT-2 и 3. Эта модель состоит из трех основных компонентов:
- Текстовый токенизатор, который преобразует заданный естественный язык в токены (встраивания).
- Препроцессор изображения, который преобразует данное изображение во встраивание.
- Сама модель CLIP, которая выводит косинусное сходство вложений текста и изображения, сгенерированных выше.
Основная проблема, которую мы обнаружили, заключается в том, что все три компонента используют PyTorch, поэтому мы решили упростить вам задачу!
Мы достигли этого с помощью следующих шагов:
- Токенизатор текста был переписан на NumPy.
- Мы написали собственный препроцессор изображений, который имитирует функциональность препроцессора CLIP.
- Мы экспортировали модель CLIP в формат .onnx, что означает, что мы по сути заменили зависимость PyTorch на облегченную onnxruntime.
Попробуй! Не забудьте поставить звезду и связаться с нами, если у вас есть какие-либо отзывы!
Написано Дэниелом Тимбреллом