1. Логинимся на runpod.io
  2. Идём сюда: https://www.runpod.io/console/serverless
  3. Тыкаем VLLM → Start

Untitled

  1. Первый экран: указываем путь к модели на HF и ставим 12.1+ CUDA

Untitled

  1. Второй экран: указываем коммит, из которого хотим развёртывать. Это не обязательно, если вы хотите развернуть с последнего коммита в main. Также указываем Max Model Length (что бы это на самом деле не означало). Тут же можно подменить токенизатор.

Untitled

  1. Последний экран: непосредственно настройки serverless части. Выбираем машину, выставляем таймауты. В Advanced проставляется политика масштабирования.

Untitled

  1. После этого идём в endpoint и видим base_url. Там же можно выпустить токен.

Untitled

Untitled

  1. Полученные URL и токен вставляем в любое место, где подходит OpenAI-like API. Например, в бота: https://github.com/IlyaGusev/SaigaBot/