- Логинимся на runpod.io
- Идём сюда: https://www.runpod.io/console/serverless
- Тыкаем VLLM → Start

- Первый экран: указываем путь к модели на HF и ставим 12.1+ CUDA

- Второй экран: указываем коммит, из которого хотим развёртывать. Это не обязательно, если вы хотите развернуть с последнего коммита в main. Также указываем Max Model Length (что бы это на самом деле не означало). Тут же можно подменить токенизатор.

- Последний экран: непосредственно настройки serverless части. Выбираем машину, выставляем таймауты. В Advanced проставляется политика масштабирования.

- После этого идём в endpoint и видим base_url. Там же можно выпустить токен.


- Полученные URL и токен вставляем в любое место, где подходит OpenAI-like API. Например, в бота: https://github.com/IlyaGusev/SaigaBot/