Разворачиваем LLM почти бесплатно | Notion

Логинимся на runpod.io
Идём сюда: https://www.runpod.io/console/serverless
Тыкаем VLLM → Start

Untitled

Первый экран: указываем путь к модели на HF и ставим 12.1+ CUDA

Untitled

Второй экран: указываем коммит, из которого хотим развёртывать. Это не обязательно, если вы хотите развернуть с последнего коммита в main. Также указываем Max Model Length (что бы это на самом деле не означало). Тут же можно подменить токенизатор.

Untitled

Последний экран: непосредственно настройки serverless части. Выбираем машину, выставляем таймауты. В Advanced проставляется политика масштабирования.

Untitled

После этого идём в endpoint и видим base_url. Там же можно выпустить токен.

Untitled

Untitled

Полученные URL и токен вставляем в любое место, где подходит OpenAI-like API. Например, в бота: https://github.com/IlyaGusev/SaigaBot/