Слать каждый промпт в чужой API — нормально, пока в какой-то момент не перестаёт. Может, данные чувствительные и пусть лучше не уходят с вашего сервера. Может, надоели лимиты, или то, что версия модели меняется без спроса, или счётчик за токены, тикающий, пока вы экспериментируете. В какой-то момент «а что если поднять своё?» перестаёт быть мысленным экспериментом.
Ollama делает это по-настоящему просто. Сложнее другой вопрос — что влезет на VPS. И тут честный ответ важнее хайпа.
Что реально пойдёт на CPU
Нет GPU? Значит, инференс на CPU, и размер модели решает всё. Квантизация (ужатие весов до 4 бит) — то, что делает затею практичной: теряете крупицу качества, экономите гору памяти.
Грубые цифры, те самые, что важны:
- Модель 3B, 4 бита — ~3 ГБ RAM. Шустро для чата и простых задач.
- Модель 7B, 4 бита — ~5 ГБ RAM. Sweet spot: заметно умнее, всё ещё в читаемом темпе.
- 13B и выше — 8-10 ГБ+ и медленно на CPU. Технически можно, на практике раздражает.
Скорость, честно: на нескольких vCPU увидите несколько токенов в секунду. Для чат-бота или помощника по коду, где вы читаете по мере набора, — отлично. Для пакетной обработки миллиона документов — нет, это работа для GPU, и мы не делаем вид, что иначе. GPU-инстансов у нас нет. Если вашей задаче нужна модель на 70B или тяжёлый поток — CPU-VPS, наш или чей угодно, неподходящий инструмент, и знать это лучше до того, как потратите хоть цент.
А вот приватная 7B, которая отвечает на ваши вопросы и никуда не стучится? Такая спокойно живёт на 6 ГБ.
Установка — три команды
Поднимаете сервер, заходите по SSH и:
curl -fsSL https://ollama.com/install.sh | sh # ставит Ollama
ollama run llama3.2:3b # качает и запускает модель 3B
Всё — вы уже общаетесь в терминале. Чтобы дёргать из своего кода, Ollama уже поднимает HTTP API на порту 11434:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2:3b",
"prompt": "Сократи этот changelog в две строки: ...",
"stream": false
}'
Одна вещь, которую стоит знать сразу: по умолчанию этот API слушает только localhost. Оставьте так и ходите через SSH-туннель — иначе он торчит в интернет. Если нужен доступ снаружи, прикройте его авторизацией: открытый эндпоинт модели на публичном IP — плохая идея.
Какой брать сервер
Подбирайте план под модель, а не наоборот:
| Что хотите запустить | Нужно RAM | Разумный план |
|---|---|---|
| Модель 3B, лёгкое использование | ~3 ГБ | Small (4 ГБ) |
| Модель 7B, с запасом | ~5-6 ГБ | Medium (6 ГБ) |
| Больше / высокий поток | территория GPU | не CPU-VPS |
Для большинства self-хостеров честная рекомендация — Medium (6 ГБ): хватает на 7B плюс ваше приложение и ОС. Small (4 ГБ) подойдёт, если держитесь 3B. Меньше — уже впритык, как только ОС и контекст откусят своё.
Почему здесь
Если вы поднимаете свою LLM, приватность обычно половина причины — так что отдавать паспорт за аренду сервера было бы странно. И не нужно: оплата в USDC или USDT (или картой через on-ramp), без KYC, сервер ваш примерно за минуту. Крипто-нативно, дружелюбно к агентам, а данные остаются на машине, которую контролируете вы.
Размен — тот самый, про который мы честно сказали: только CPU, потолок 6 ГБ, малые модели. В этих рамках self-hosting прекрасен. За их пределами — не давайте никому продать вам CPU-сервер под задачу, которой нужен GPU.
Готовы попробовать? Выберите план, оплатите — и root будет примерно через 60 секунд, а дальше три команды до вашей собственной приватной модели.