Слати кожен промпт у чужий API — нормально, поки в якийсь момент не перестає. Може, дані чутливі й нехай краще не йдуть із вашого сервера. Може, набридли ліміти, або те, що версія моделі змінюється без попиту, або лічильник за токени, що цокає, поки ви експериментуєте. У якийсь момент «а що як підняти своє?» перестає бути уявним експериментом.
Ollama робить це по-справжньому просто. Складніше інше питання — що влізе на VPS. І тут чесна відповідь важливіша за хайп.
Що реально піде на CPU
Немає GPU? Отже, інференс на CPU, і розмір моделі вирішує все. Квантизація (стиснення ваг до 4 біт) — те, що робить затію практичною: втрачаєте крихту якості, заощаджуєте гору пам'яті.
Грубі цифри, ті самі, що важать:
- Модель 3B, 4 біти — ~3 ГБ RAM. Жваво для чату й простих задач.
- Модель 7B, 4 біти — ~5 ГБ RAM. Sweet spot: помітно розумніша, все ще в читабельному темпі.
- 13B і вище — 8-10 ГБ+ і повільно на CPU. Технічно можна, на практиці дратує.
Швидкість, чесно: на кількох vCPU побачите кілька токенів на секунду. Для чат-бота чи помічника з коду, де ви читаєте по мірі набору, — чудово. Для пакетної обробки мільйона документів — ні, це робота для GPU, і ми не вдаємо, що інакше. GPU-інстансів у нас немає. Якщо вашій задачі потрібна модель на 70B чи важкий потік — CPU-VPS, наш чи будь-чий, невідповідний інструмент, і знати це краще до того, як витратите хоч цент.
А ось приватна 7B, що відповідає на ваші питання й нікуди не стукає? Така спокійно живе на 6 ГБ.
Встановлення — три команди
Піднімаєте сервер, заходите по SSH і:
curl -fsSL https://ollama.com/install.sh | sh # ставить Ollama
ollama run llama3.2:3b # качає й запускає модель 3B
Усе — ви вже спілкуєтесь у терміналі. Щоб смикати зі свого коду, Ollama вже піднімає HTTP API на порту 11434:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2:3b",
"prompt": "Скороти цей changelog у два рядки: ...",
"stream": false
}'
Одна річ, яку варто знати одразу: за замовчуванням цей API слухає лише localhost. Лишіть так і ходіть через SSH-тунель — інакше він стирчить в інтернет. Якщо потрібен доступ ззовні, прикрийте його авторизацією: відкритий ендпоінт моделі на публічному IP — погана ідея.
Який брати сервер
Підбирайте план під модель, а не навпаки:
| Що хочете запустити | Треба RAM | Розумний план |
|---|---|---|
| Модель 3B, легке використання | ~3 ГБ | Small (4 ГБ) |
| Модель 7B, із запасом | ~5-6 ГБ | Medium (6 ГБ) |
| Більше / високий потік | територія GPU | не CPU-VPS |
Для більшості self-хостерів чесна рекомендація — Medium (6 ГБ): вистачає на 7B плюс ваш застосунок і ОС. Small (4 ГБ) підійде, якщо тримаєтесь 3B. Менше — уже впритул, щойно ОС і контекст відкусять своє.
Чому тут
Якщо ви піднімаєте власну LLM, приватність зазвичай половина причини — тож віддавати паспорт за оренду сервера було б дивно. І не треба: оплата в USDC або USDT (чи карткою через on-ramp), без KYC, сервер ваш приблизно за хвилину. Крипто-нативно, дружньо до агентів, а дані лишаються на машині, яку контролюєте ви.
Розмін — той самий, про який ми чесно сказали: лише CPU, стеля 6 ГБ, малі моделі. У цих межах self-hosting чудовий. Поза ними — не давайте нікому продати вам CPU-сервер під задачу, якій потрібен GPU.
Готові спробувати? Оберіть план, оплатіть — і root буде приблизно за 60 секунд, а далі три команди до вашої власної приватної моделі.