Чи можна запустити LLM без GPU?

Так, для невеликих моделей. Модель на 3B або 7B у 4-бітній квантизації працює на CPU і відповідає в читабельному темпі — нормально для чат-бота, помічника з коду чи фонових задач, де ви не дивитесь на курсор. Чого на CPU не зробити — обслуговувати велику модель (13B і вище) чи тримати високий потік запитів; ось тут GPU перестає бути опціональним.

Скільки RAM треба для Llama 7B?

Близько 5 ГБ для 4-бітної 7B-моделі з урахуванням контексту та ОС — тож 6 ГБ це комфортний мінімум. Модель на 3B вміщається приблизно в 3 ГБ. Менший квант (Q4) міняє трохи якості на купу зекономленої пам'яті — на VPS це правильний розмін.

Чи дешевше тримати власну LLM, ніж платити за API?

Залежить від обсягу. Хмарний API бере гроші за токени й нічого не коштує в простої; VPS — фіксований рахунок на місяць незалежно від використання. Якщо у вас постійний потік запитів або важливі приватність і відсутність лімітів — self-hosting виграє. Для рідких разових промптів дешевший платний API.

Навіщо тримати власну LLM, а не брати хмарний API?

Три причини, з яких це реально роблять: дані не покидають ваш сервер (важливо для юридичних, медичних чи просто особистих нотаток), немає лімітів і лічильника за токени, і модель не зміниться та не застаріє у вас під ногами. Ціна — ви самі керуєте сервером і живете в межах його заліза.

Яка найбільша модель реально піде на CPU-VPS?

7B у 4-бітному кванті — sweet spot на 6 ГБ. 13B технічно завантажиться за достатньої RAM, але на CPU стане повільною настільки, що це відчується. Далі потрібен GPU, а це вже інший тип сервера.

Власна LLM на VPS через Ollama — що реально працює

Слати кожен промпт у чужий API — нормально, поки в якийсь момент не перестає. Може, дані чутливі й нехай краще не йдуть із вашого сервера. Може, набридли ліміти, або те, що версія моделі змінюється без попиту, або лічильник за токени, що цокає, поки ви експериментуєте. У якийсь момент «а що як підняти своє?» перестає бути уявним експериментом.

Ollama робить це по-справжньому просто. Складніше інше питання — що влізе на VPS. І тут чесна відповідь важливіша за хайп.

Що реально піде на CPU

Немає GPU? Отже, інференс на CPU, і розмір моделі вирішує все. Квантизація (стиснення ваг до 4 біт) — те, що робить затію практичною: втрачаєте крихту якості, заощаджуєте гору пам'яті.

Грубі цифри, ті самі, що важать:

Модель 3B, 4 біти — ~3 ГБ RAM. Жваво для чату й простих задач.
Модель 7B, 4 біти — ~5 ГБ RAM. Sweet spot: помітно розумніша, все ще в читабельному темпі.
13B і вище — 8-10 ГБ+ і повільно на CPU. Технічно можна, на практиці дратує.

Швидкість, чесно: на кількох vCPU побачите кілька токенів на секунду. Для чат-бота чи помічника з коду, де ви читаєте по мірі набору, — чудово. Для пакетної обробки мільйона документів — ні, це робота для GPU, і ми не вдаємо, що інакше. GPU-інстансів у нас немає. Якщо вашій задачі потрібна модель на 70B чи важкий потік — CPU-VPS, наш чи будь-чий, невідповідний інструмент, і знати це краще до того, як витратите хоч цент.

А ось приватна 7B, що відповідає на ваші питання й нікуди не стукає? Така спокійно живе на 6 ГБ.

Встановлення — три команди

Піднімаєте сервер, заходите по SSH і:

curl -fsSL https://ollama.com/install.sh | sh   # ставить Ollama
ollama run llama3.2:3b                            # качає й запускає модель 3B

Усе — ви вже спілкуєтесь у терміналі. Щоб смикати зі свого коду, Ollama вже піднімає HTTP API на порту 11434:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Скороти цей changelog у два рядки: ...",
  "stream": false
}'

Одна річ, яку варто знати одразу: за замовчуванням цей API слухає лише localhost. Лишіть так і ходіть через SSH-тунель — інакше він стирчить в інтернет. Якщо потрібен доступ ззовні, прикрийте його авторизацією: відкритий ендпоінт моделі на публічному IP — погана ідея.

Який брати сервер

Підбирайте план під модель, а не навпаки:

Що хочете запустити	Треба RAM	Розумний план
Модель 3B, легке використання	~3 ГБ	Small (4 ГБ)
Модель 7B, із запасом	~5-6 ГБ	Medium (6 ГБ)
Більше / високий потік	територія GPU	не CPU-VPS

Для більшості self-хостерів чесна рекомендація — Medium (6 ГБ): вистачає на 7B плюс ваш застосунок і ОС. Small (4 ГБ) підійде, якщо тримаєтесь 3B. Менше — уже впритул, щойно ОС і контекст відкусять своє.

Чому тут

Якщо ви піднімаєте власну LLM, приватність зазвичай половина причини — тож віддавати паспорт за оренду сервера було б дивно. І не треба: оплата в USDC або USDT (чи карткою через on-ramp), без KYC, сервер ваш приблизно за хвилину. Крипто-нативно, дружньо до агентів, а дані лишаються на машині, яку контролюєте ви.

Розмін — той самий, про який ми чесно сказали: лише CPU, стеля 6 ГБ, малі моделі. У цих межах self-hosting чудовий. Поза ними — не давайте нікому продати вам CPU-сервер під задачу, якій потрібен GPU.

Готові спробувати? Оберіть план, оплатіть — і root буде приблизно за 60 секунд, а далі три команди до вашої власної приватної моделі.

Власна LLM на VPS через Ollama — що реально працює

Що реально піде на CPU

Встановлення — три команди

Який брати сервер

Чому тут

FAQ