Можно ли запустить LLM без GPU?

Да, для небольших моделей. Модель на 3B или 7B в 4-битной квантизации работает на CPU и отвечает в читаемом темпе — нормально для чат-бота, помощника по коду или фоновых задач, где вы не смотрите на курсор. Чего на CPU не сделать — обслуживать большую модель (13B и выше) или держать высокий поток запросов; вот тут GPU перестаёт быть опциональным.

Сколько RAM нужно для Llama 7B?

Около 5 ГБ для 4-битной 7B-модели с учётом контекста и ОС — так что 6 ГБ это комфортный минимум. Модель на 3B влезает примерно в 3 ГБ. Меньший квант (Q4) меняет чуть-чуть качества на кучу сэкономленной памяти — на VPS это правильный размен.

Дешевле ли держать свою LLM, чем платить за API?

Зависит от объёма. Облачный API берёт деньги за токены и ничего не стоит в простое; VPS — фиксированный счёт в месяц независимо от использования. Если у вас постоянный поток запросов или важны приватность и отсутствие лимитов — self-hosting выигрывает. Для редких разовых промптов дешевле платный API.

Зачем держать свою LLM, а не брать облачный API?

Три причины, по которым это реально делают: данные не покидают ваш сервер (важно для юридических, медицинских или просто личных заметок), нет лимитов и счётчика за токены, и модель не сменится и не устареет у вас под ногами. Цена — вы сами управляете сервером и живёте в рамках его железа.

Какая самая большая модель реально пойдёт на CPU-VPS?

7B в 4-битном кванте — sweet spot на 6 ГБ. 13B технически загрузится при достаточной RAM, но на CPU станет медленной настолько, что это почувствуется. Дальше нужен GPU, а это уже другой тип сервера.

Свой LLM на VPS через Ollama — что реально работает

Слать каждый промпт в чужой API — нормально, пока в какой-то момент не перестаёт. Может, данные чувствительные и пусть лучше не уходят с вашего сервера. Может, надоели лимиты, или то, что версия модели меняется без спроса, или счётчик за токены, тикающий, пока вы экспериментируете. В какой-то момент «а что если поднять своё?» перестаёт быть мысленным экспериментом.

Ollama делает это по-настоящему просто. Сложнее другой вопрос — что влезет на VPS. И тут честный ответ важнее хайпа.

Что реально пойдёт на CPU

Нет GPU? Значит, инференс на CPU, и размер модели решает всё. Квантизация (ужатие весов до 4 бит) — то, что делает затею практичной: теряете крупицу качества, экономите гору памяти.

Грубые цифры, те самые, что важны:

Модель 3B, 4 бита — ~3 ГБ RAM. Шустро для чата и простых задач.
Модель 7B, 4 бита — ~5 ГБ RAM. Sweet spot: заметно умнее, всё ещё в читаемом темпе.
13B и выше — 8-10 ГБ+ и медленно на CPU. Технически можно, на практике раздражает.

Скорость, честно: на нескольких vCPU увидите несколько токенов в секунду. Для чат-бота или помощника по коду, где вы читаете по мере набора, — отлично. Для пакетной обработки миллиона документов — нет, это работа для GPU, и мы не делаем вид, что иначе. GPU-инстансов у нас нет. Если вашей задаче нужна модель на 70B или тяжёлый поток — CPU-VPS, наш или чей угодно, неподходящий инструмент, и знать это лучше до того, как потратите хоть цент.

А вот приватная 7B, которая отвечает на ваши вопросы и никуда не стучится? Такая спокойно живёт на 6 ГБ.

Установка — три команды

Поднимаете сервер, заходите по SSH и:

curl -fsSL https://ollama.com/install.sh | sh   # ставит Ollama
ollama run llama3.2:3b                            # качает и запускает модель 3B

Всё — вы уже общаетесь в терминале. Чтобы дёргать из своего кода, Ollama уже поднимает HTTP API на порту 11434:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Сократи этот changelog в две строки: ...",
  "stream": false
}'

Одна вещь, которую стоит знать сразу: по умолчанию этот API слушает только localhost. Оставьте так и ходите через SSH-туннель — иначе он торчит в интернет. Если нужен доступ снаружи, прикройте его авторизацией: открытый эндпоинт модели на публичном IP — плохая идея.

Какой брать сервер

Подбирайте план под модель, а не наоборот:

Что хотите запустить	Нужно RAM	Разумный план
Модель 3B, лёгкое использование	~3 ГБ	Small (4 ГБ)
Модель 7B, с запасом	~5-6 ГБ	Medium (6 ГБ)
Больше / высокий поток	территория GPU	не CPU-VPS

Для большинства self-хостеров честная рекомендация — Medium (6 ГБ): хватает на 7B плюс ваше приложение и ОС. Small (4 ГБ) подойдёт, если держитесь 3B. Меньше — уже впритык, как только ОС и контекст откусят своё.

Почему здесь

Если вы поднимаете свою LLM, приватность обычно половина причины — так что отдавать паспорт за аренду сервера было бы странно. И не нужно: оплата в USDC или USDT (или картой через on-ramp), без KYC, сервер ваш примерно за минуту. Крипто-нативно, дружелюбно к агентам, а данные остаются на машине, которую контролируете вы.

Размен — тот самый, про который мы честно сказали: только CPU, потолок 6 ГБ, малые модели. В этих рамках self-hosting прекрасен. За их пределами — не давайте никому продать вам CPU-сервер под задачу, которой нужен GPU.

Готовы попробовать? Выберите план, оплатите — и root будет примерно через 60 секунд, а дальше три команды до вашей собственной приватной модели.

Свой LLM на VPS через Ollama — что реально работает

Что реально пойдёт на CPU

Установка — три команды

Какой брать сервер

Почему здесь

FAQ