Чесна відповідь на «скільки сервера потрібно моєму AI-агенту?» така: менше, ніж здається — рівно до миті, коли раптом ні. Весь фокус — зрозуміти, по який бік цієї межі ваше навантаження. Тож без гадань — ось що реально споживає кожен тип агента.
Одне питання, що вирішує все
Модель працює на вашому сервері чи агент викликає модель по API?
Якщо агент спілкується з хмарною LLM (частий випадок), уся розумна й дорога частина відбувається на чужому залізі. Ваш сервер лише крутить цикл оркестрації: отримати ввід → викликати API → розібрати відповідь → може, сходити в БД → повторити. Це легко. По-справжньому легко — 1 ГБ справляється без напруги.
Якщо ж модель крутиться локально, усе змінюється: RAM з'їдають ваги моделі, і ядер захочеться по максимуму. Більшості це не потрібно. Кому потрібно — зазвичай точно знають чому (приватність, немає лімітів, офлайн). Якщо це ви — у нас є окремий гайд із self-host локальної LLM.
Підбір за типом навантаження
Реальні цифри, за якими можна діяти:
| Навантаження | RAM | vCPU | Диск | Нотатка |
|---|---|---|---|---|
| Чат/асистент-агент (через API) | 1 ГБ | 2 | 15 ГБ | Цикл крихітний, модель віддалена |
| Скрапер / дата-агент | 2 ГБ | 2 | 25 ГБ | Запас під парсинг + дані |
| Торговий бот | 1–2 ГБ | 2 | 15–25 ГБ | Важливіша затримка, ніж розмір — див. гайд по торгових ботах |
| Кілька агентів паралельно | 4 ГБ | 4 | 35 ГБ | Кожен дешевий, але в сумі набігає |
| Локальна LLM 3B–7B (квантована) | 4–6 ГБ | 4–6 | 25–45 ГБ | Лише CPU, у читабельному темпі, не для обсягу |
Закономірність: агенти на API — крихітні; єдине важке — локальні моделі.
Де CPU-сервер закінчується
Скажемо прямо про стелю: наші тарифи впираються в 6 ГБ RAM і 6 ядер, лише CPU — без GPU. Це покриває все з таблиці вище, включно з 7B-моделлю локально для себе. Чого НЕ покриває: моделі 13B+, високопотоковий локальний інференс і все, чому реально потрібен GPU. Якщо це ваша задача — CPU-VPS (наш чи будь-який) невідповідний інструмент, і краще знати це зараз, а не після деплою.
Для 95% агентів, що ходять в API, це взагалі не проблема. Їм добре на найменшому сервері.
Практичне правило
- Просто агент, що викликає API? Старт із 1 ГБ / 2 ядра. Потім можна збільшити.
- Скрапінг чи зберігання даних? 2 ГБ і диск побільше.
- Кілька агентів чи мала локальна модель? 4–6 ГБ і 4+ ядра.
- Потрібен GPU? Інша категорія — не впихуйте на CPU.
Не беріть із запасом «про всяк випадок». Агенти за природою легкі; ціна замалого сервера — один ресайз, а ціна завеликого — оплата простоюючої RAM щомісяця.
Коли обрали розмір — агент може орендувати сервер сам через MCP, або замовите за хвилину на сайті. У будь-якому разі — починайте з малого: майже напевно вам потрібно менше, ніж очікувалося.