forked from templates/template-go-backend
Обновить README.md
This commit is contained in:
@@ -70,7 +70,7 @@ ollama pull qwen3:0.6b
|
||||
| Переменная | Значение | Описание |
|
||||
|---|---|---|
|
||||
| `OLLAMA_HOST` | `0.0.0.0` | **ОБЯЗАТЕЛЕН.** Открывает доступ к серверу по сети. |
|
||||
| `OLLAMA_KEEP_ALIVE` | `30m` или `-1` | **ОБЯЗАТЕЛЕН.** Держит модель в памяти. `30m` — выгрузит через 30 минут, `-1` — не выгружает вообще. Без этого модель будет постоянно перезагружаться. |
|
||||
| `OLLAMA_KEEP_ALIVE` | `30m` или `-1` | **ОБЯЗАТЕЛЕН.** Держит модель в памяти. `30m` — выгрузит через 30 минут, если запросов не будет, `-1` — не выгружает вообще. Без этого модель будет постоянно перезагружаться. |
|
||||
| `OLLAMA_NUM_PARALLEL` | `1`, `2`, `3` или `4` | Количество одновременных запросов. Можно не ставить, если не нужны параллельные запросы. |
|
||||
| `OLLAMA_FLASH_ATTENTION` | `1` | Ускоряет инференс на GPU (если поддерживается). Полезен, если есть GPU. |
|
||||
| `OLLAMA_KV_CACHE_TYPE` | `q8_0` / `f16` / `q4_0` | Кэш ключ-значение (KV cache), который модель использует для контекста. |
|
||||
|
||||
Reference in New Issue
Block a user