forked from templates/template-go-backend
- Приоритетная очередь для контроля параллельных запросов - Аутентификация по API-ключу из URL (/auth/<key>/v1/...) - Роли пользователей с белым списком моделей и ограничением контекста (num_ctx) - Sliding window rate limiting - Admin API для горячей перезагрузки users.json без перезапуска прокси - Graceful shutdown с таймаутом завершения активных запросов - Маскировка API-ключа в логах - Подробная инструкция по установке для Windows и Linux (SETUP_WIN_SERVER.md)
21 lines
558 B
JSON
21 lines
558 B
JSON
{
|
|
"roles": {
|
|
"vip": {
|
|
"priority": 100,
|
|
"allowed_models": ["qwen3:32b", "qwen3:0.6b"],
|
|
"max_context_length": 32768,
|
|
"rate_limit": { "requests": 60, "window": "1m" }
|
|
},
|
|
"regular": {
|
|
"priority": 10,
|
|
"allowed_models": ["qwen3:0.6b"],
|
|
"max_context_length": 8192,
|
|
"rate_limit": { "requests": 20, "window": "1m" }
|
|
}
|
|
},
|
|
"users": {
|
|
"key-abc123": { "name": "Иванов", "role": "vip", "enabled": true },
|
|
"key-xyz789": { "name": "Петров", "role": "regular", "enabled": true }
|
|
}
|
|
}
|