Быстрый старт

С помощью этой инструкции вы создадите деплоймент языковой модели и проверите ее работу.

Перед началом работы

В веб-консоли выберите нужный проект. Если у вас нет проекта, создайте его.
В списке сервисов выберите GPT Model Hub. При первом запуске нажмите кнопку Активировать, для этого необходима роль admin.
Создайте два сервисных аккаунта:
- Сервисный аккаунт с именем sa-cli с ролью gpt.deployment.editor. От имени этого сервисного аккаунта будет инициализирована MWS CLI и создан деплоймент.
- Сервисный аккаунт с именем sa-inferencer с ролью gpt.inferencer. От имени этого сервисного аккаунта вы будете обращаться к модели.
Создайте ключи доступа:
- Для сервисного аккаунта sa-cli создайте авторизованный ключ и сохраните его в отдельном файле.
- Для сервисного аккаунта sa-inferencer создайте API-ключ и сохраните его.
Установите и настройте утилиту MWS CLI:
1. Установите утилиту.
2. Инициализируйте профиль. Используйте авторизованный ключ сервисного аккаунта sa-cli.
Установите утилиту jq.

Деплоймент модели

Получите список доступных базовых моделей:
bash
```
1
mws gpt model list
```
Выберите подходящую вам модель. В этом руководстве в качестве примера используется модель qwen3-32b.

Создайте деплоймент модели:

1
mws gpt deployment create qwen3-32b --body '
2
metadata:
3
  displayName: "qwen3-32b"
4
  description: "Модель для быстрого старта"
5
spec:
6
  model: "gpt/projects/<имя проекта>/models/qwen3-32b"'

1
metadata:
2
    displayName: qwen3-32b
3
    createTime: "2025-10-23T08:27:22Z"
4
    updateTime: "2025-10-23T08:27:22Z"
5
    etag: f65d6b2b-e5ad-4622-8819-702889fb63d6
6
    description: Модель для быстрого старта
7
    id: gpt/projects/<имя проекта>/deployments/qwen3-32b
8
spec:
9
    model: gpt/projects/<имя проекта>/models/qwen3-32b
10
status:
11
    ready:
12
        state: OK
13
    modalities:
14
        text: true
15
        vision: false
16
        audio: false
17
    capabilities:
18
        chatCompletion: true
19
        embedding: false
20
    deprecation:
21
        inference: "2040-10-16T14:16:38Z"

Работа с моделью

Для работы с OpenAI-совместимым API используется базовый URL https://gpt.mwsapis.ru/projects/<имя проекта>/openai/v1.

Доступно два режима ответа модели:

Опция streaming отключена — модель возвращает ответ модели одним сообщением, без разбиения на части;
Опция streaming включена — модель возвращает ответ частями по мере генерации.

Запрос без streaming

1
curl https://gpt.mwsapis.ru/projects/<имя проекта>/openai/v1/chat/completions \
2
-H 'Content-Type: application/json' \
3
-H "Authorization: Bearer <API-ключ сервисного аккаунта sa-inferencer>" \
4
-d '{
5
      "model": "qwen3-32b",
6
      "messages": [
7
        {
8
          "role": "user", "content": "Привет!"
9
        }
10
      ]
11
    }' | jq .

1
{
2
  "id": "chatcmpl-c37a7ecbae094877b28654dbbfa14b81",
3
  "created": 1758740886,
4
  "model": "qwen3-32b",
5
  "object": "chat.completion",
6
  "choices": [
7
    {
8
      "finish_reason": "stop",
9
      "index": 0,
10
      "logprobs": null,
11
      "message": {
12
        "content": "Привет! Как я могу помочь?",
13
        "role": "assistant",
14
        "audio": null,
15
        "refusal": null,
16
      }
17
    }
18
  ],
19
  "usage": {
20
    "completion_tokens": 45,
21
    "prompt_tokens": 72,
22
    "total_tokens": 117,
23
  },
24
}

В этом примере в поле usage:

prompt_tokens — количество входящих токенов запроса (токенов промпта);
completion_tokens — количество исходящих токенов, сгенерированных моделью (токенов ответа).

Входящие и исходящие токены тарифицируются отдельно.

Запрос со streaming

1
curl https://gpt.mwsapis.ru/projects/<имя проекта>/openai/v1/chat/completions \
2
-H 'Content-Type: application/json' \
3
-H "Authorization: Bearer <API-ключ сервисного аккаунта sa-inferencer>" \
4
-d '{
5
      "model": "qwen3-32b",
6
      "stream": true,
7
      "stream_options": {
8
        "include_usage": true
9
      },
10
      "messages": [
11
        {
12
          "role": "user", "content": "Привет!"
13
        }
14
      ]
15
    }'

1
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":"Пр","reasoning":null,"reasoning_content":null,"refusal":null,"role":"assistant"},"finish_reason":null,"index":0,"logprobs":null}],"object":"chat.completion.chunk"}
2
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":"ив","reasoning":null,"reasoning_content":null,"refusal":null},"finish_reason":null,"index":0,"logprobs":null}],"object":"chat.completion.chunk"}
3
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":"ет","reasoning":null,"reasoning_content":null,"refusal":null},"finish_reason":null,"index":0,"logprobs":null}],"object":"chat.completion.chunk"}
4
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":"！","reasoning":null,"reasoning_content":null,"refusal":null},"finish_reason":null,"index":0,"logprobs":null}],"object":"chat.completion.chunk"}
5
...
6
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":null,"reasoning":null,"reasoning_content":null,"refusal":null},"finish_reason":null,"index":0,"logprobs":null}],"usage":{"completion_tokens":21,"prompt_tokens":12,"total_tokens":33},"object":"chat.completion.chunk"}
7
{"id":"chatcmpl-e999cff5eb274f70988477c978c7d9f7","created":1775157501,"model":"qwen3-32b","choices":[{"delta":{"content":null,"reasoning":null,"reasoning_content":null,"refusal":null},"finish_reason":null,"index":0,"logprobs":null}],"usage":{"completion_tokens":21,"completion_tokens_details":{"reasoning_tokens":0},"prompt_tokens":12,"total_tokens":33},"object":"chat.completion.chunk"}

В этом примере в поле usage:

prompt_tokens — количество входящих токенов запроса (токенов промпта);
completion_tokens — количество исходящих токенов, сгенерированных моделью (токенов ответа).

Входящие и исходящие токены тарифицируются отдельно.

Запрос с изображением

Модели с поддержкой изображений могут обрабатывать изображения, переданные в сообщении пользователя. Признак поддержки отображается в таблице доступных моделей.

1
curl https://gpt.mwsapis.ru/projects/<имя проекта>/openai/v1/chat/completions \
2
-H 'Content-Type: application/json' \
3
-H "Authorization: Bearer <API-ключ сервисного аккаунта sa-inferencer>" \
4
-d '{
5
      "model": "kimi-k2-instruct",
6
      "messages": [
7
        {
8
          "role": "user",
9
          "content": [
10
            { "type": "text", "text": "Что на картинке?" },
11
            { "type": "image_url", "image_url": { "url": "https://mws.ru/uploads/grant_promo_banner_3fdd0964ae_730f25981e.png" } }
12
          ]
13
        }
14
      ]
15
    }' | jq .

1
{
2
  "choices": [
3
    {
4
      "finish_reason": "stop",
5
      "index": 0,
6
      "logprobs": null,
7
      "message": {
8
        "audio": null,
9
        "content": " На картинке изображена **3D-иллюстрация**, представляющая облачную платформу. Основные элементы:\n\n- **Серебристо-белая структура** в виде модульного блока или сервера с выдвижными секциями слева, похожими на жёсткие диски или хранилища данных\n- **Ярко-красный прямоугольный модуль** с надписью белым текстом: **«MWS Cloud Platform»**\n- **Серебряная наградная розетка** с лентой, прикреплённая к красному модулю — символизирует качество, надёжность или премиальный статус платформы\n- **Плоские серебристые панели** внизу, возможно, имитирующие интерфейс или дополнительные модули\n\nОбщий стиль — современный, минималистичный, с глянцевыми поверхностями и мягкими тенями. Изображение, вероятно, является частью корпоративного брендинга для облачной платформы MWS.",
10
        "refusal": null,
11
        "role": "assistant"
12
      }
13
    }
14
  ],
15
  "created": 1777483458,
16
  "id": "chatcmpl-be7b6c068b5c871d",
17
  "model": "kimi-k2-instruct",
18
  "object": "chat.completion",
19
  "usage": {
20
    "completion_tokens": 298,
21
    "prompt_tokens": 1282,
22
    "total_tokens": 1580
23
  }
24
}