文档首页/ AI开发平台ModelArts/ ModelArts Studio(MaaS)用户指南/ 使用ModelArts Studio(MaaS)部署模型服务
更新时间:2025-06-09 GMT+08:00
分享

使用ModelArts Studio(MaaS)部署模型服务

在ModelArts Studio大模型即服务平台可以将模型广场的预置服务或用户自建的模型部署为我的服务,便于在“模型体验”或其他业务环境中进行调用。

场景描述

从模型广场或我的模型中选择一个模型进行部署,当模型部署完后会显示在“我的服务”列表中。

约束限制

  • 部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度,详情如下表所示。
    表1 模型默认最大输入输出长度

    模型

    默认最大输入输出长度

    Qwen-14B

    2048

    Qwen2.5-72B-8K

    DeepSeek-R1-Distill-Llama-70B-8K

    DeepSeek-R1-Distill-Qwen-14B-8K

    DeepSeek-R1-Distill-Qwen-32B-8K

    8192

    QwQ-32B-16K

    16384

    Qwen2-72B-32K

    Qwen2.5-7B-32K

    Qwen2.5-72B-32K

    DeepSeek-R1-Distill-Qwen-32B-32K

    32768

    其他模型

    4096

  • 贵阳一区域:最新的版本因为支持新驱动,目前仅支持使用专属资源池(Snt9b2)。
  • 乌兰一区域:支持使用公共资源池(Snt9b3)。
  • 如果支持公共资源池,但是没开白名单,“资源池类型”选择“公共资源池”时,下方会出现提示:公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交售前咨询
  • 如果不支持公共资源池,“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。

    使用历史模型在专属资源池部署时,驱动版本需为23.0.5或23.0.6;使用DeepSeek模型新版本时,驱动版本需为24.0.1。如果驱动版本不正确会导致部署任务创建失败。

计费说明

在MaaS进行模型推理时,会产生计算资源和存储资源的累计值计费。关于计费详情,请参见ModelArts Studio(MaaS)模型推理计费项

前提条件

  • 已准备公共资源池或专属资源池,详细请参见准备ModelArts Studio(MaaS)资源
  • 如需部署已创建的模型,在模型管理 > 我的模型页面,任务状态应为“创建成功”;如需部署模型广场的预置模型,请直接进行以下操作。

部署模型服务

  1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”进入服务列表。
  3. “在线推理”页面,单击“我的服务”页签,在右上角单击“部署模型服务”进入部署页面,完成创建配置。
    表2 部署模型服务参数说明

    参数

    说明

    服务设置

    服务名称

    自定义部署模型服务的名称。

    支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。

    描述

    自定义部署模型服务的简介。支持256字符。

    模型设置

    部署模型

    单击“选择模型”,选择“模型广场”“我的模型”下面的模型。

    资源设置

    资源池类型

    资源池分为公共资源池与专属资源池。

    • 公共资源池供所有租户共享使用。
    • 专属资源池需单独创建,不与其他租户共享。

    实例规格

    选择实例规格,规格中描述了服务器类型、型号等信息。

    说明:

    公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交售前咨询

    实例数

    设置服务器个数。

    更多选项

    内容审核

    选择是否打开内容审核,默认启用。

    • 开关打开(默认打开),内容审核可以阻止在线推理中的输入输出中出现不合规的内容,但可能会对接口性能产生较大影响。
    • 开关关闭,停用内容审核服务,将不会审核在线推理中的输入输出,模型服务可能会有违规风险,请谨慎关闭。

      关闭“内容审核”开关,需要在弹窗中确认是否停用内容审核服务,勾选后,单击“确定”关闭。

    事件通知

    选择是否打开“事件通知”开关。

    • 开关关闭(默认关闭):表示不启用消息通知服务。
    • 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
      • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
      • “事件”:选择要订阅的事件类型。例如“运行中”“已终止”“运行失败”等。
    说明:
    • 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅
    • 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明

    自动停止

    当使用付费资源时,可以选择是否打开“自动停止”开关。

    • 开关关闭(默认关闭):表示服务将一直运行。
    • 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止服务,准备排队等状态不扣除运行时长。
  4. 参数配置完成后,单击“提交”

    “资源池类型”选择“公共资源池”时,会出现“计费提醒”对话框,请您仔细阅读预估费用信息,然后单击“确定”,创建部署任务。模型部署会基于资源占用时长进行计费。服务状态为运行中时会产生费用,最终实际费用以账单为准。

    在“我的服务”列表中,当模型部署服务的“状态”变成“运行中”时,表示模型部署完成。

  5. 模型部署完成后,可以进行在线体验或API调用。具体操作,请参见在ModelArts Studio(MaaS)体验模型服务调用ModelArts Studio(MaaS)部署的模型服务
  6. 在“我的服务”列表中,单击“调用统计”列的图标,可以查看目标服务的调用次数、Tokens数、首Token时延等指标信息。详细信息,请参见在ModelArts Studio(MaaS)查看调用数据和监控指标

查看部署服务信息

  1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”进入服务列表,单击“我的服务”页签。
  3. 单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
    • “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
    • “资源监控”:可以查看服务资源监控指标相关信息。
      表3 资源监控参数说明

      参数

      说明

      时间范围

      支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。

      自定义时间支持最多查看30天的数据。

      CPU使用率 (%)

      服务的CPU使用情况。

      内存使用率 (%)

      服务的内存使用情况。

      NPU算力使用率 (%)

      服务的NPU算力使用情况。

      NPU显存利用率 (%)

      服务的NPU显存使用情况。

      磁盘读取速率 (bit/min)

      服务的磁盘读取速率。

      磁盘写入速率 (bit/min)

      服务的磁盘写入速率。

      上行速率 (bit/min)

      当前服务的出口方向网络流速。

      下行速率 (bit/min)

      当前服务的入口方向网络流速。

    • “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
    • “日志”:可以搜索和查看服务日志。
  4. “服务详情”页面上方,您可以按需进行如下操作。

停止/启动部署服务

只有服务处在排队中、启动中、运行中、部署中、告警状态,才可执行停止操作;只有服务处在部署失败、已停止状态,才可执行启动操作。

  • 停止部署服务
    1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
    2. 在左侧导航栏,选择“在线推理”
    3. “在线推理”页面,单击“我的服务”页签,在目标服务右侧,单击操作列的“停止”
    4. “停止服务”对话框,单击“确定”
  • 启动部署服务
    1. “在线推理”页面,单击“我的服务”页签,在目标服务右侧,单击操作列的“启动”
    2. “启动服务”对话框,仔细阅读提示信息,单击“确定”

      服务状态为运行中时会产生费用。

定时启停部署服务

华东二和华北-乌兰察布一支持通过FunctionGraph控制台实现定时启停,西南-贵阳一支持调用接口实现启停,请您按需选择以下步骤。

华东二和华北-乌兰察布一:

华为云函数工作流FunctionGraph提供定时触发器,可以帮助用户实现ModelArts Studio定时批量启停的计划,适用于需要通过停止不使用的实例并在需要使用实例时自动启动实例,来帮助降低运营成本的场景。更多信息,请参见定时开关机解决方案概述资源和成本规划
  1. 创建rf_admin_trust委托和IAM Agency Management FullAcces策略,为rf_admin_trust委托添加IAM Agency Management FullAcces策略。具体操作,请参见准备工作
  2. 获取ModelArts Studio模型服务ID。
    1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
    2. 在左侧导航栏,选择“在线推理”
    3. “在线推理”页面,单击“我的服务”页签,然后单击目标服务名称。
    4. “服务详情”页面,获取服务ID。
      图1 获取服务ID
  3. 登录华为云解决方案实践,在文本框搜索定时开关机,在“定时开关机”卡片,单击“一键部署”,跳转至“立即创建资源栈”页面,在顶部导航栏选择目标区域,进行定时开关机相关配置。具体操作,请参见快速部署

    关于如何查看函数、编辑环境变量、查看执行日志的具体操作,请参见开始使用

    图2 一键部署定时开关机
  4. 消息通知服务SMN会自动发送受邀订阅主题链接的短信,您可以单击访问链接,使用浏览器打开即可确认订阅。
  5. (可选)如果不需要定时启停功能,可以进行卸载。具体操作,请参见快速卸载

西南-贵阳一:

MaaS支持调用接口实现启停功能,适用于需要通过停止不使用的实例并在需要使用实例时自动启动实例,来帮助降低运营成本的场景。您可以参考以下示例代码,按需修改相关参数,创建自己的启停任务。

  1. 通过IAM获取token和project_id。
  2. 获取ModelArts Studio模型服务ID(maas_server_id)。
    1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
    2. 在左侧导航栏,选择“在线推理”
    3. “在线推理”页面,单击“我的服务”页签,然后单击目标服务名称。
    4. “服务详情”页面,获取服务ID。
      图3 获取服务ID
  3. 使用以下代码示例,调用get_server和post_server方法。
    • get_server方法:用于确认ModelArts服务状态。通过调用该方法,可以获取指定服务的当前状态。
    • post_server方法:用于控制ModelArts服务状态。通过指定操作类型(action_type),可以对服务进行启动或停止操作。action_type参数说明如下:
      • restart:重启服务。
      • terminate:停止服务。

    代码示例如下,请您根据实际情况进行修改。{token}、{project_id}、{maas_server_id}请替换为前两个步骤获取的值。

    import http.client
    import json
    import traceback
    
    
    def get_server(project_id, maas_server_id, token):    //用于确认ModelArts服务状态。通过调用该方法,可以获取指定服务的当前状态。
        try:
            conn = http.client.HTTPSConnection(f"modelarts.cn-southwest-2.myhuaweicloud.com")
            headers = {'X-Auth-Token': f"{token}"}
    
            conn.request("GET", f"/v1/{project_id}/maas/services/{maas_server_id}", None, headers)
            res = conn.getresponse()
            status = res.read().decode("utf-8")
            print("status", status)
        except Exception:
            print("Failed to create service,"
                  f"exception: {traceback.format_exc()}")
    
    
    def post_server(project_id, maas_server_id, token, action_type):    //用于控制ModelArts服务状态。通过指定操作类型(action_type),可以对服务进行启动或停止操作。
        try:
            conn = http.client.HTTPSConnection("modelarts.cn-southwest-2.myhuaweicloud.com")
            headers = {'X-Auth-Token': f"{token}", 'Content-Type': 'application/json'}
    
            body = json.dumps({
                "action_type": action_type      //restart:重启服务;terminate:停止服务。
            })
    
            conn.request("POST", f"/v1/{project_id}/maas/services/{maas_server_id}", body, headers)
            res = conn.getresponse()
            status = res.read().decode("utf-8")
            print("status", status)
        except Exception:
            print("Failed to create service,"
                  f"exception: {traceback.format_exc()}")
    在get_server方法中,通过GET请求获取服务状态。状态信息存储在status变量中,并通过print("服务状态:", status)输出。服务状态反映了服务的当前运行情况,以下是所有可能的状态:
    • Creating:创建中
    • Initing:初始化中
    • Pending:等待中
    • Waiting:等待中
    • Deploying:部署中
    • Running:运行中
    • Concerning:关注中
    • Failed:失败
    • Completed:已完成
    • Terminating:终止中
    • Terminated:已终止
    • Deleting:删除中
    • Deleted:已删除
    • Unknown:未知
    • Abnormal:异常
    • Restarting:重启中
    • Upgrade:升级
    • Scale:扩缩容

删除部署服务

删除操作无法恢复,请谨慎操作。

  1. 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
  2. 在左侧导航栏,选择“在线推理”进入服务列表。
  3. 选择“我的服务”页签。
  4. 选择待删除的服务,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。

相关文档

    OSZAR »