在ModelArts Studio(MaaS)预置服务中开通商用服务
MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。
场景描述
- 企业智能客服:企业希望利用推理API优化客服系统,实现智能问答、意图识别,提升客服效率与客户满意度。
- 内容创作辅助:媒体、广告公司借助推理API进行文案创作、创意生成,提高内容产出的效率与质量。
- 智能数据分析:金融、电商企业通过推理API对海量数据深度分析,挖掘数据价值,辅助决策制定。
约束限制
计费方式:按Token用量计费,使用量越大费用越高。
计费说明
在调用模型推理服务的过程中,输入内容首先会被分词(tokenize),转换为模型可识别的Token。在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费。详细信息,请参见MaaS模型推理计费项。
优惠券说明
- 当有优惠折扣时,预置服务的商用服务页签会出现相关提示。开通商用服务时,会默认领取可用的优惠券。在扣费时,会优先抵扣优惠券。
- 不同优惠券活动的适用范围和领取条件各不相同,能否成功领取请以实际活动规则为准。
- 模型服务的优惠折扣的发放和使用情况,请前往 进行查看。
服务调用说明
请求可能会根据实际情况路由到其他区域实例。
操作步骤
- 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
- 在左侧导航栏,选择“在线推理”。
- 在“预置服务”页签的“商用服务”页签,在目标服务右侧的“操作”列,单击“开通服务”。
- 在“开通付费服务”页面,勾选目标服务,仔细阅读并勾选“开通须知”区域下的内容,然后单击“立即开通”。
商用服务列表的“优惠折扣”列会显示已有的优惠券,“--”表示没有优惠,请以实际环境为准。
- 开通商用服务后,可以使用预置服务进行体验或调用。具体操作,请参见在MaaS体验模型服务和调用MaaS部署的模型服务。
- 在“商用服务”页签,单击“调用统计”列的
图标,可以查看目标服务的调用次数、Tokens数、首Token时延等指标信息。详细信息,请参见在ModelArts Studio(MaaS)查看调用数据和监控指标。
欠费说明
当您使用某个模型服务欠费后,对应资源实例不会立即停止服务,资源进入宽限期。您需支付按需资源在宽限期内产生的费用,相关费用可在管理控制台 > 费用中心 > 总览“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。此时不会冻结资源, 只会影响用户开通新资源、开通新服务。 已有资源可正常使用。
如果您在宽限期内仍未支付欠款,特定资源会触发欠费冻结,进入保留期,资源状态变为“已冻结”。此时欠费冻结的资源不可使用,未开通的模型不支持再开通。
保留期到期后,如果您仍未支付账户欠款,那么您账号名下此模型相关资源和订单记录会被清理,数据无法恢复。对应模型的付费状态变为未开通。
欠费后请您及时充值,详细操作请参见账户充值。

常见问题
- 有计费示例吗?
计费项和计费示例请参考MaaS模型推理计费项。
- 开通付费服务后,可以关闭吗?
- 使用商用服务,模型状态显示冻结,如何处理?
此时欠费冻结的资源不可使用,未开通的模型不支持再开通。您可以通过充值进行解冻,被冻结的资源实例将恢复使用,未开通的模型将支持开通。详细操作请参见账户充值。
- 如果模型服务的RPM数值为300,可以1秒直接发送300个请求吗?
不可以。如果模型服务的RPM(每分钟请求数)为300,意味着每秒最多可以处理5个请求(300/60=5)。因此,1秒内发送300个请求会远远超出服务的处理能力,导致请求失败。
建议您均匀地发送API请求,避免短时间内发送大量请求。根据API网关的限流机制,如果1秒内的请求数超过RPM/60*1,超额部分的请求可能会触发API网关的速率限制拦截,导致请求失败并返回错误码429(Too Many Requests)。