总结自己在使用华为云的一些心得
SMN
介绍
消息通知服务(Simple Message Notification,SMN)是可靠的、可扩展的、海量的消息处理服务。它可以依据用户的需求主动推送通知消息,最终用户可以通过短信、电子邮件等方式接收。
SMN对接CES,AOM等监控,将告警发送出来
参考文档https://support.huaweicloud.com/productdesc-smn/smn_pd_22000.html
创建主题
控制台-消息通知服务SNM-主题管理-创建主题
添加订阅
说明:
- 配置钉钉机器人,从钉钉获取机器人的token
- 配置邮件订阅,使用公共告警邮箱
- 短信订阅,配置多个运维人员手机号码
CES
介绍
云监控服务为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行
参考文档: https://support.huaweicloud.com/usermanual-ces/zh-cn_topic_0015479901.html
云服务监控
云监控服务不需要开通,在创建弹性云服务器等资源后监控服务会自动启动,包括ECS,RDS,OBS等
注意事项:
- ECS,云主机有时插件异常,需要重新手动安装,不然无法获取监控数据
- RDS,NAT网关,消息列队等其他云服务,无需配置插件
配置监控看板
可以选择新建看板,也可以直接从现有看板复制
进入后,选择多指标一个视图,添加监控资源和指标,例如添加云服务CPU监控指标
同时可以对现有的监控看板进行配置修改,调整
配置资源分组
通过资源分组功能将同一业务相关的弹性云服务器、裸金属服务器、云硬盘、弹性IP、带宽、数据库等资源添加到同一资源分组中。从分组角度查管理资源,管理告警规则,可以极大的降低运维复杂度,提高运维效率。
选择云服务资源
一般要求:
- 测试和生产分别创建不通资源分组
告警配置
告警功能提供对监控指标的告警功能,用户对云服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。
云监控服务使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开启消息通知服务并选择创建的主题,这样在云服务发生异常时,云监控服务可以实时的将告警信息以广播的方式通知这些订阅者。
在没有创建告警通知主题的情况下,告警会发送到帐号默认邮箱。
创建告警规则和告警通知
以创建ECS告警规则为例进行配置说明
- 资源类型-云服务器
- 维度-云服务器
- 分组-关联已有资源分组
- 触发规则-关联模板
- 模板-使用默认模板即可
- 通知方式-主题订阅
- 通知对象-选择对应订阅者
告警记录
在告警记录中,可以查询到历史的告警
AOM1.0
介绍
应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,由应用资源管理、监控中心(可观测性分析)、自动化运维、采集管理四个子服务构成,提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
说明:
- AOM主要监控应用层面,主要针对CCE容器集群中容器业务监控
- AOM其他高级功能,如CMDB等,暂时先不涉及
- AOM1.0目前暂时使用,以后主要是主要使用AOM2.0
参考文档https://support.huaweicloud.com/usermanual-aom2/mon_01_0003.html
配置管理
ICAgent
ICAgent用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装。
当ICAgent存在新版本的时候,需要手动升级。
接入管理
创建accescode,可以将第三方如prometheues的监控数据接入到AOM,目前不用
仪表盘
总览-仪表盘-创建仪表盘
选择添加方式。
本次以监控容器节点状态,为例添加仪表盘
详细请查看文档
关于详细的仪表盘创建查看官方文档
告警
告警流程如下
告警列表
查看当前告警
事件列表
显示CCE集群相关操作事件
告警行动规则
其他配置请参考文档
监控
- 应用监控 ,弃用
- 组件监控,弃用
- 容器监控
日志
日志搜索
通过LTS收集的CCE日志,会发送AOM进行收集
- 组件
- 系统
日志文件
AOM2.0
总览
AOM2.0控制台-总览-容器视角,快速监控容器
监控中心
接入中心
支持将ELB,应用等,通过接入中心可快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。云容器引擎CCE 在购买后集群后默认已经安装ICAgent采集器。
CCE接入
通过对CCE安装prometheus组件,支持云原生监控
ELB接入
选择对应的ELB日志组,日志流和项目
选择增加指标
按照SQL语句选择对指标
指标添加SQL语句,参考LTS中ELB的仪表盘,以下是常用的
暂时无法在飞书文档外展示此内容
仪表盘
系统内置
在接入promethues后,就能找到
系统内置的仪表盘过于笨重,反应较慢
创建自定义仪表盘
告警管理
告警规则
告警规则是从AOM1.0迁移过来的,例如配置一个CPU告警
- 规则类型-指标告警规则
- 配置方式-资源类型-CCE
- 告警规则-按照指标表达式建立
- 行动规则-钉钉告警
告警行动规则
选择对应的主题
以auto-cluster-9e6be6ee-c7c2-1开通的告警规则,是在CCE集群中配置告警中心后自动生成的
日志
日志查询
在接入中心配置了ELB接入,和在LTS中配置的容器日志收集后,可以在日志搜索中
ELB日志
云日志视角-ELB日志组-ELB日志流
CCE日志
云日志视角-CCE日志组-stdout日志流
stdout前缀开头的日志流是把容器的日志输出到标准输出,一般选这个即可
日志接入
略 ,容器化应用暂时不用
接入LTS
此处是将AOM2中的日志接入到LTS中,原则上是LTS上传到AOM中,无需再配置AOM接入LTS,略
应用洞察
应用是根据业务需要,对相同或者相近业务的一组组件进行逻辑划分。通过应用监控您可以及时了解应用的资源使用、状态和告警等信息,以便快速响应,保证系统顺畅运行。
容器工作负载配置
如果需要将CCE的工作负载上报到AOM中,并挂载到“应用监控”页面左侧的应用树中以组件形式体现,需要先升级工作负载。具体操作如下:
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧导航栏中选择“工作负载 ”,选择需要上报到AOM的工作负载类型。
- 在该工作负载对应的“操作”列中选择“更多 > 编辑YAML”。
- 在弹出的“编辑YAML”对话框中找到spec.template.metadata.annotations代码段。
- 图4 编辑yaml文件
关于配置说明:
- 配置完成后会重启工作负载
- 配置了APM探针后,就不用配置该选项
- APM只有探测到JAVA等后端应用,前端NODEJS等需要手动配置agent
- 前端工作负载需要按照此方式添加到AOM中,后端应用通过部署APM探针自动加入AOM中
应用监控
目前应用监控还不够准确,存在一些位置问题
应用资源管理
应用管理
此处创建应用,基本是容器化应用使用
重要提示
AOM按照指标计费
需要酌情优化指标,避免大量使用无用指标,造成费用飙升
APM
介绍
华为云应用性能管理服务(Application Performance Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。
您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用进行全方位监控,帮助您快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。
目前主要使用APM2.0探针,主要用在容器化用用检测
AOM2上配置应用
APM探针是和AOM2关联的,需要在AOM上配置对应的应用分组
说明:
- 应用命名规则 环境+集群类别+应用名,如Test_cce_entrance
- 子节点命名规则 即容器中工作负载的名字,如test-entrance-guard-portal
- 环境 使用CCE集群的名字,如test-cce-ismart-service
CCE中容器配置APM探针
说明:
- 开通APM后会消耗容器资源,资源不够时注意扩容
- 安装APM后,会滚动更新,重启容器,针对生产环境,需要注意
应用查看
LTS
介绍
云日志服务(Log Tank Service,简称LTS),用于收集来自主机和云服务的日志数据,通过海量日志数据的分析与处理,可以将云服务和应用程序的可用性和性能最大化,为您提供实时、高效、安全的日志处理能力,帮助您快速高效地进行实时决策分析、设备运维管理、用户业务趋势分析等。
详细见,https://support.huaweicloud.com/bestpractice-lts/lts_07_0017.html
ICAgent
ICAgent是云日志服务的日志采集工具,运行在需要采集日志的云主机中。首次使用云日志服务采集主机的日志时,需要安装ICAgent
需要安装ICAgent的主机
- CCE集群
- Prod生产业务ECS
配置日志组和日志流
日志组
日志组(LogGroup)是云日志服务进行日志管理的基本单位,可以创建日志流以及设置日志存储时间
控制台-创建日志组
输入“日志存储时间”,可以在1~365天之间进行设置,如果不设置,系统默认存储时间为30天。
规定日志组日志存储时间为7天
日志流
日志流(LogStream)是日志读写的基本单位,日志组中可以创建日志流,将不同类型的日志分类存储,方便对日志进一步分类管理。例如,您可以将不同的日志(操作日志、访问日志等)写入不同的日志流,查询日志时可以进入对应的日志流快速查看日志。
创建日志流
企业项目,按照实际日志收集需求填写,如果日志的收集需求范围很大,推荐填写Prod-iSmart-智服
ELB说明
ELB规划以及日志组日志流对应关系如下所示:
表格 还在加载中,请等待加载完成后再尝试复制
ELB日志配置
ELB在外部流量分发时,会记录HTTP(S)详细的访问日志记录,如URI请求、客户端IP和端口、状态码。
云服务控制台-ELB 选择需要配置的ELB- 选择配置对应的日志组和日志流
单击日志流名称进入日志流详情页面,单击右上角的设置按钮,进入设置页面,在“结构化配置”页签,选择“结构化模板”提取方式,选择“系统模板 > ELB”,保存后在结构化配置完成界面可以根据实际业务需要选择是否开启“快速分析”,快速分析主要用于统计一段时间内某个字段不同值的占比,
说明:ELB选择ELB模板,字段提取采用自动生成即可
常用SQL查询分析语句
暂时无法在飞书文档外展示此内容
可视化分析ELB日志
控制台-日志管理-可视化
或单击“保存”,将当前查询结果新建为可视化图表。当选中某个可视化图表时,单击“保存”,可对当前图表修改结果进行保存。
仪表盘
仪表模板
LB7层仪表盘模板
当日志流标签为log_type=elb_7layer_access或结构化配置了ELB模板时,可使用ELB仪表盘模板查看指标。ELB仪表盘模板分组里有三种仪表盘模板,分别是ELB监控中心、ELB访问中心和ELB秒级监控。
- ELB7层监控中心:主要展示ELB日志的访问量PV、访问量UV、流量、访问失败率、延迟、Host请求TOP、Host延迟TOP、Host失败率TOP、URL请求TOP、URL延迟TOP、URL失败率TOP、后端请求TOP、后端延迟TOP、后端失败率TOP等指标。
- ELB7层访问中心:主要展示ELB日志的PV对比、访问量PV分布(中国)、访问量PV分布(世界)、访问量UV分布(中国)、访问量UV分布(世界)、平均时延分布(中国)、平均时延分布(世界)、今日PV/UV、7日PV/UV、区域访问TOP10(省份)、区域访问TOP10(城市)、Host访问TOP10、UserAgent访问TOP10、设备占比(终端)、设备占比(系统)、TOP URL、TOP 访问IP等指标。
- ELB7层秒级监控:该仪表盘支持通过负载均衡器、客户端IP、后端服务器IP或弹性IP地址过滤信息。主要展示ELB日志的QPS、成功率、延迟、流量、状态码、Upstream状态码等指标。
自定义仪表盘
主要参考ELB仪表盘模板,精简需要的图形
访问量PV
暂时无法在飞书文档外展示此内容
数字折线图
请求成功率
数字图
暂时无法在飞书文档外展示此内容
状态码分布
饼图
暂时无法在飞书文档外展示此内容
访问量
折线图
暂时无法在飞书文档外展示此内容
Host请求
表格
暂时无法在飞书文档外展示此内容
仪表盘使用建议
推荐使用ELB模板-ELB7层访问中心,切换不不同的日志流,就能实现不同ELB的展示
告警
告警列表
按照时间范围显示告警和历史告警信息
告警规则
创建告警规则
说明:
- 统计类型 :关键词统计
- 日志组: 选择对应日志组
- 日志流: 选择对应日志流
- 关键词:设置关键词,LTS会根据设置的关键词对日志流中的日志进行监控。
- 查询时间: 推荐1分钟
- 统计时间:建议使用cron表达式,每个小时的每个 5 分钟执行一次任务
- 匹配条数: 50
- 触发告警级别:紧急
- 发送通知: 发送
- 告警主题:测试环境 Test-iSmart-Notify,生产环境Prod-iSmart-Notify
- 消息模板:关键词模板
消息模板
保持默认,不用修改
日志接入
云日志服务提供实时日志采集功能,支持云服务、API/SDK接入等多种日志采集方式,采集日志后,日志数据可以在云日志控制台以简单有序的方式展示、方便快捷的方式进行查询。
ECS主机日志
选择-云主机ECS-文本日志,选择对应的日志组和日志流
选择主机组
采集配置
其余请参考官方文档
CCE日志
选择日志接入-CCE容器应用日志
- 采集方式:采集到集中 *日志流
- CCE集群对应
- 所属日志组,会自创建,以CCE集群的ID作为结尾命名
检查依赖项
选择主机组
采集配置
说明:
- 数据源配置- 容器标准输出
- 输出到AOM-开
- 标准输出stdout-开
- 标准错误-stderr -开
配置到输出AOM,只能在AOM中查看到相关日志,LTS中的容器日志流是收集不到的!!!
主机管理
主机组
配置好日志接入后,在主机组选择对应的“相关接入配置”即可
主机
CCE集群在配置ICAgent后,能够直接看到
普通ECS主机,手动安装ICagent后,需要一段时间能够在主机中被发现,需要手动分配主机组
配置说明:
- CCE集群配置采集容器标准输出到AOM
CCE集群
CCE带有云原生观测
监控中心
开通即用,AOM2.0的补充
日志中心
不推荐使用,LTS配置输出到AOM即可
告警中心
开通即用,AOM2.0告警的补充
待完善
以下工作需要完善
- 收集生产ECS的日志到LTS
- 收集RDS的日志到LTS
- ELB日志中除了4XX,5XX告警外,还要探测平均访问时长,等信息
- AOM2中容器日志搜索没有AOM1好用
- AOM2中针对使用APM监控容器应用,测试使用中,等待生产实际应用