litmuschaos介绍
litmuschaos是一个用于云原生的混沌工程工具集。litmus提供了在kubernetes上注入故障演练的工具,以帮助sre发现部署中的弱点。sre使用litmus在模拟环境中运行混沌实验,最终在生产环境中找到bug和漏洞。修复这些弱点可以提高系统的弹性。
架构
litmus采用云原生的方法来创建、管理和监控混沌演练。使用kubernetes自定义资源定义(crd)进行编排,litmus模块可以分成两部分:
- portal
- agents
portal 是一组litmus组件,用作跨云管理混沌实验的控制平面(webui),用于协调和观察agent的混沌实验工作流。
agent 是一组litmus组件,包括运行在k8s集群上的混沌实验工作流。
在典型的用户场景中,用户会安装litmus。
在自有集群上安装portal和agent。使用portal用户可以在agent上创建/调度新的混沌实验工作流,并从portal上观察结果。用户还可以将更多集群连接到portal,并将portal用作跨云管理的单个window。
portal components
- litmus webui
litmus webui提供了web用户界面,用户可以在这里轻松构建和观察混沌实验工作流,webui也充当了跨云混沌实验控制平面。 - litmus server
litmus服务器充当中间件,用于处理来自用户界面的api请求,将配置和结果详细信息存储到数据库中。它还充当请求之间的通信接口,并将工作流调度到代理。 - workflow
基于argo的一个工作流引擎,混沌实验工作流不仅仅是一个简单的混沌实验。它支持用户定义预期结果、观察结果、分析整个系统行为,以及在决策过程中是否需要调整系统以提高弹性。litmuschaos为典型的开发或操作团队提供了开发、使用和管理混沌实验工作流所必需的基础设施。litmus的teaming和gitops特性大大有助于团队或软件组织内部的混沌工作流管理的协作。 - litmus db
litmus db充当混沌实验工作流及其结果的存储。
agent components
- chaos operator
chaos operator监视chaosengine并执行cr中提到的混沌实验。chaos operator是命名空间范围的。默认情况下,它在litmus名称空间中运行。实验完成后,chaos operator调用chaos exporter将混沌实验metrics导出到prometheus数据库。 - crds
在安装过程中,kubernetes集群上安装了以下三个crd。
- chaosexperiment
混沌实验是litmuschaos体系结构中的基本单元。用户可以选择现成的混沌实验或创建新的混沌实验来构建所需的混沌工作流。 - chaosengine
将kubernetes application或kubernetes node链接到chaosexperiment的resource。通过litmuschaos operator监控该resource,然后调用混沌演练chaosexperiment。 - chaosresult
保存混沌实验结果的资源。chaos exporter读取结果并将metrics导出到已配置的prometheus服务器中。
- chaos probes
chaos probes是可插拔的检查探针,可以在任何混沌实验的chaosengine中定义。混沌实验pod根据它们定义的模式执行这些检查,并将它们的成功作为确定实验结果的必要条件(以及标准的“内置”检查)。 - chaos exporter
可以选择将metrics导出到prometheus数据库。chaos exporter实现了prometheus metrics endpoint。 - subscriber
subscriber是agent端使用的组件,它与litmus server组件交互,获取混沌实验工作流的详细信息,并将结果发送回代理端。
安装
control plane安装
pre-requisites
- kubernetes 1.15 or later.
- persistent volume of 20gb
- helm3 or kubectl
installation using helm
kubectl create ns litmus
git clone https://github.com/litmuschaos/litmus-helm
cd litmus-helm
helm install litmuschaos --namespace litmus ./charts/litmus-2-0-0-beta/
verify your installation
kubectl get pods -n litmus
chaos-litmus-portal-frontend-ff8b554dc-q5rl4 1/1 running 0 2m6s
chaos-litmus-portal-mongo-6764cfdd59-c9r56 1/1 running 0 2m6s
chaos-litmus-portal-server-5ffbccbfff-dknv8 2/2 running 0 2m6s
setup the portal
kubectl get svc -n litmus
name type cluster-ip external-ip port(s) age
chaos-litmus-portal-mongo clusterip 10.104.107.117 27017/tcp 2m
litmusportal-frontend-service nodeport 10.101.81.70 9091:30385/tcp 2m
litmusportal-server-service nodeport 10.108.151.79 9002:32456/tcp,9003:31160/tcp 2m
accessing the portal
username: admin
password: litmus
agent安装
litmus包含两种类型的agent,
- self agent
- external agent
默认情况下,作为litmus安装的一部分,安装portal所在的集群被自动注册为self cluster。从portal中可以自动的在self cluster中执行混沌实验,并且查看执行结果。
如前所述,portal是一个跨云混沌实验控制plane。也就是说,用户可以将多个外部kubernetes agent连接到此portal。连接后,用户可以从portal管理混沌实验,也就是说,用户可以从portal将混都实验发送给agent,并从portal观察结果。使用命令行实用程序,可以将external agent连接到portal。
requirements
kubeconfig
installation
#step1,download litmusctl
wget https://litmusctl-bucket.s3-eu-west-1.amazonaws.com/litmusctl-xxx-xxx-v0.1.0.tar.gz
#step2,unzip
tar -zxvf litmusctl---.tar.gz
#step3,install litmusctl
sudo mv litmusctl /usr/local/bin/litmusctl
#step4,register
litmusctl agent connect
connecting litmuschaos agent
please enter litmuschaos details --
host url where litmus is installed: http://172.17.0.2:31696/
🤔 username [admin]: admin
password:
login successful!
projects list:
1. abc
select project: 1
installation modes:
1. cluster
2. namespace
select mode [cluster]: 1
running prerequisites check....
clusterrole -
clusterrolebinding -
sufficient permissions. connecting agent
enter the details of the agent ----
🤷 agent name: my-agent
agent description: this is a new agent.
platform list
1. aws
2. gke
3. openshift
4. rancher
5. others
select platform [others]: 5
enter the namespace (new or existing) [litmus]: litmus
enter service account [litmus]: litmus
summary --------------------------
agent name: my-agent
agent description: this is a new agent.
platform name: others
namespace: litmus
service account: litmus
installation mode: cluster
-------------------------------------
🤷 do you want to continue with the above details? [y/n]: y
connecting agent to litmus portal.
agents running!!
agent connection successful!!
litmus agents can be accessed here: http://172.17.0.2:31696/targets
创建混沌演练
通过litmuschaos portal创建混沌演练,步骤如下:
-
登录portal
-
workflows页面点击【schedule a workflow】button
-
选择cluster,比如self-cluster
-
选择或者自定义workflow
-
根据需要可以编辑yaml file
-
设置故障权重
-
选择立即执行还是定时执行
-
提交workflow
查看混沌演练
-
点击workflow页面
-
点击具体的workflow
-
点击具体节点,可以查看日志