lvs

type

status

date

slug

summary

Cluster概念

系统扩展方式： Scale UP：向上扩展,增强（例如增强硬件性能，比如内存32G换成128G） Scale Out：向外扩展,增加设备，调度分配问题，Cluster（例如增加服务器）

Cluster：集群,为解决某个特定问题将多台计算机组合起来形成的单个系统

Linux Cluster类型：

LB：Load Balancing，负载均衡
HA：High Availiablity，高可用，SPOF（single Point Of failure） MTBF:Mean Time Between Failure 平均无故障时间 MTTR:Mean Time To Restoration（ repair）平均恢复前时间 A=MTBF/（MTBF+MTTR） (0,1)：99%, 99.5%, 99.9%, 99.99%, 99.999%

HPC：High-performance computing，高性能 www.top500.org

分布式系统：分布式存储：云盘分布式计算：hadoop，Spark

集群设计原则

1、可扩展性—集群的横向扩展能力 2、可用性—无故障时间(SLA) 3、性能—访问响应时间 4、容量—单位时间内的最大并发吞吐量(C10K 并发问题)

基础设施层面

提升硬件资源性能—从入口防火墙到后端web server均使用更高性能的硬件资源

多域名—DNS 轮询A记录解析

多入口—将A记录解析到多个公网IP入口

多机房—同城+异地容灾

CDN(Content Delivery Network)—基于GSLB(Global Server Load Balance)实现全局负载均衡

业务层面

分层：安全层、负载层、静态层、动态层、(缓存层、存储层)持久化与非持久化

分割：基于功能分割大业务为小服务

分布式：对于特殊场景的业务，使用分布式计算

分布式：

分布式应用-服务按照功能拆分，使用微服务。

分布式静态资源–静态资源放在不同的存储集群上。

分布式数据和存储–使用key-value缓存系统。

分布式计算–对特殊业务使用分布式计算，比如Hadoop集群。

集群和分布式

集群：同一个业务系统，部署在多台服务器上。集群中，每一台服务器实现的功能没有差别，数据和代码都是一样的

分布式：一个业务被拆成多个子业务，或者本身就是不同的业务，部署在多台服务器上。分布式中，每一台服务器实现的功能是有差别的，数据和代码也是不一样的，分布式每台服务器功能加起来，才是完整的业务

分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率

对于大型网站，访问用户很多，实现一个群集，在前面放一个均衡服务器，后面几台服务器完成同一业务，如果有业务访问的时候，响应服务器看哪台服务器的负载不是很重，就将给哪一台去完成，并且一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同的业务，如果一个节点垮了，那这个业务可能就会失败

Cluster分类

LB Cluster的实现

硬件 F5 Big-IP Citrix Netscaler A10 A10

软件（目前常用的lvs、nginx、haproxy） lvs：Linux Virtual Server(工作在四层及传输层基于内核实现，性能强大功能简单，单负载上/数百万连接) nginx：支持七层调度，阿里七层SLB使用Tengine(单服务器单IP 65536/2连接) haproxy：七层调度，支持模拟四层，四层工作于内核，haproxy及nginx是应用程序

haproxy比nginx性能高，但nginx比haproxy功能多

会话保持：负载均衡

(1) session sticky：同一用户调度固定服务器 Source IP：LVS sh算法（对某一特定服务而言） Cookie (2) session replication：每台服务器拥有全部session session multicast cluster (3) session server：专门的session服务器 Memcached，Redis

LVS介绍

LVS：Linux Virtual Server，负载调度器，集成内核，章文嵩，阿里SLB目前使用官网：http://www.linuxvirtualserver.org/ VS: Virtual Server，负责调度 RS: Real Server，负责真正提供服务 L4：四层路由器或交换机

工作原理：VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS，根据调度算法来挑选RS

工作流程

iptables/netfilter： iptables：用户空间的管理工具 netfilter：内核空间上的框架 PREROUTING-INPUT #入口方向，目标地址转换 PREROUTING-FORWARD-POSTROUTING #路由转发 OUTPUT-POSTROUTING #出口方向，SNAT源地址转换\\

PREROUTING-INPUT-POSTROUTING:在INPUT定义集群服务，在INPUT 阶段强行修改数据包正常流程

数据包交换方式：交换机：MAC地址路由器：IP地址 LVS：目标套接字(目标IP和端口)

验证当前内核是否支持ipvs

支持的协议：TCP， UDP， AH， ESP， AH\_ESP, SCTP

LVS概念

lvs集群类型中的术语：

VS：Virtual Server，Director Server(DS)，Dispatcher(调度器)，Load Balancer

RS：Real Server(lvs), upstream server(nginx)，backend server(haproxy)

CIP：Client IP

VIP: Virtual serve IP #VS外网的IP，与客户端相连

DIP: Director IP #VS内网的IP，与后端服务器相连

RIP: Real server IP #后端web服务器IP

访问流程：CIP <–> VIP == DIP <–> RIP

lvs集群的类型

lvs: ipvsadm/ipvs ipvsadm：用户空间的命令行工具，规则管理器，用于管理集群服务及RealServer ipvs：工作于内核空间netfilter的INPUT钩子上的框架

lvs集群的类型： lvs-nat：修改请求报文的目标IP,多目标IP的DNAT lvs-dr：操纵封装新的MAC地址 lvs-tun：在原请求IP报文之外新加一个IP首部 lvs-fullnat：修改请求报文的源和目标IP

lvs-nat模式本质是多目标IP的DNAT，通过将请求报文中的目标地址和目标端口修改为某挑出的RS的RIP和PORT实现转发 1、RIP和DIP应在同一个IP网络，且应使用私网地址；RS的网关要指向DIP 2、请求报文和响应报文都必须经由Director转发，Director易于成为系统瓶颈 3、支持端口映射，可修改请求报文的目标PORT 4、VS必须是Linux系统，RS可以是任意OS系统

NAT模式IP包调度过程

NAT模式

网络模型

LVS-DR模式

LVS-DR：Direct Routing，直接路由，LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行转发，源MAC是DIP所在的接口的MAC，目标MAC是某挑选出的RS的RIP所在接口的MAC地址；源IP/PORT，以及目标IP/PORT均保持不变 1、Director和各RS都配置有VIP 2、确保前端路由器将目标IP为VIP的请求报文发往Director

在前端网关做静态绑定VIP和Director的MAC地址

在RS上使用arptables工具 arptables -A IN -d $VIP -j DROP arptables -A OUT -s $VIP -j mangle –mangle-ip-s $RIP

在RS上修改内核参数以限制arp通告及应答级别 /proc/sys/net/ipv4/conf/all/arp\_ignore /proc/sys/net/ipv4/conf/all/arp\_announce

3、RS的RIP可以使用私网地址，也可以是公网地址；RIP与DIP在同一IP网络；RIP的网关不能指向DIP，以确保响应报文不会经由Director 4、RS和Director要在同一个物理网络 5、请求报文要经由Director，但响应报文不经由Director，而由RS直接发往Client 6、不支持端口映射（端口不能修败） 7、RS可使用大多数OS系统(需要修改内核参数)

DR模式IP包调度过程

lvs-tun模式

转发方式：不修改请求报文的IP首部（源IP为CIP，目标IP为VIP），而在原IP报文之外再封装一个IP首部（源IP是DIP，目标IP是RIP），将报文发往挑选出的目标RS；RS直接响应给客户端（源IP是VIP，目标IP是CIP） 1、DIP, VIP, RIP都应该是公网地址 2、RS的网关一般不能指向DIP 3、请求报文要经由Director，但响应不经由Director 4、不支持端口映射 5、RS的OS须支持隧道功能

TUN模式IP包调度过程

lvs-fullnat模式

lvs-fullnat：通过同时修改请求报文的源IP地址和目标IP地址进行转发 CIP –> DIP #源地址 VIP –> RIP #目标地址 1、VIP是公网地址，RIP和DIP是私网地址，且通常不在同一IP网络；因此，RIP的网关一般不会指向DIP 2、RS收到的请求报文源地址是DIP，因此，只需响应给DIP；但Director还要将其发往Client 3、请求和响应报文都经由Director 4、支持端口映射注意：此类型kernel默认不支持，需要重新编译支持fullnat模式

LVS工作模式总结

LVS/NAT

LVS/TUN

LVS/DR

Real Server

any

Tunneling

Non-arp device

server network

private

LAN/WAN

LAN

server number

low (10~20)

High (100)

server gateway

load balancer

own router

Own router

lvs-nat与lvs-fullnat：请求和响应报文都经由Director lvs-nat：RIP的网关要指向DIP lvs-fullnat：RIP和DIP未必在同一IP网络，但要能通信

lvs-dr与lvs-tun：请求报文要经由Director，但响应报文由RS直接发往Client lvs-dr：通过封装新的MAC首部实现，通过MAC网络转发 lvs-tun：通过在原IP报文外封装新IP头实现转发，支持远距离(跨互联网)通信

ipvs scheduler

根据其调度时是否考虑各RS当前的负载状态两种：静态方法和动态方法

静态方法：仅根据算法本身进行调度

1、RR：roundrobin，轮询 2、WRR：Weighted RR，加权轮询 3、SH：Source Hashing，实现session sticky，源IP地址hash；将来自于同一个IP地址的请求始终发往第一次挑中的RS，从而实现会话绑定 4、DH：Destination Hashing；目标地址哈希，第一次轮询调度至RS，后续将发往同一个目标地址的请求始终转发至第一次挑中的RS，典型使用场景是正向代理缓存场景中的负载均衡，如：宽带运营商

动态方法：主要根据每RS当前的负载状态及调度算法进行调度Overhead=value 较小的RS将被调度

1、LC：least connections 适用于长连接场景应用Overhead=activeconns(活动连接)_256+inactiveconns(非活动连接) #1个活动等于256非活动 2、WLC：Weighted LC，加权轮询，默认调度方法Overhead=(activeconns_256+inactiveconns)/weight 3、SED：Shortest Expection Delay,初始连接高权重优先，权重越高的服务器Overhead值会越小Overhead=(activeconns+1)\*256/weight 4、NQ：Never Queue，第一轮均匀分配，后续SED 5、LBLC：Locality-Based LC，动态的DH算法，使用场景：根据负载状态实现正向代理 6、LBLCR：LBLC with Replication，带复制功能的LBLC，解决LBLC负载不均衡问题，从负载重的复制到负载轻的RS

程序包：ipvsadm Unit File: ipvsadm.service 主程序：/usr/sbin/ipvsadm 规则保存工具：/usr/sbin/ipvsadm-save 规则重载工具：/usr/sbin/ipvsadm-restore 配置文件：/etc/sysconfig/ipvsadm-config

核心功能

保存及重载规则

常用命令整合

管理集群服务：增、改、删

管理集群上的RS：增、改、删

示例LVS-NAT

示例 LVS-DR

示例FireWall Mark

先给防火墙打个标签，然后调用LVS去引用，多个端口较方便

持久连接

session 绑定：对共享同一组RS的多个集群服务，需要统一进行绑定，lvs sh算法无法实现持久连接（ lvs persistence ）模板：实现无论使用任何调度算法，在一段时间内（默认360s ），能够实现将来自同一个地址的请求始终发往同一个RSipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]]

持久连接实现方式：每端口持久（PPC）：每个端口定义为一个集群服务，每集群服务单独调度每防火墙标记持久（PFWMC）：基于防火墙标记定义集群服务；可实现将多个端口上的应用统一调度，即所谓的port Affinity 每客户端持久（PCC）：基于0端口（表示所有服务）定义集群服务，即将客户端对所有应用的请求都调度至后端主机，必须定义为持久模式

注意：-p不指定是360秒，但man上面显示默认是300秒，可以指定会话保持的时间

LVS高可用性

Director不可用，整个系统将不可用；SPoF Single Point of Failure 解决方案：高可用 keepalived heartbeat/corosync

某RS不可用时，Director依然会调度请求至此RS 解决方案：由Director对各RS健康状态进行检查，失败时禁用，成功时启用 keepalived heartbeat/corosync ldirectord 检测方式： (a) 网络层检测，icmp (b) 传输层检测，端口探测 (c) 应用层检测，请求某关键资源 RS全不用时：backup server, sorry server

源地址源端口目标地址目标端口传输层必须的

ldirectord

ldirectord：监控和控制LVS守护进程，可管理LVS规则包名：ldirectord-3.9.6-0rc1.1.1.x86\_64.rpm 下载：http://download.opensuse.org/repositories/network:/ha-clustering:/Stable/CentOS\\_CentOS-7/x86\\_64/

/etc/ha.d/ldirectord.cf 主配置文件 /usr/share/doc/ldirectord-3.9.6/ldirectord.cf 配置模版 /usr/lib/systemd/system/ldirectord.service 服务 /usr/sbin/ldirectord 主程序,Perl实现 /var/log/ldirectord.log 日志 /var/run/ldirectord.ldirectord.pid pid文件

小结

LVS-NAT 用户CIP请求VIP –> VIP调度DIP去请求RIP –> RIP收到请求给DIP –> DIP收到回报之后使用VIP将用户请求返回 LVS-DR 用户CIP请求VIP –> VIP高度DIP去请求RIP –> RIP收到请求处理完之接发给用户不经过LVS调试主机

高可用时间计算方式 99%、99.9%、99.99%、99.999%、99.9999%

故障时间 100%-99%=0.01 1个月计算 30天_24小时_60分钟_故障时间0.01=432分钟 1年计算 365天_24小时_60分钟_故障时间0.01=5256分钟

故障时间 100%-99.99%=0.0001 1个月计算 30天_24小时_60分钟_故障时间0.0001=4.32分钟 1年计算 365天_24小时_60分钟_故障时间0.0001=52.56分钟

一年故障时间根据公司服务标准来决定，当然远程登录VPN和排查问题也需要时间的，可采用故障自动切换，监控告警等其他措施高可用、调度算法、会话保持等扩展性（向上、向外扩展）、性能、高并发

ldirectord其实类似与脚本，监控RS服务的端口，也可以使用shell脚本来代替

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 438803792@qq.com