基础

httpd—-基础1

跨网络的主机间通讯

在建立通信连接的每一端,进程间的传输要有两个标志 IP地址和端口号,合称为套接字地址 socket address 客户机套接字地址定义了一个唯一的客户进程 服务器套接字地址定义了一个唯一的服务器进程
服务>socket>进程>协议>接口 服务端本地访问socket直接在内存中交互,会跳过协议和接口,若客户想访问服务端,必须要访问只能通过网络协议的方式

Socket套接字

notion image
  • Socket:套接字,进程间通信IPC的一种实现,允许位于不同主机(或同一主机)上不同进程之间进行通信和数据交换,SocketAPI出现于1983年,4.2 BSD实现
  • Socket API:封装了内核中所提供的socket通信相关的系统调用
  • Socket Domain:根据其所使用的地址 AF\_INET:Address Family,IPv4 AF\_INET6:IPv6 AF\_UNIX:同一主机上不同进程之间通信时使用
  • Socket Type:根据使用的传输层协议 SOCK\_STREAM:流,tcp套接字,可靠地传递、面向连接 SOCK\_DGRAM:数据报,udp套接字,不可靠地传递、无连接 SOCK\_RAW: 裸套接字,无须tcp或udp,APP直接通过IP包通信

客户/服务器程序的套接字函数

notion image

客户/服务器程序的套接字函数

notion image

系统调用

套接字相关的系统调用
套接字
说明
创建一个套接字
绑定IP和端口
监听
接收请求
请求连接建立
发送
接收
关闭连接
摘录示例:Socket通信示例

HTTP服务通信过程

notion image
notion image
notion image

http相关术语

  • http: Hyper Text Transfer Protocol, 80/tcp
  • html: Hyper Text Markup Language 超文本标记语言,编程语言
  • CSS: Cascading Style Sheet 层叠样式表
  • js: javascript(网站的动画效果)
  • MIME: Multipurpose Internet Mail Extensions
多用途互联网邮件扩展 /etc/mime.types #来自这个RPM包 mailcap参考http://www.w3school.com.cn/media/media\\_mimeref.asp

HTTP协议

  • http/0.9:1991,原型版本,功能简陋,只有一个命令GET。GET/index.html ,服务器只能回应HTML格式字符串,不能回应别的格式
  • http/1.0: 1996年5月,支持cache, MIME, method
    • 每个TCP连接只能发送一个请求,发送数据完毕,连接就关闭,如果还要请求其他资源,就必须再新建一个连接
    • 引入了POST命令和HEAD命令
    • 头信息是 ASCII 码,后面数据可为任何格式。服务器回应时会告诉客户端,数据是什么格式,即Content-Type字段的作用。这些数据类型总称为MIME 多用途互联网邮件扩展,每个值包括一级类型和二级类型,预定义的类型,也可自定义类型, 常见Content-Type值:text/xml image/jpeg audio/mp3
  • http/1.1:1997年1月
    • 引入了持久连接(persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。对于同一个域名,大多数浏览器允许同时建立6个持久连接(最最好多6个连接,每个连接3次握手后,每个连接传输多次资源,比如打电话拨通后,传输语音,结束后,之前是挂断电话)
    • 引入了管道机制(pipelining),即在同一个TCP连接里,客户端可以同时发送多个请求,进一步改进了HTTP协议的效率(简单来说管道机制就是并发数,同时发,多通道)
    • 新增方法:PUT、PATCH、OPTIONS、DELETE
    • 同一个TCP连接里,所有的数据通信是按次序进行的。服务器只能顺序处理回应,前面的回应慢,会有许多请求排队,造成”队头堵塞“(Head-of-line blocking)
    • 为避免上述问题,两种方法:一是减少请求数(解决不了实际问题),二是同时多开持久连接(一个浏览器只支持6个,有限制)。网页优化技巧,如合并脚本和样式表、将图片嵌入CSS代码、域名分片(domain sharding)等(多个资源整合到一起,简单来说就细化,比如动静分离,跨域名,缓存机制等)
    • HTTP 协议不带有状态,每次请求都必须附上所有信息。请求的很多字段都是重复的,浪费带宽,影响速度
    • 缓存处理,在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则引入了更多的缓存控制策略例如Entity tag,If-Unmodified-Since, If-Match,If-None-Match等更多可供选择的缓存头来控制缓存策略
    • 带宽优化及网络连接的使用,HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206(Partial Content),方便了开发者自由的选择以便于充分利用带宽和连接
    • 错误通知的管理,在HTTP1.1中新增24个状态响应码,如409(Conflict)表示请求的资源与资源当前状态冲突;410(Gone)表示服务器上的某个资源被永久性的删除
    • Host头处理,在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有Host头域会报告一个错误(400Bad Request)(简单来说就是虚拟主机)
    • 长连接,HTTP 1.1支持长连接(PersistentConnection)和请求的流水线(Pipelining)处理,在一个TCP连接上可以传送多个HTTP请求和响应,减少了建立和关闭连接的消耗和延迟,在HTTP1.1中默认开启Connection: keep-alive,弥补了HTTP1.0每次请求都要创建连接的缺点(一个连接支持多个会话)

HTTP1.0和1.1现存的问题

  • HTTP1.x在传输数据时,每次都需要重新建立连接,无疑增加了大量的延迟时间,特别是在移动端更为突出
  • HTTP1.x在传输数据时,所有传输的内容都是明文,客户端和服务器端都无法验证对方的身份,无法保证数据的安全性
  • HTTP1.x在使用时,header里携带的内容过大,增加了传输的成本,并且每次请求header基本不怎么变化,尤其在移动端增加用户流量
  • 虽然HTTP1.x支持了keep-alive,来弥补多次创建连接产生的延迟,但是keep-alive使用多了同样会给服务端带来大量的性能压力,并且对于单个文件被不断请求的服务(例如图片存放网站),keep-alive可能会极大的影响性能,因为它在文件被请求之后还保持了不必要的连接很长时间

HTTPS

  • 为解决安全问题,网景在1994年创建了HTTPS,并应用在网景导航者浏览器中。最初,HTTPS是与SSL一起使用的;在SSL逐渐演变到TLS时(其实两个是一个东西,只是名字不同而已),最新的HTTPS也由在2000年五月公布的RFC2818正式确定下来。HTTPS就是安全版的HTTP,目前大型网站基本实现全站 HTTPS
  • HTTPS协议需要到CA申请证书,一般免费证书很少,需要交费
  • HTTP协议运行在TCP之上,所有传输的内容都是明文,HTTPS运行在SSL/TLS之上,SSL/TLS运行在TCP之上,所有传输的内容都经过加密的
  • HTTP和HTTPS使用的是不同的连接方式,端口不同,前者是80,后者是443
  • HTTPS可以有效的防止运营商劫持,解决了防劫持的一个大问题
  • HTTPS 中的SSL握手等过程降低用户访问速度,但是只要经过合理优化和部署,HTTPS 对速度的影响完全可以接受

SPDY

  • SPDY:2009年,谷歌研发,综合HTTPS和HTTP两者有点于一体的传输协议,主要特点:
  • 降低延迟,针对HTTP高延迟的问题,SPDY优雅的采取了多路复用(multiplexing)。多路复用通过多个请求stream共享一个tcp连接的方式,解决了HOL blocking的问题,降低了延迟同时提高了带宽的利用率
  • 请求优先级(request prioritization)。多路复用带来一个新的问题是,在连接共享的基础之上有可能会导致关键请求被阻塞。SPDY允许给每个request设置优先级,重要的请求就会优先得到响应。比如浏览器加载首页,首页的html内容应该优先展示,之后才是各种静态资源文件,脚本文件等加载,可以保证用户能第一时间看到网页内容
  • header压缩。HTTP1.x的header很多时候都是重复多余的。选择合适的压缩算法可以减小包的大小和数量
  • 基于HTTPS的加密协议传输,大大提高了传输数据的可靠性
  • 服务端推送(server push),采用了SPDY的网页,例如网页有一个sytle.css的请求,在客户端收到sytle.css数据的同时,服务端会将sytle.js的文件推送给客户端,当客户端再次尝试获取sytle.js时就可以直接从缓存中获取到,不用再发请求了

HTTP2

  • http/2.0:2015年
  • HTTP2.0是SPDY的升级版
  • 头信息和数据体都是二进制,称为头信息帧和数据帧
  • 复用TCP连接,在一个连接里,客户端和浏览器都可以同时发送多个请求回应,且不用按顺序一一对应,避免了“队头堵塞“,此双向的实时通信称为多工(Multiplexing)
  • 引入头信息压缩机制(header compression),头信息使用gzip或compress压缩后再发送;客户端和服务器同时维护一张头信息表,所有字段都会存入这个表,生成一个索引号,不发送同样字段,只发送索引号,提高速度
  • HTTP/2 允许服务器未经请求,主动向客户端发送资源,即服务器推送(server push)
  • HTTP2.0和SPDY区别:
  • HTTP2.0 支持明文 HTTP 传输,而 SPDY 强制使用 HTTPS
  • HTTP2.0 消息头的压缩算法采用 HPACK,而非 SPDY 采用的 DEFLATE

HTTP工作机制

  • 工作机制: http请求:http request http响应:http response 一次http事务:请求<–>响应
  • Web资源:web resource
一个网页由多个资源构成,打开一个页面,会有多个资源展示出来,但是每个资源都要单独请求。因此,一个“Web 页面”通常并不是单个资源,而是一组资源的集合 \- 静态文件:无需服务端做出额外处理 文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi \- 动态文件:服务端执行程序,返回执行的结果 文件后缀:.php, .jsp ,.asp
  • 提高HTTP连接性能 1、并行连接:通过多条TCP连接发起并发的HTTP请求 2、持久连接:keep-alive,长连接,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接 3、管道化连接:通过共享TCP连接发起并发的HTTP请求 4、复用的连接:交替传送请求和响应报文(实验阶段)

串行和并行连接

notion image
1个HTML调用了10个资源,比如说10个IP地址呢?这样响应是否快了

串行,持久连接和管道

notion image
https://www.cnblogs.com/hyzm/p/9530392.html 在使用持久连接的情况下,某个连接消息的传递类似于(建立连接持续访问资源,等所有资源访问完后,主动断开) 请求 1 -> 响应 1 -> 请求 2 -> 响应 2 管线化:某个连接上的消息变成了类似这样(一个连接多个请求,服务端同时响应) 请求 1 -> 请求 2 -> 请求 3 -> 响应 1 -> 响应 2 -> 响应 3

URI

  • URI: Uniform Resource Identifier 统一资源标识,分为URL和URN
    • URN: Uniform Resource Naming,统一资源命名 示例: P2P下载使用的磁力链接是URN的一种实现 magnet:?xt=urn:btih:xxxx
    • URL: Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置
    • 两者区别:URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。URN仅用于命名,而不指定地址
URL组成

网站访问量

  • IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次,记录远程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标(如果按IP来计算,计算会不太准确,大部分都是NAT机制的,一个公网IP地址,多个客户端访问)
  • PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页面数量(浏览打开的页面数)
  • UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的(根据用户来判断,cookies,和不同浏览器、机器有关)
网站访问统计示例 1、甲乙丙三人在同一台通过ADSL上网的电脑上(中间没有断网),分别访问网站,并且每人各浏览了2个页面,那么网站的流量统计是:IP: 1 PV:6 UV:1 2、若三人都是ADSL重新拨号后,各浏览了2个页面,则IP: 3 PV:6 UV:1
  • QPS:request per second,每秒请求数
  • PV,QPS,并发连接数换算公式
  • QPS= PV\* 页⾯衍⽣连接次数/ 统计时间(86400)(页面衍生连接次数,就是一个页面有多少个资源)
  • 并发连接数 =QPS \* http平均响应时间
  • 峰值时间:每天80%的访问集中在20%的时间里,这20%时间为峰值时间
  • 峰值时间每秒请求数(QPS)=( 总PV数 _页⾯衍⽣连接次数)_80% ) / ( 每天秒数\* 20% )

Web服务请求处理步骤

notion image

一次完整的http请求处理过程

1、建立连接:接收或拒绝连接请求 2、接收请求:接收客户端请求报文中对某资源的一次请求的过程 Web访问响应模型(Web I/O)单进程I/O模型:启动一个进程处理用户请求,而且一次只处理一个,多个请求被串行响应多进程I/O模型:并行启动多个进程,每个进程响应一个连接请求复用I/O结构:启动一个进程,同时响应N个连接请求 实现方法:多线程模型和事件驱动 多线程模型:一个进程生成N个线程,每线程响应一个连接请求 事件驱动:一个进程处理N个请求复用的多进程I/O模型:启动M个进程,每个进程响应N个连接请求,同时接收M\*N个请求
Web访问响应模型
notion image
3、处理请求:服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理
HTTP常用请求方式,Method GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
4、访问资源: 服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源
web服务器资源路径映射方式 a、docroot b、alias c、虚拟主机docroot d、用户家目录docroot
5、构建响应报文: 一旦Web服务器识别除了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中 包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体 1)响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括: 描述了响应主体MIME类型的Content-Type首部 描述了响应主体长度的Content-Length 实际报文的主体内容 2)URL重定向:web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径 永久重定向:http://www.360buy.com 临时重定向:http://www.taobao.com 3)MIME类型 Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来魔法分类:Apache web服务器可以扫描每个资源的内容,并将其与一个已知模式表(被称为魔法文件)进行匹配,以决定每个文件的MIME类型。这样做可能比较慢,但很方便,尤其是文件没有标准扩展名时显式分类:可以对Web服务器进行配置,使其不考虑文件的扩展名或内容,强制特定文件或目录内容拥有某个MIME类型类型协商: 有些Web服务器经过配置,可以以多种文档格式来存储资源。在这种情况下,可以配置Web服务器,使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)”最好”
6、发送响应报文 Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束了
7、记录日志 最后,当事务结束时,Web服务器会在日志文件中添加一个条目,来描述已执行的事务

HTTP服务器应用

httpd nginx iis tomcat 市场占有率统计:https://www.netcraft.com/

Httpd介绍

ASF: apache software foundation(apache 软件基金会) FSF:Free Software Foundation(自由软件基金会)
特性: 高度模块化:core + modules DSO:Dynamic Shared Object 动态加/卸载 MPM:multi-processing module 多路处理模块

MPM工作模式

  • prefork:多进程I/O模型,每个进程响应一个请求,默认模型 一个主进程:生成和回收n个子进程,创建套接字,不响应请求 多个子进程:工作work进程,每个子进程处理一个请求;系统初始时,预先生成多个空闲进程,等待请求,最大不超过1024个
  • worker:复用的多进程I/O模型,多进程多线程,IIS使用此模型 一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m\*n
  • event:事件驱动模型(worker模型的变种) 一个主进程:生成m个子进程,每个进程直接响应n个请求,并发响应请求:m\*n,有专门的线程来管理这些keep-alive类型的线程,当有真实请求时,将请求传递给服务线程,执行完毕后,又允许释放。这样增强了高并发场景下的请求处理能力 httpd-2.2:event 测试版,centos6默认 httpd-2.4:event 稳定版,centos7默认

prefork MPM

notion image

worker MPM

notion image

event MPM

notion image

httpd功能特性

  • 虚拟主机 IP、Port、FQDN
  • CGI:Common Gateway Interface,通用网关接口
  • 反向代理
  • 负载均衡
  • 路径别名
  • 丰富的用户认证机制 basic(认证是把用户和密码通过 base64 加密后发送给服务器进行验证) digest(认证则是把服务器响应的 401 消息里面的特定的值和用户名以及密码结合起来进行不可逆的摘要算法运算得到一个值,然后把用户名和这个摘要值发给服务器,服务通过用户名去 在自己本地找到对应的密码,然后进行同样的摘要运算,再比较这个值是否和客户端发过来的摘要值一样。)
  • 支持第三方模块
httpd-2.4
  • 新特性
    • MPM支持运行为DSO机制;以模块形式按需加载
    • event MPM生产环境可用
    • 异步读写机制
    • 支持每模块及每目录的单独日志级别定义
    • 每请求相关的专用配置
    • 增强版的表达式分析式
    • 毫秒级持久连接时长定义
    • 基于FQDN的虚拟主机不需要NameVirutalHost指令
    • 新指令,AllowOverrideList
    • 支持用户自定义变量
    • 更低的内存消耗

小结

1、http协议版本区别 2、httpd工作机制 3、httpd请求过程处理过程 4、MPM工作模式 5、httpd的特性

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 438803792@qq.com
Loading...