KVM原理介绍-01

虚拟化介绍

我们都知道，所谓云，就是不是在本地的，比如我们经常听的阿里云，如果你的公司使用阿里云，给你提供了一台服务器，到购买的时候你会发现它让你有很多选择，选择CPU的型号，内存大小，硬盘大小，带宽多少等等等，就先我么自己组装一个服务一样，那么最后真正给你的这台服务器真的就是真实存在的么？好比你选择了因特尔的I5CPU，是否真的就是给你了那？答案是不是的，那么，那我们选的CPU啊什么的，是怎么来的那，对，就是虚拟化而来的。那么大家想一想，为什么会有虚拟化，我们打个比方，我现在要一台电脑，要能够满足我学习，娱乐的要求，特别是喜欢玩大型游戏的同学，对显卡要求极高，那么又有一部分同学说了，我要求不高，只要能够给我提供简单的上网，能够进行文档的操作就可以了，我们买一个电脑都会有各种不同的需求，服务器在面临的各个行业的公司，更是不一样，那么它不会傻到把所有型号的产品都买上，然后供不同需求的人使用，而是直接用我们的虚拟化技术来实现，而真正的提供服务的物理机，显然不可能是单一的，而是集群状态的，并且是分布式的，那么虚拟化通过在一个物理平台上虚拟出更多的虚拟平台，其中每一个虚拟平台都可以作为独立的终端加入云端给大家提供服务，笔记其直接使用物理机平台、虚拟化在资源的有效利用、动态调配和高可靠性方面有巨大的优势。所以又说会那句话，虚拟化是云端技术，是云计算必不可少的基础。

当然到底什么是云计算，太大，太杂，那么我们首先从最基础的也是最重要的一个环节入手，那就是虚拟化，说到虚拟化，大家可能首先想到的并不是KVM，而是这几年炒的很热的docker，k8s，但殊不知，在docker出名之前，虚拟化产品则是VMware天下，也就是咱们自己所用的虚拟机，虽然说docker是很热的虚拟化产品，后期会在csdn上介绍，但是目前还有很多公司在某个方面会用到KVM技术，比如果，之前有接触过docker的同学肯定都知道，docker这种虚拟化技术是基于你真正的dockerhost机器，也就是说，假设在虚拟化方面，如果你对linux内核方面有需求，那么这种情况下，docker是不能够使用的，因为docker容器的内核跟dockerhosts是一样的，所以，KVM还是有需求的，还是值得我们来学习，研究，并且使用的。

虚拟化发展史

KVM原理介绍-01

市面上主流服务器虚拟化整体解决方案：

商用方案:
1、VMware vSphere
2、Microsoft Hyper-v
开源方案：
1、KVM（红帽、ubuntu等）
2、Xen(思杰、华为等)
这里要明确的是开源软件不等于免费

其实说了这么一大堆，最终说道我们的KVM的时候，我们又不得不再去说点别的，而且在说别的一切之前，要说一句话，那就是，在LINUX系统看来，一切皆是资源，包括我们外置的键盘、鼠标、硬盘、内存等等，为什么会说道这句话那？因为我们要知道一件事，那就是我们要做虚拟化之前，知否我们要真正知道，它原来的东西是怎么回事，打一个不太恰当的比方，比如我们的虚拟机就好像是我们要买一个山寨的苹果X，是吧，我们既然要做是不是的先对他的一个外貌，尺寸等等各方面都要有所了解，我们的虚拟化亦是如此，那么我们就先从来说一声我们熟悉的linux系统，了解一下，linux系统的原理，它和我们的虚拟化的联系在哪里。
Linux系统实现的原理

要知道，我们的linux系统，它的设计是直接运行在裸硬件设备上的，因此它们自己认为它们完全占有计算机硬件。x86 架构提供四个特权级别给操作系统和应用程序来访问硬件。 Ring 是指 CPU 的运行级别，Ring 0是高级别，Ring1次之，Ring2更次之…… 就 Linux+x86 来说，操作系统（内核）需要直接访问硬件和内存，因此它的代码需要运行在高运行级别 Ring0上，这样它可以使用特权指令，控制中断、修改页表、访问设备等等。
应用程序的代码运行在低运行级别上Ring3上，不能做受控操作。如果要做，比如要访问磁盘，写文件，那就要通过执行系统调用（函数），执行系统调用的时候，CPU的运行级别会发生从ring3到ring0的切换，并跳转到系统调用对应的内核代码位置执行，这样内核就为你完成了设备访问，完成之后再从ring0返回ring3。这个过程也称作用户态和内核态的切换。

KVM原理介绍-01

RING设计的初衷是将系统权限与程序分离出来，使之能够让OS更好的管理当前系统资源，也使得系统更加稳定。
举个RING权限的最简单的例子：一个停止响应的应用程式，它运行在比RING0更低的指令环上，你不必大费周章的想着如何使系统回复运作，这期间，只需要启动任务管理器便能轻松终止它，因为它运行在比程式更低的RING0指令环中，拥有更高的权限，可以直接影响到RING0以上运行的程序，当然有利就有弊
RING保证了系统稳定运行的同时，也产生了一些十分麻烦的问题。比如一些OS虚拟化技术，在处理RING指令环时便遇到了麻烦，系统是运行在RING0指令环上的，但是虚拟的OS毕竟也是一个系统，也需要与系统相匹配的权限。而RING0不允许出现多个OS同时运行在上面，最早的解决办法便是使用虚拟机，把OS当成一个程序来运行。
那么，虚拟化在这里就遇到了一个难题，因为宿主操作系统是工作在 ring0 的，客户操作系统就不能也在 ring0了，但是它不知道这一点，以前执行什么指令，现在还是执行什么指令，但是没有执行权限是会出错的。所以这时候虚拟机管理程序（VMM）需要避免这件事情发生。
VMM一般指虚拟机监视程序
监控系统行为是虚拟机系统的核心任务监控系统可用于调度任务、负载均衡、向管理员报告软硬件故障，并广泛控制系统的使用情况

虚拟化实现的几种方式

虚拟机如何通过VMM实现 Guest CPU 对硬件的访问，根据其原理不同有三种实现技术： 1. 全虚拟化 2. 半虚拟化 3. 硬件辅助的虚拟化

基于二进制翻译的全虚拟化

在全虚拟化的情况下，VMM工作在Ring 0 ，虚拟机里的OS（Guest OS）工作在Ring 1 ，应用程序工作在Ring 3。这时候Guest OS是不知道自己工作在虚拟机里的，VMM可以仿真出一个目标平台呈现给Guest OS，让它以为自己独占硬件资源，认为自己还是工作在Ring 0 ，所以它还是按照Ring 0级别产生指令，可实际上这时候Guest OS已经工作在Ring 1 ，Guest OS产生的每一条指令都会被VMM截取，并翻译成宿主机平台的指令，然后交给实际的物理平台执行，由于每一条指令都需要这么翻译一下，所有这种虚拟化性能比较差。
KVM原理介绍-01

####### 超虚拟化（或者半虚拟化/操作系统辅助虚拟化 Paravirtualization）
半虚拟化的思想就是，修改Guest OS操作系统内核，替换掉不能虚拟化的指令，通过超级调用（hypercall）直接和底层的虚拟化层hypervisor（虚拟机监视程序）来通讯，hypervisor 同时也提供了超级调用接口来满足其他关键内核操作，比如内存管理、中断和时间保持。这种做法省去了全虚拟化中的捕获和模拟，大大提高了效率。所以像XEN这种半虚拟化技术，客户机操作系统都是有一个专门的定制内核版本，和x86、mips、arm这些内核版本等价。这样以来，就不会有捕获异常、翻译、模拟的过程了，性能损耗非常低。这就是 XEN这种半虚拟化架构的优势。这也是为什么XEN只支持虚拟化Linux，无法虚拟化 windows原因，微软不改代码。
KVM原理介绍-01

硬件辅助的全虚拟化

硬件虚拟化技术提供non-root 模式供客户机运行，在绝大多数情况下，客户机在此模式下运行与原生系统在非虚拟化环境中运行性能一样，不需要像全虚拟化那样每条指令都要先翻译再执行；VMM运行在root模式，拥有完整的硬件访问控制权限，在少数必要的时候，某些客户机指令的运行才需要被VMM截获并做相应处理。
在硬件虚拟化中，cpu指令环多了一个-1环，把0换给Guest OS的内核，当进行系统调用的时候，Guest OS会调用0环的特权指令0环上的特权指令是假的，被Host的内核捕获，进而转换调用-1环的特权指令，这些过程都是有硬件进行的，这种模式和半虚拟化类似
KVM原理介绍-01

三种虚拟化技术的对比

	利用二进制翻译的全虚拟化	硬件辅助虚拟化	操作系统协助/半虚拟化
实现技术	BT和直接执行	遇到特权指令转到root模式执行	Hypercall
客户操作系统	修改/兼容性	无需修改客户操作系统，最佳兼容性	客户操作系统需要修改来hypercall，因此它不能运行在物理硬件本身或其他的hypervisor上，兼容性差，不支持windows
性能	差	全虚拟化下，CPU需要在两种模式之间切换，带来性能开销；但是，其性能在逐渐逼近半虚拟化	好，半虚拟化下cpu性能开销几乎为0，虚拟机的性能接近于物理机
应用厂商	VMware Workstations /QEMU/Virtual PC	VMware ESXi/Miscrosoft Hyper-V/Xen3.0 KVM	Xen

KVM介绍

KVM虚拟机技术（Kernel-based Virtual Machine），全称是基于内核的虚拟机。那是linux内核原生支持的，起初并不是这样，最初它是一家以色列的公司开发出来，然后在2006将其开源并推向linux内核社区，到10月份，linux社区接受，并在2007年正式发布第一个带有KVM模块的内核，是后来的redhat，红帽将那家公司收购，并加大对KVM的研发力度，直到我们熟悉的redhat6中真正成为操作系统默认的虚拟化方案。

它由 Quramnet 开发，该公司于 2008年被 Red Hat 收购。
它支持 x86 (32 and 64 位), s390, Powerpc 等 CPU。
S390：处理器是由美国IBM 开发的面向大型机应用的处理器。
Powerpc：应用在网络设备、视频系统、工业系统等领域。
它从 Linux 2.6.20 起就作为一模块被包含在 Linux 内核中。
它需要支持虚拟化扩展的 CPU。
它是完全开源的。kvm官网。

KVM架构

KVM 是基于虚拟化扩展（Intel VT 或者 AMD-V）的 X86 硬件的开源的 Linux 原生的全虚拟化解决方案。KVM 中，虚拟机被实现为常规的 Linux 进程，由标准 Linux 调度程序进行调度；虚机的每个虚拟 CPU 被实现为一个常规的 Linux 进程。这使得 KMV 能够使用 Linux 内核的已有功能。
但是，KVM 本身不执行任何硬件模拟，需要客户空间程序通过 /dev/kvm 接口设置一个客户机虚拟服务器的地址空间，向它提供模拟的 I/O，并将它的视频显示映射回宿主的显示屏。目前这个应用程序是 QEMU。
Guest：客户机系统，包括CPU（vCPU）、内存、驱动（Console、网卡、I/O 设备驱动等），被 KVM 置于一种受限制的 CPU 模式下运行。
KVM：运行在内核空间，提供CPU 和内存的虚级化，以及客户机的 I/O 拦截。Guest 的 I/O 被 KVM 拦截后，交给 QEMU 处理。
QEMU：修改过的为 KVM 虚机使用的 QEMU 代码，运行在用户空间，提供硬件 I/O 虚拟化，通过 IOCTL /dev/kvm 设备和 KVM 交互。

KVM 实现拦截虚机的 I/O 请求的原理：

现代CPU本身实现了对特殊指令的截获和重定向的支持。
以x86平台为例，支持虚拟化技术的CPU带有特别优化过的指令集来控制虚拟化过程。通过这些指令集，VMM将客户机置于一种受限制的模式下运行，一旦客户机视图访问物理资源，硬件会暂停客户机的运行，将控制权交回给 VMM 处理。
简单理解为：当虚拟机需要操作的指令为底层硬件不能虚拟化的指令是，取消虚拟机暂时运行的权限，交给VMM去进行控制
VMM 还可以利用硬件的虚级化增强机制，将客户机在受限模式下对一些特定资源的访问，完全由硬件重定向到 VMM 指定的虚拟资源，整个过程不需要暂停客户机的运行和 VMM 的参与。由于虚拟化硬件提供全新的架构，支持操作系统直接在上面运行，无需进行二进制转换，减少了相关的性能开销，极大简化了VMM的设计，使得VMM性能更加强大。

QEMU-KVM组件

其实QEMU原本不是KVM的一部分，它自己就是一个纯软件实现的虚拟化系统，所以其性能低下。但是，QEMU代码中包含整套的虚拟机实现，包括处理器虚拟化，内存虚拟化，以及 KVM需要使用到的虚拟设备模拟（网卡、显卡、存储控制器和硬盘等）。
为了简化代码，KVM 在 QEMU 的基础上做了修改。VM 运行期间，QEMU 会通过 KVM 模块提供的系统调用进入内核，由 KVM 负责将虚拟机置于处理的特殊模式运行。
遇到虚机进行I/O 操作，KVM 会从上次的系统调用出口处返回 QEMU，由QEMU来负责解析和模拟这些设备。从QEMU的角度看，也可以说是QEMU使用了KVM模块的虚拟化功能，为自己的虚机提供了硬件虚拟化加速。除此以外，虚机的配置和创建、虚机运行所依赖的虚拟设备、虚机运行时的用户环境和交互，以及一些虚机的特定技术比如动态迁移，都是QEMU自己实现的。KVMKVM内核模块在运行时按需加载进入内核空间运行。
KVM本身不执行任何设备模拟，需要QEMU通过 /dev/kvm 接口设置一个GUEST OS的地址空间，向它提供模拟的 I/O设备，并将它的视频显示映射回宿主机的显示屏。它是KVM虚机的核心部分，其主要功能是初始化CPU硬件，打开虚拟化模式，然后将虚拟客户机运行在虚拟机模式下，并对虚机的运行提供一定的支持。

KVM虚机的创建过程

KVM原理介绍-01

以在Intel上运行为例，KVM模块被加载的时候，它做的事情如下：
首先初始化内部的数据结构；

做好准备后，KVM 模块检测当前的 CPU，然后打开CPU控制及存取CR4的虚拟化开关，并通过执行VMXON指令（开启cpu虚拟化后需要执行操作指令）将宿主操作系统置于虚拟化模式的根模式；

最后，KVM模块创建特殊设备文件/dev/kvm并等待来自用户空间的指令

接下来的虚机的创建和运行将是QEMU和KVM相互配合的过程。两者的通信接口主要是一系列针对特殊设备文件/dev/kvm的IOCTL调用。其中最重要的是创建虚机。它可以理解成KVM 为了某个特定的虚机创建对应的内核数据结构，同时，KVM 返回一个文件句柄来代表所创建的虚机。

在计算机中，ioctl(input/output control)是一个专用于设备输入输出操作的系统调用,该调用传入一个跟设备有关的请求码，系统调用的功能完全取决于请求码。例如：CD-ROM驱动程序可以弹出光驱，它就提供了一个对应的Ioctl请求码

针对该句柄的调用可以对虚机做相应地管理，比如创建用户空间虚拟地址和客户机物理地址、真实物理地址之间的映射关系，再比如创建多个vCPU。KVM为每一个vCPU生成对应的文件句柄，对其相应地IOCTL 调用，就可以对vCPU进行管理。其中最重要的就是“执行虚拟处理器”。通过它，虚机在KVM的支持下，被置于虚拟化模式的非根模式下，开始执行二进制指令。在非根模式下，所有敏感的二进制指令都被CPU捕捉到，CPU在保存现场之后自动切换到根模式，由KVM决定如何处理

除了CPU的虚拟化，内存虚拟化也由KVM实现。实际上，内存虚拟化往往是一个虚机实现中最复杂的部分。CPU 中的内存管理单元MMU是通过页表的形式将程序运行的虚拟地址转换成实际物理地址。在虚拟机模式下，MMU的页表则必须在一次查询的时候完成两次地址转换。因为除了将客户机程序的虚拟地址转换了客户机的物理地址外，还要将客户机物理地址转化成真实物理地址

VMM 内存虚拟化的实现方式：

软件方式：通过软件实现内存地址的翻译，比如 Shadow page table （影子页表）技术
- 硬件实现：基于CPU的辅助虚拟化功能，比如AMD的NPT和Intel的EPT技术KVM 中，虚拟机的物理内存即为qemu-kvm进程所占用的内存空间。
KVM使用CPU辅助的内存虚拟化方式。在Intel和AMD平台，其内存虚拟化的实现方式分别为：AMD 平台上的 NPT （Nested Page Tables）技术，Intel 平台上的 EPT （Extended Page Tables）

KVM的功能列表

KVM 所支持的功能包括：

支持CPU 和 memory 超分（Overcommit）
支持半虚拟化I/O （virtio）
支持热插拔（cpu，块设备、网络设备等）
支持对称多处理（Symmetric Multi-Processing，缩写为 SMP ）
支持实时迁移（Live Migration）
支持 PCI 设备直接分配和单根I/O 虚拟化（SR-IOV）
支持内核同页合并（KSM ）
支持 NUMA （Non-Uniform Memory Access，非一致存储访问结构）

KVM 工具集合

libvirt：操作和管理KVM虚机的虚拟化 API，使用 C 语言编写，可以由 Python,Ruby, Perl, PHP, Java 等语言调用。可以操作包括 KVM，vmware，XEN，Hyper-v, LXC 等 Hypervisor。
Virsh：基于 libvirt 的命令行工具（CLI）
Virt-Manager：基于 libvirt 的 GUI 工具
virt-v2v：虚机格式迁移工具
virt-* 工具：包括 Virt-install （创建KVM虚机的命令行工具）， Virt-viewer - - （连接到虚机屏幕的工具），Virt-clone（虚机克隆工具），virt-top 等
sVirt：安全工具和selinux相关

KVM虚机创建过程

KVM原理介绍-01
KVM的整体结构：
从GUI到Linux内核，包括以下五个组件：

virt-manager
一个用来管理VM的GUI/CUI用户接口;它使用libvirt调用VM的各种功能。
libvirt
一个工具及接口，作为较通用的服务器虚拟化软件，它支持Xen，VMware ESX/GSX，当然，还有QEMU/KVM。
QEMU
一个和KVM内核模块交互的模拟器，处理多种客户机系统请求如I/O;一个QEMU进程对应一个客户机系统。
KVM内核模块
从狭义上来说，KVM是一个Linux内核模块，处理客户机系统的VM Exits和执行VM Entry指令。
Linux内核
既然QEMU作为一个普通的用户进程运行，相应客户机系统的调度就由Linux内核自己来处理。所有的组件都是开放源码软件(OSS)。