Skip to content

Latest commit

 

History

History
70 lines (41 loc) · 4.97 KB

20.8-evaluation-hll-performance-cost-1.md

File metadata and controls

70 lines (41 loc) · 4.97 KB

20.8 Evaluation: HLL performance cost(1)

以上是6个问题,我应该不会全部介绍,因为我想在课程的最后留些时间来回顾我们在本节课开始时提出的问题。

以上就是测试环境,Biscuit运行在裸机之上,所以我们的测试是在物理服务器而不是QEMU之上。我们使用了三个应用程序来做性能测试,它们分别是,Webserver,K/V store,Mail server benchmark。

这三个应用程序都会给内核一定的压力,它们会执行系统调用,内核会做大量的工作。你可以看到,大部分CPU时间都在内核中。

首先的问题是,Biscuit是否是一个工业质量的内核?我们将前面的三个应用程序分别运行在Linux和Biscuit上,并进行对比。

在Linux中,我们会关闭所有Biscuit不提供的功能,比如Page Table隔离,repoline等等很多功能,这样的对比才会尽可能的公平。有些特性会比较难关闭,但是我们会尽量将它们关闭。

之后我们会测试吞吐量,如你所见Biscuit总是会比Linux更慢,mailbench可能差10%,nginx和redis差10%到15%。这里的数字并不是绝对的,因为两个系统并不完全一样。但是可以看出两个系统基本在同一个范围内,而不是差个2倍或者10倍。

接下来我们会分析代码,并找到高级编程语言额外的CPU cycle消耗。我们会找到:

  • 哪些CPU cycle是GC使用的,
  • 哪些是函数调用的Prologue使用的。Golang会为函数调用做一些额外的工作来确保Stack足够大,这样就不会遇到Out-of-Stack的问题
  • Write barrier是GC用来跟踪不同空间的指针的方法
  • Safety cycles是用在数组边界检查,空指针检查上的CPU cycles

通过测试上面的应用程序,可以得到测量结果。

  • 3%的执行时间用在了GC cycles中,这里我稍后会介绍为什么这很少。同时这也可以说明GC是在运行的,我们并不是用了一大块内存而没有使用GC
  • 令人奇怪的是,Prologue占有的CPU时间最多,这基本上跟我们用来检查kernel Stack或者goroutine Stack是否需要增加的方案有关,这里或许更容易降低一些
  • Write barrier使用的时间很少
  • 2%-3%的CPU时间用在了Safety cycles中

这些数据都很好,High Level Language Tax并不是那么的大。

当然GC的占比可能会更高,因为它完全取决于heap大小和存活对象的数量,GC会跟踪所有的存活对象,并决定哪些对象已经不被使用。如果有大量的存活对象,GC也需要跟踪更多的对象。所以这里的CPU时间完全与存活对象的数量相关。

所以我们做了一些其他的实验。我们创建了大量的存活对象,大概有200万个vnode,可以认为这是200万个inode。然后修改heap的headroom,也就是GC可以使用的空闲内存数量,最后再测量GC的代价。

上图就是测量结果,存活对象占了640MB内存,我们在不同内存大小下运行测试。第一次测试时,有320MB空闲内存,是存活对象内存的一半,这时Golang有非常严重的overhead,大概是34%,GC因为没有足够的headroom需要运行很多额外的程序。如果空闲内存是存活对象的2倍,那么GC的overhead就没有那么疯狂,只有9%。所以,为了保持GC的overhead在10%以内,物理内存大小需要是heap大小的三倍。

学生提问:什么是write barrier?是设置权限吗?

Frans教授:你还记得Lec17的内容吗?当GC在运行的时候,需要检查指针是否在from空间,如果在from空间你需要拷贝它到to空间。write barrier是非常类似的功能,它的想法是一样的,你需要检查指针看它是否在你需要运行GC的区域内。

学生提问:当存活对象的内存大于空闲内存的时候,GC该怎么工作呢?

Frans教授:你买一些内存,vnode会使用一些内存,然后还剩下320MB空闲内存。当应用程序申请更多内存时,首先会从空闲内存中申请,直到空闲内存也用光了。与此同时,GC也在运行。所以我们刚刚的测试中是在3个不同配置下运行,在最后一个配置中,空闲内存是存活对象占用内存的两倍。这意味着GC有大量的headroom来与应用程序并行的运行,如果有大量的headroom,GC的overhead就没那么高了,只有10%左右,而不是34%。在第一个配置中,总共是640+320MB内存,而不是只有320MB内存。

这一页跳过。