《深入理解计算机系统(CSAPP)》第3章程序的机器级表示 - 学习笔记_友人帐_的博客-CSDN博客

《深入理解计算机系统(CSAPP)》第5章优化程序性能 - 学习笔记_友人帐_的博客-CSDN博客

《深入理解计算机系统(CSAPP)》第6章存储器层次结构 - 学习笔记_友人帐_的博客-CSDN博客

《深入理解计算机系统(CSAPP)》第7章链接- 学习笔记_友人帐_的博客-CSDN博客

《深入理解计算机系统(CSAPP)》第8章异常控制流 - 学习笔记_友人帐_的博客-CSDN博客

《深入理解计算机系统(CSAPP)》第9章虚拟内存 - 学习笔记_友人帐_的博客-CSDN博客

第五章优化程序性能

1. 编译器优化的能力和局限性

（1）编译器能做的优化

优化选项：-Ox：g-基本优化；1~3 - 更高级优化。

（2）优化的局限性

解决方法：

（1）不依赖处理器

（2）实现指令级并行

通过增加每次迭代计算的元素的数量，减少循环的迭代次数。减少了不直接有助于程序结果的操作的数量，例如循环索引计算和条件分支。它提供了一些方法，可以进一步变化代码，减少整个计算中关键路径上的操作数量。

$k\times 1$ 展开

limit = length - k + 1;
for (i = 0; i < limit; i += k)
{
	// 对元素i到i+k-1合并运算
}
for (; i < length; i++)
{
	// 以每次处理一个元素的方式处理最后0~k-1个元素
}

利用更多的功能单元来执行，比单个完全流水线化的功能单元更快，打破延迟界限。

使用多个累积量：对于可结合和可交换的合并运算可以通过将一组合并运算分割成两个或更多的部分，并在最后合并结果来提高性能。

$k\times n$ 展开：k次循环展开，n路并行

limit = length - k + 1;

for (i = 0; i < limit; i += k)
{
	// 对元素i到i+k-1合并运算
	// 使用n个累积量
}

// 处理最后0~k-1个元素

// n个累积量运算结果合并

最好使用 $k\times k$ 展开，且对于延迟为 $L$ ，容量为 $C$ 的操作而言，循环展开因子 $k\ge C·L$ 时达到最大吞吐量。

展开变换时，必须考虑实现的功能是否与原来相同。要考虑运算是否可交换、可结合，溢出情况下是否保证结果与原来相同等。(浮点加法和乘法不可结合，原因在于四舍五入和溢出)

同时k不能过大，否则会出现寄存器溢出的情况：k的个数超过了机器的寄存器个数，会将变量分配在栈上，运行速度反而会降低。(x86-64处理器有16个寄存器，并可以使用16个YMM寄存器来保存浮点数)

改变运算顺序，以减少计算中关键路径上操作的数量，更好地利用功能单元的流水线能力。下一个循环的部分操作可以早一些开始。

称为 $k\times na$ 展开。

（0）基本概念

程序性能度量标准：每元素的周期数 (Cycles Per Element, CPE)

功能单元的性能：

延迟(latency)：表示完成运算所需要的总时间；
发射时间(issue time)：表示两个连续的同类型的运算之间需要的最小时钟周期数；
容量(capacity)：表示能够执行该运算的功能单元的数量。
最大吞吐量：发射时间的倒数。一个完全流水线化(发射时间为1)的功能单元有最大的吞吐量，每个时钟周期进行一个运算。具有多个功能单元可以进一步提高吞吐量。对一个容量为C，发射时间为I的操作来说，处理器可能获得的吞吐量为每时钟周期C/I个操作。(每个时钟周期可以完成的操作数)

CPE值的两个基本界限：

延迟界限(latency bound)：因为在下一条指令开始之前，这条指令必须结束。给出了任何必须按照严格顺序完成合并运算的函数所需要的最小CPE值。理解：严格按照顺序执行，即使用一个功能单元，执行该合并运算最低能达到的CPE。(即为一个功能单元的极限，但可以通过增加功能单元并行计算以使实际运算速度突破这个界限)
吞吐量界限(throughput bound)：刻画了处理器功能单元的原始计算能力。这个界限是程序性能的终极限制。理解：比如执行整数加法的最大吞吐量为2，即每个时钟周期最多可以执行2次整数加法运算，故由于最大吞吐量为2，吞吐量对于整个合并运算的CPE限制为1/2=0.5，即由于最大吞吐量为2，整数加法的CPE最低只能到达0.5。

（1）现代处理器特点

能够实现指令级并行，同时对多条指令求值。