Xilinx A7 芯片内部结构分析（1）—— CLB

judy 在周三, 12/05/2018 - 09:23 提交

一直以来，觉得自己关于FPGA方面，摸不到“低”——对底层架构认识不清，够不着“高”——没真正独立做过NB的应用，如高速、复杂协议或算法、神经网络加速等高大上的应用，所以能力和认识水平都处于中间水平。这段时间做时序优化，感觉心有余而力不足了，可能要触及手动布局布线了，打开Device布局图才开始有兴趣探究一些底层结构的东西。

看吧，资源已经用了80%的A7 200芯片

可能翻开任何一本有关FPGA的书籍，上来就会介绍FPGA的历史，原理，内部结构什么的，大部分人看着都极其枯燥，常常要么直接略过，要么就看一遍，久了也就忘记了（部分靠翻译文档的书作者该好好反思）。我硬着头皮去弥补之前缺失的一些基础知识，结合Xilinx A7 芯片，总结一下自己的收获。

1. 总览
平台：Vivado

芯片：XC7A200

FPGA主要有六部分组成：可编程输入输出单元、可编程逻辑单元、完整的时钟管理、嵌入块状RAM、布线资源、内嵌的底层功能单元和内嵌专用硬件模块。其中最为主要的是可编程输出输出单元、可编程逻辑单元和布线资源。

放大，这些就是内部资源，主要是逻辑单元和块状RAM及一些内嵌功能单元

再放大，这些逻辑单元的内部结构也出来了，像大型“停车场”

2. 可配置逻辑单元
可配置逻辑单元（Configurable Logic Block，CLB）在FPGA中最为丰富，由两个SLICE组成。由于SLICE有SLICEL（L：Logic）和SLICEM（M：Memory）之分，因此CLB可分为CLBLL和CLBLM两类。

点击内部的逻辑单元，通过阴影区别包含的范围，你可以清晰的看到结构划分的层级。在旁边窗口可以清晰的看到选中部分的属性（Properties）。

来，再放大，放大到一个SLICEL，如下图所示。

SLICEL和SLICEM内部都包含4个6输入查找表（Look-Up-Table，LUT6）、3个数据选择器（MUX）、1个进位链（Carry Chain）和8个触发器（Flip-Flop），下面分部分介绍的时候，时不时可以再回头看这张结构图。

2.1 6输入查找表（LUT6）
虽然SLICEL和SLICEM的结构组成一样，但两者更细化的结构上略有不同，区别在于LUT6上（如下图所示），从而导致LUT6的功能有所不同（如下表格所示）。

LUT功能	SLICEL	SLICEM
逻辑函数发生器	v	v
ROM	v	v
分布式RAM		v
移位寄存器		v

上边的功能可以看到，不论是SLICEL还是SLICEM，他们的LUT6都可以作为ROM使用，配置为64x1（占用1个LUT6，64代表深度，1代表宽度）、128x1（占用2个LUT6）和256（占用4个LUT6）的ROM。

另外既然SLICEM中的M代表memory的意思，所以增加了更多存储功能。可以配置为RAM，尤其指分布式RAM。其中RAM的写操作为同步，而读操作是异步的，即与时钟信号无关。如果要实现同步读操作，则要额外占用一个触发器，从而增加了意识时钟的延迟（Latency），但提升了系统的性能。这就解释了为什么我们实现RAM同步读写的时候，读出输出要延迟一个clk。一个LUT6可配置64x1的RAM，当RAM的深度大于64时，会占用额外的MUX（F7AMUX，F7BMUX，F8MUX，即一个SLICE中的那3个MUX）。

SLICEM中的LUT还可以配置为移位寄存器，每个LUT6可实现深度为32的移位寄存器，且同一个SLICEM中的LUT6（4个）可级联实现128深度的移位寄存器。

2.2 选择器（MUX）
SLICE中的三个MUX（Multiplexer：F7AMUX，F7BMUX和F8MUX）可以和LUT6联合共同实现更大的MUX。事实上，一个LUT6可实现4选1的MUX。

SLICE中的F7MUX（F7AMUX和F7BMUX）的输入数据来自于相邻的两个LUT6的O6端口。

一个F7MUX和相邻的两个LUT6可实现一个8选1的MUX。因此，一个SLICE可实现2个8选1的MUX。

4个LUT6、F7AMUX、F7BMUX和F8MUX可实现一个16选1的MUX。因此，一个SLICE可实现一个16选1的MUX。

2.3 进位链（Carry Chain）
进位链用于实现加法和减法运行。就是结构图中，中间那个大的部分，可以看到它内部实际还包含4个MUX和4个2输入异或门（XOR）。

异或运算是加法运算中必不可少的运算。

2.4 触发器（Flip-Flop）
每个SLICE中有8个触发器。这个8个触发器可分为两大类：4个只能配置为边沿敏感的D触发器（Flip-Flop）和4个即可配置为边沿敏感的D触发器又可配置为电平敏感的锁存器（Flop&Latch）。当后者被用作锁存器的时候，前者将无法使用。

当这8个触发器都用作D触发器时，他们的控制端口包括使能端CE、置位/复位端口S/R和时钟端口CLK是对应共享的，也就是就是说共用的。{CE,S/R,CLK}称为触发器的控制集。显然，在具体的设计中，控制集种类越少越好，这样可以提高触发器的利用率。那么怎样减少控制集种类呢？我的理解是：

减少时钟种类，即频率越少越好；

统一规范的设计逻辑，如复位。

S/R端口可配置为同步/异步置位或同步/异步复位，且高有效，因此可形成4种D触发器，如下表所示。

原语（Primitive）	功能描述	原语（Primitive）	功能描述
FDCE	同步使能，异步复位	FDRE	同步使能，同步复位
FDPE	同步使能，异步置位	FDSE	同步使能，同步置位

在我们的常规设计中，FDCE和FDPE占了绝大多数。

说到高有效，让我想起了一个大家习以为常，但很少深究的问题：为什么一开始接触FPGA的时候，都告诉我们低电平复位？后来查了一些资料，有说从功耗、噪声可靠性方面考虑等等，但是偶然看到Xilinx和Altera两家芯片的触发器不一样！如下图所示，Xilinx的触发器是高电平复位，而Altera的触发器时低电平复位。所以这也是需要考虑的一点吗？

参考文献：
《7 Series FPGAs Configurable Logic Block》（UG474）
《VIVADO从此开始》——高亚军著（强烈推荐此书！！！！本博客论述部分大多来自高老师的书）

作者：肉娃娃
文章出处：https://home.cnblogs.com/u/rouwawa/