UltraScale

Xilinx UltraScale™ 架构在完全可编程的架构中应用前沿 ASIC 技术,支持全面线路速率智能处理的每秒数百 Gb 级系统性能,将其扩展至 TB 乃至每秒万亿次性能水平。基于此 ASIC 级架构,Kintex® UltraScale 和 Virtex® UltraScale 器件进一步扩大了公司市场领先的 FPGA 和 3D IC 系列范围,并支持新一代更智能系统的全新高性能架构要求。UltraScale 产品系列不但可从 20 纳米平面扩展至 16 纳米 FinFET 乃至更高技术,同时还可从单片向 3D IC 扩展.

作者:Karl Freund, Moor Insights & Strategy 高级分析师

FPGA 特有的可重编程性可提供高性能和高灵活性,同时还能加速超大规模数据中心的创新

概述
数据类型复杂的工作负载加速,是超大规模云、电子商务和社交网络数据中心正越来越多面的难题,例如 4K 视频和自然语言。这类数据处理往往超出了传统 CPU 的处理能力。号称“超七大”数据中心公司的阿里巴巴、亚马逊、百度、脸书 (Facebook)、谷歌、微软和腾讯对这个问题特别敏感。在这些公司中 , 这些新应用往往需要数千台加速的应用服务器来支持。

虽然 GPU 和专用集成电路 (ASIC) 等特殊用途的硬件能有效地为这些代码加速,但快速变化的先进算法会让一款专用加速器刚一完成开发、测试、投产,就很快过时。对ASIC 来说,过时最容易。因此许多超大规模数据中心公司把目光投向了现场可编程门阵列 (FPGA)。这是一种专用可重编程硬件 , 能通过低功耗、高度灵活的硬件平台提供专用加速器的性能优势,支持更快创新。

利用Xilinx器件的INT8优化开展深度学习

作者:Yao Fu、Ephrem Wu、Ashish Sirasao、Sedny Attia、Kamran Khan 和 Ralph Wittig

赛灵思 INT8 优化为深度学习推断提供了性能最佳、能效最高的计算技术。赛灵思的集成式 DSP 架构与其他 FPGA DSP 架构相比,在INT8 深度学习运算上能实现 1.75 倍的解决方案级性能。

概要
本白皮书旨在探索实现在赛灵思 DSP48E2 Slice 上的 INT8 深度学习运算,以及与其他 FPGA 的对比情况。在相同资源数量情况下,赛灵思的 DSP 架构凭借 INT8在 INT8 深度学习每秒运算次数 (OPS) 上相比其它 FPGA,能实现 1.75 倍的峰值解决方案级性能。由于深度学习推断可以在不牺牲准确性的情况下使用较低位精度,因此需要高效的 INT8 实现方案。

作者:清风流云

DDR SDRAM的发展背景:
DDR SDRAM是Double Data Rate SDRAM的缩写,即双倍速率同步动态随机存储器,大家习惯称为DDR。最早是由三星公司于1996年提出,后由日本电气、三菱、富士通、东芝、日立、德州仪器、三星及现代等八家公司协议订立内存规格,并得到AMD、VIA与SiS等主要芯片厂商的支持。

图1:DDR内存

图1:DDR内存

深度学习:基于FPGA的解决方案更具优势

作者:Stark

近几年来人工智能相关信息登上了各大媒体头条,自动驾驶,无人车也不再显得那么陌生,其实这一切都源于机器学习,深度学习和人工神经网络等相关学科的兴起。机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论,统计学,算法复杂度理论等多门学科。深度学习是机器学习研究中一个新的领域,本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,各大研究机构和高科技公司都投入了大量的人力来做相关的研究和开发,例如百度公司于2013年成立了深度学习研究院(Institute of Deep Learning, IDL)为研究创新竭尽全力。

作者:闲情逸致

随着技术的进步,FPGA开始应用到越来越多的设备中。将FPGA与其他功能模块如LUT,触发器,RAM,DSP等结合,并且规划在设备的不同位置,达到在单一设备上实现多功能成为了目前的发展方向,同时倾向于实现更大,更快的器件。因此,对目前的设计工具,新兴的FPGA技术提出了许多新的要求。

时钟布线是现如今研究非常热的一个问题。采用如 Dijkstra’s 和 A-star等算法找到最佳路径,基于点对点的FPGA布线结构是目前使用最为广泛的,而且PathFinder等布线算法不管是在工业界还是学术界均广泛使用。然而,他们均忽略了时钟延迟的缺陷。因此,在时钟延迟上进行改进成为了一个新的方向。

面向性能的新兴FPGA时钟布线技术

作者:清风流云

关于ProFPGA:

FPGA,众所周知,即现场可编程门阵列,是在PAL,GAL,CPLD等可编程器件的基础上发展而来的,而proFPGA则是近年来由国外的一些FPGA board供应商掀起的新的FPGA方案。

ProFPGA系统是一个比较完善的,可扩展的,模块化的多FPGA系统方案,完全迎合了样型研究FPGA的需求,给用户提供了在早期软件开发和实时系统验证时更具有可扩展性、灵活性的高性能ASCI Prototyping 方案。

一年前,来自欧洲的PRO DESIGN团队推出了proFPGA FPGA模块,它完全采用了以上提到的Multi-FPGA Protoptyping 方案,这些FPGA模块可以在一个兼容最新Virtex 7 FPGA所有功能的proFPGA duo或quad的母板上协调工作,并将8个扩展槽(FMC)扩展为1100个用户IO接口。

图1 proFPGA FPGA module

基于Xilinx UltraScale FPGA的100Gbps数据采集卡ANIC-200Ku

作者:Stark

Accolade成立于2003年,总部位于美国的硅谷,专门从事于基于FPGA的高速数据采集卡设计,公司目前的产品包括1G, 10G, 40G和100G网络采集卡适配器,很多领先互联网公司都在采用,能够帮助他们促进网络安全并且监测实时应用。板卡都采用全规格的PCIe接口,能够兼容众多硬件服务器厂商的服务器。例如卡西欧、戴尔、惠普等。该公司不断在网络应用数据采集卡方面取得领先性创新。

近日Accolade公司推出了一款100Gbps网络数据采集卡——ANIC-200Ku。它采用的是Xilinx UltraScale FPGA,板卡功耗仅为50W。该板卡还集成了两个光纤接口,将两个接口直接连通组成通信回路,可以实现200Gbps无损数据通信通道。另外还采用了PCIe Gen 3x16高速通信接口,支持标准的服务器母板。该板卡能够实现32M数据包流的即时分拣,每个数据包精度可达4ns,同时还支持数据包合并、数据包过滤、重复数据包删除等功能。ANIC-200Ku的存储空间包括数据包存储12GB、启动固件Flash存储512MB。(图1:Accolade推出的双端口100Gbps PCIe无损数据包采集卡ANIC-200Ku)

Xilinx UltraScale FPGA成为百度机器学习的利器

作者:陆健锋

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的人工智能系统很少有什么学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。

赛灵思的最新 PUF IP 由 Verayo 提供,能生成独特的器件“指纹码”,也就是只有器件自己知道的具有强大加密功能的密钥加密密钥(KEK)。

您的系统是否有不容妥协的功耗预算和热要求?大多数情况下答案是肯定的!

一般而言您无法随意提升性能,因为这样会导致功耗的不受控制。单位功耗性能是设计系统时最关键的指标之一,这也正是我们设计 UltraScale+ FPGA 和 MPSoC 产品组合的原因。它们能提供远超以往任何工艺节点迁移所带来的价值。 与28nm 7 系列器件相比,UltraScale+ 产品系列可将系统级单位功耗性能提升了 2-5 倍。

在本视频中我们将不仅介绍我们如何做到这个提升,还将介绍设计人员如何灵活地去控制插在相同插槽的同一器件的单位功耗性能。您可通过芯片工艺架构和实现工具来实现。我们的UltraScale+产品组合将台积公司 (TSMC)的16nm FinFET工艺和业界首款ASIC 级可编程架构以及 SmartConnect 技术完美结合在一起,从而实现了最高的单位功耗性能。

同步内容