UltraScale

Xilinx UltraScale™ 架构在完全可编程的架构中应用前沿 ASIC 技术,支持全面线路速率智能处理的每秒数百 Gb 级系统性能,将其扩展至 TB 乃至每秒万亿次性能水平。基于此 ASIC 级架构,Kintex® UltraScale 和 Virtex® UltraScale 器件进一步扩大了公司市场领先的 FPGA 和 3D IC 系列范围,并支持新一代更智能系统的全新高性能架构要求。UltraScale 产品系列不但可从 20 纳米平面扩展至 16 纳米 FinFET 乃至更高技术,同时还可从单片向 3D IC 扩展.

作者: Avi Avanindra,Devardhi Mandya,Cypress

网络路由器带有用于性能监控、流量管理、网络追踪和网络安全的统计计数器。计数器用来记录数据包到达和离开的次数以及特定事件的次数,比如当网络出现坏包时。数据包的到达会使多个不同的统计计数器发生更新;但一台网络设备中的统计计数器的数量及其更新速度常常受到存储技术的限制。

管理统计计数器需要高性能的存储器才能满足多重的读—修改—写操作。本文将描述一种使用IP方法的独特统计计数器,这种计数器的一端可以连接网络处理器(NPU),另一端可以连接Xilinx公司的QDR-IV存储控制器。QDR-IV统计计数器IP是一种带有QDR-IV SRAM、为网络交流管理和其他计数器应用提供高效统计计数器的软IP。

QDR-IV SRAM概述

视频:在 DSP48E2 Slice 中使用开方多路复用器

本视频介绍如何在 UltraScale 架构 DSP48E2 slice 中使用开方预加法器输出的新功能。本视频将介绍当在 Vivado HLS 中实现平方差异累积函数时如何使用开方多路复用器。

白皮书(WP487):8 位点积加速

UltraScale和UltraScale +器件中的DSP架构通过具有可扩展性能的INT8矢量点积增强了神经网络的卷积和矩阵乘法吞吐量。 借助本白皮书中描述的方法,与传统原生DSP资源的使用相比,吞吐量可以提升1.75到2倍。

视频:PCI Express 可现场升级的 Tandem

本视频主要介绍 PCI Express 解决方案的创建过程,使用 PCI Express Gen3 子系统的 AXI 桥接器时,该解决方案可使用支持现场升级流程的 Tandem。该流程的 Tandem 部分允许 PCIe 模块在 100ms 内可见,现场升级意味着设计可通过 PCIe 链路下载,无需重新启动设计,也无需让 PCIe 链路处于工作状态。

作者:清风流云

背景:
Metamako公司是提供高性能、低延迟网络工作解决方案的领导者。它开发的分裂式硬件网络工作平台利用FPGA优势来实现应用,是专门为高速超高性能和可编程应用需求而提供的,顾客利用它提供的这些性能可以在简化他们的网络工作栈的同时支持边缘计算,而它的平台在超快速度运作期间可以达到仅近4ns的延迟,并且已经被STAC 基准委员会证实。可见,Metamako提供的解决方案功能丰富,资源丰富,还采用先进的技术来将延迟降到最低,大大增加其行业竞争力。

Metamako FPGA网络工作平台:

将浮点转为定点 大幅降低功耗和成本

作者 : Ambrose Finnerty 和 Hervé Ratigner

赛灵思器件和工具支持从二进制到双精度在内的多种数据类型。UltraScale ™ 架构的可扩展精度提供极大灵活性,便于优化功耗和资源利用,同时满足设计性能目标要求。

摘要
在数据中心、航空航天与军用、5G 无线以及汽车等领域,客户必须满足高级驾驶员辅助 (ADAS)、雷达和深度学习等应用中严峻的散热、功耗和成本要求。

要实现这些目标,一种极为有效的方法是用定点数实现信号处理链。赛灵思FPGA 和 SoC 具备固有的可变精度支持,允许客户轻松调整以适应不断演变的朝更低精度解决方案发展的这种行业趋势。

赛灵思提供一种包含 Vivado® 高层次综合 (HLS) 的工具流程,允许客户方便地评估 C/C++ 设计的更低精度实现方案,诸如定点等。

简介 :赛灵思支持的数据类型
赛灵思 All Programmable 器件和工具支持从二进制到双精度浮点在内的多种数据类型。用定点实现的设计总是比用浮点实现的同一设计更加高效,因为定点实现方案所占用的资源和消耗的功耗更少。若将设计迁移到定点,功耗和占用面积缩减一半并不稀奇。

如何在 UltraScale 架构 DSP48E2 slice 中使用最新广泛多路复用器产品反馈功能。本视频将介绍如何使用随 Vivado Design Suite 2016.1 提供的 verilog CMACC 模板实现、复杂乘积累加函数。

视频:XPE 中的精确逻辑及信号功率估算

了解 XPE 中针对 UltraScale 和 UltraScale+ 器件的一个重要精度改善。 从 XPE 2015.4 起,用“路由复杂性”算法替代“扇出”逻辑表示法,从而解决了 XPE 和 Vivado Report Power 之间的逻辑与信号功率关联问题。

大数据时代,如何同时发挥CPU与FPGA的优势?

作者:闲情逸致

背景:
或许,你会认为DPDK(Data Plan Development Kit)是一个应用在网络应用层上的高速数据传输标准;或许,你认为DPDK是Intel制定的一套规格;或许,你认为DPDK在CPU和ASIC界是受限的保密的;亦或许,你都没有听说过DPDK,考虑到它的发展历史,确实很有可能。所以,如果以上的这些假设中有一项是正确的,那么你应该读读下面的内容。

最初,DPDK是一个数据层的库集,后来Intel开发了专门针对Intel X86微处理器的可以快速分组处理NIC(网络接口控制)的驱动,这就是DPDK的前世。而今生的DPDK,在去年四月份,已经成为一个Linux基金项目,并且可以在DPDK.org上看到。

DPDK主要包括以下几个大家常用的主要库:

  • 当需要最小化CPU周期数时(一般小于80)发送和接收数据包;
  • 开发快速分组算法;
  • 百度云发布FPGA云服务器 加速人工智能应用开发

    日前,百度云FPGA云服务器发布内测版本,成为国内率先推出可用的FPGA云服务的厂商。FPGA云服务器的发布,标志着百度云逐步将FPGA的技术实践经验对外开放,满足企业和开发者的高性能计算需求,助力人工智能和大数据应用。

    FPGA是现场可编程门阵列(Field Programmable Gate Array)的简称,通常被应用于特定应用领域的计算加速,是异构计算家族重要的一员。近年来, GPU/FPGA的使用,使得深度学习的训练速度倍数提升,大规模、高性能的云端计算硬件集群成为人工智能发展的强劲引擎。FPGA在互联网、人工智能行业逐渐被应用起来,涉及人脸识别、语音识别、智能家居、智能交通、基因测序、视频、图像、文本数据处理等众多领域。

    作为国内最早部署GPU/FPGA集群的互联网公司,以及国内领先的人工智能公司,百度拥有数十万台服务器,采用先进的集群操作系统来统一管理。为了深度学习训练的需要,百度自研GPU和FPGA服务器,构建了中国最大的GPU/FPGA集群。百度拥有将近9年的FPGA加速器研发和大规模部署的经验,技术处于世界领先水平。百度在FPGA加速及系统领域的论文发表在ASPLOS 2014(国内第二篇,并获最佳论文提名),EUROSYS2014,ISLPED2013, Hotchips 2014/2016/2017等顶级国际会议。

    同步内容