可重构计算的国际期刊
期刊指标
录取率 -
提交最终决定 -
接受出版 -
CiteScore 0.630
影响因子 -
提交

SIFO:使用FPGA覆盖的安全计算基础设施

阅读全文

杂志简介

可重构计算的国际期刊旨在服务于大型社区的研究人员和专业工程师可重构计算的理论和实践方面的工作。

编辑焦点

可重构计算的国际期刊维持一个由来自世界各地的实践研究人员组成的编辑委员会,以确保手稿由研究领域的专家编辑处理。

特殊问题

你认为有一个新兴的研究领域真的需要强调吗?或者一个现有的研究领域被忽视或将受益于更深入的调查?通过发行一期特刊来提高研究领域的知名度。

最新的文章

更多的文章
评论文章

从FPGA到支持云到FPGA的云:目前的状态

现场可编程门阵列(FPGA)通过加速计算昂贵的应用和实现低功耗,引起了工业界和学术界的广泛关注。FPGAs的有趣之处在于其设备的灵活性和可重构性。云计算成为基础设施和计算资源去物质化的主要趋势。它提供了“无限的”存储容量和大量的数据和应用程序,使得多个(而不是特定于域的)设计人员之间的协作更加容易。文献中有许多论文分别对Cloud和FPGA进行了研究,更准确地说,研究了它们的服务和挑战。FPGA应用的加速和云的无限容量将会越来越普遍。随着越来越多的FPGA被部署到传统的云上,有必要澄清一下什么是云FPGA,以及在本地使用FPGA有哪些缺点。我们介绍了云FPGA的工作概况,这些工作都是为了充分利用在云环境中使用FPGA的优势而提出的。我们将这些研究分为三种服务,以突出它们的优点和局限性。本研究旨在推动云FPGA的进一步研究。

研究文章

FPGAs的科学代码的自动流水线和向量化

今天能够从像GPU和FPGA的加速器设备执行受益有一个庞大的身躯遗留科学代码使用。这样的遗留代码到设备专用并行代码手册翻译需要显著人工劳动,是更广泛的FPGA采用的主要障碍。我们正在开发一个自动化的优化编译器TyTra克服这一障碍。所述TyTra自流旨在编译传统Fortran代码基于FPGA的加速度,而施加适当的优化。我们提出了两个关键的优化,重点流程,自动流水线向量化。我们的编译器前端提取物从传统的Fortran代码模式,可以流水线和量化。后端首先创建精细和粗粒管道,然后自动向量化的存储器访问和基于成本模型数据通路两者,生成用于FPGA目标上Amazon云在OpenCL-HDL混合工作溶液。我们的研究结果显示超过基线的OpenCL代码4.2×性能改进。

研究文章

VIPAR:高层次设计太空探索并行视频处理架构

嵌入式视频应用现已涉足复杂的交通系统像自动车辆和驾驶员辅助系统。随着硅容量的增大,设计生产率差距为当前可用的设计工具长大。因此,高级综合(HLS)工具,以便通过移动的设计努力更高的抽象水平,以减少间隙出现。在本文中,我们目前VIPAR为在更高的设计级探索不同的视频处理架构的工具。首先,我们提出了专用于视频应用的并行参数化建筑模型。其次,针对这个建筑模型,我们有两个主要特点开发VIPAR工具:(1)经验模型引入估计基于硬件的利用率和工作频率的功耗。除此之外,我们推导出的方程用于在空间探索过程估计每个设计点的硬件的利用率和执行时间。(2)通过限定并行视频架构等的并行级,输入/输出端口的数量,像素分布模式,等等的主要特点,VIPAR工具可以自动产生用于硬件实现的专用体系结构。在实验验证,我们使用VIPAR工具自动生成赛灵思ZYNQ ZC706板绝对的多窗口总和差异立体匹配算法的高效硬件实现。我们成功通过迅速融合到我们的制度约束适合在功耗,硬件利用率和帧执行时间方面适当的设计,以提高设计效率。

研究文章

基于量子小波变换的高性能可重构计算机降维

在高能物理(HEP)的粒子跟踪等应用中,多维时空测量的高分辨率和庞大的数据读出计数正成为当今的主要挑战。在这项工作中,我们建议将降维技术与量子信息处理相结合,用于生成大量数据(如HEP)的领域。更具体地说,我们建议使用量子小波变换(QWT)来降低高空间分辨率数据的维数。量子小波变换利用量子力学原理,在处理大量信息的同时,减少了计算时间。我们开发了比之前报道的更简单和优化的仿真架构,对高分辨率数据执行量子小波变换。我们还实现了量子小波逆变换(IQWT)来精确地重建数据而不造成任何损失。这些算法是在基于fpga的量子仿真器上原型化的,该仿真器支持双精度浮点计算。利用高分辨率图像数据在最先进的多模高性能可重构计算机上进行了实验工作。实验结果表明,提出的概念为高能物理中粒子跟踪等应用产生的高空间分辨率数据降维提供了一种可行的方法。

研究文章

将时间转换为架构:COTSon和HLS的协同作用(领域专家—通过HLS设计计算机架构)

将系统需求转换为底层表示(例如,寄存器传输层或RTL)是基于fpga的系统设计的典型目标。然而,识别最终架构所需要的设计空间探索(DSE)可能非常耗时,即使在使用高级综合(HLS)工具时也是如此。在本文中,我们演示了我们的混合方法,它使用了HLS的前端,这样通过使用更高级别的抽象,DSE可以更快地执行,同时又不会丢失准确性,这要归功于HP-Labs COTSon模拟基础设施和我们的DSE工具(MYDSE工具)。特别是,这种方法被证明是有用的,以实现一个适当的设计整个系统在更短的时间比试图设计一切直接在HLS。我们的动机问题是部署一种称为数据流线程(DF-Threads)的新执行模型,该模型运行在尚未设计的硬件上。对于这个目标,在设计周期中直接使用HLS还为时过早。因此,我们方法的关键在于在仿真框架中定义第一个原型,并在模拟器中验证新系统的关键性能指标后,逐步将设计迁移到Xilinx HLS中。为了解释这个工作流,我们首先使用一个简单的驱动例子,它包含了双向关联缓存的建模。然后,我们解释了如何推广这种方法,并描述了我们能够在AXIOM项目中分析的结果类型,这帮助我们将开发时间从几个月/周减少到几天/小时。

研究文章

基于fpga的CNNs硬件加速器,仅使用芯片存储器:使用Intel Movidius神经计算棒进行设计和基准测试

在过去的几年中,卷积神经网络已经被用于不同的应用领域,这是因为与其他深度学习方法相比,卷积神经网络具有使用较少的参数来完成任务的潜力。然而,功耗和内存占用限制(通常是在edge和可移植应用程序上)通常会与准确性和延迟要求产生冲突。由于这些原因,商业硬件加速器已经变得流行起来,这要归功于它们为一般卷积神经网络模型的推理而设计的体系结构。尽管如此,现场可编程门阵列代表了一个有趣的前景,因为它们提供了实现为特定的卷积神经网络模型量身定制的硬件架构的可能性,并在延迟和功耗方面带来了有希望的结果。本文针对可分卷积神经网络,提出了一种全片上现场可编程门阵列硬件加速器。我们从之前为Intel Movidius神经计算棒实现的模型开始。为了实现我们的目标,我们通过一个位真实的模拟适当地量化了这样一个模型,并且我们实现了一个专用的架构,专门使用片上存储器。实现了将Xilinx和Intel在不同现场可编程门阵列上的结果与神经计算棒上的结果进行比较的基准测试。分析表明,通过FPGA解决方案,可以获得更好的推理时间和每个推理结果的能量,其准确性相当,但需要付出更高的设计工作和开发时间。

可重构计算的国际期刊
期刊指标
录取率 -
提交最终决定 -
接受出版 -
CiteScore 0.630
影响因子 -
提交

我们致力于尽快和尽可能安全地分享关于COVID-19的发现。任何提交COVID-19论文的作者都应该通知我们help@hindawi.com以确保他们的研究能被快速跟踪,并尽快在预印本服务器上提供。我们将提供无限豁免的出版费用,接受的有关COVID-19的文章。