Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС

Дьяченко Ю.Г., Степченков Ю.А., Морозов Н.В., Хилько Д.В., Степченков Д.Ю., Шикунов Ю.И. Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2021. Выпуск 2. С. 77-82.

DOI: 10.31114/2078-7707-2021-2-77-82. (Индексируется в РИНЦ). URL: http://www.mes-conference.ru/data/year2021/pdf/D016.pdf.

Translation: Diachenko Yu.G., Stepchenkov Yu.A., Morozov N.V., Khilko D.V., Stepchenkov D.Yu., Shikunov Yu.I. Hardware verification of the recurrent signal processor on FPGA // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2021. Issue 2. P. 77-82.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: В работе представлены результаты верификации аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП), представленной VHDL-моделью уровня регистровых передач. Макетный образец реализован на отладочной плате HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SG с помощью системы Quartus Pro 18 (Intel). ГМАРСП включает ведущий фон-неймановский процессор в качестве управляющего уровня и потоковый процессор с четырьмя вычислительными ядрами в качестве операционного уровня. В составе макетного образца управляющий процессор (УП) реализуется либо программно (NIOS II), либо аппаратно (ARM Cortex-A9). Тестирование аппаратной реализации ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели ГМАРСП и исходной С++ модели РИС. Достигнутая производительность аппаратной реализации ГМАРСП обеспечивает работу РИС на отладочной плате в режиме реального времени. Верификация аппаратной реализации ГМАРСП на синтетических тестах, покрывающих основную часть алгоритмов цифровой обработки сигналов, показала, что ее производительность в среднем на 5% превышает производительность процессора обработки цифровых данных C55x фирмы Texas Instruments.

Abstract: Paper represents Hybrid Architecture of Recurrent Multi-core Signal Processor (HARMSP) hardware implementation results. It describes HARMSP’s register transfer level model in VHDL and hardware prototype on HAN Pilot Platform demo-board with field-programmable gate array (FPGA) Intel Arria10 SoC 10AS066K3F40E2SG. HARMSP consists of a von Neumann master processor on a control level and a dataflow processor on an operational level. Dataflow processor includes four computing cores. HARMSP’s hardware model combines program or hardware implementation of the controlling processor (CP) and VHDL model of the operational level. CP’s program implementation is a default option provided by Quartus software (Intel) for FPGA. FPGA Intel Arria10 SoC on demo-board provides CP’s hardware implementation as Cortex-A9 two-core processor. Testing the HARMSP’s hardware prototype on demo-board using an isolated word recognizer as a typical data processing application has proved that the hardware model is bit-exact with HARMSP’s imitation model. The HARMSP’s hardware prototype’s achieved performance ensures isolated word recognizer’s operation in real-time mode on demo-board. It is slightly better than the performance of the C55x (Texas Instruments) digital signal processor.

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044. (indexed in Scopus).

DOI:10.1109/ElConRus51938.2021.9396594

Abstract: The article discusses the results of a preliminary assessment of the data-flow recurrent architecture’s performance on a subset of digital signal processing key tasks. Various implementations of vector convolution, FIR filters, IIR filters, adaptive filter, and 256-Point-In-Place FFT are evaluated. The implementation of the listed algorithms is based on the TMS320C55x DSP Library. The preliminary results showed that the performance of the recurrent architecture based on data-flow principles is not inferior to the TMS320C55x, based on von Neumann principles, in terms of the number of computation cycles. Architecture improvement suggestions are presented.

Аннотация:В статье рассматриваются результаты предварительной оценки производительности потоковой рекуррентной архитектуры на подмножестве основных задач цифровой обработки сигналов. Оцениваются различные варианты реализации свертки векторов, КИХ-фильтров, БИХ-фильтров, адаптивного фильтра и 256-Point-In-Place FFT. Реализация перечисленных алгоритмов осуществлена на основе TMS320C55x DSP Library. Полученные предварительные результаты показали, что уровень производительности рекуррентной архитектуры, основанной на потоковых принципах, не уступает TMS320C55x, основанному на принципах фон Неймана, по количеству циклов вычислений. Также представлены предложения по развитию архитектуры на основе полученных результатов.

Скачать докладDownload PRESENTATION

Специализированные преобразователи тегов для рекуррентного обработчика сигналов

Степченков Ю.А., Хилько Д.В., Шикунов Ю.И., Орлов Г.А. Специализированные преобразователи тегов для рекуррентного обработчика сигналов // Проблемы разработки перспективных микро- и наноэлектронных систем — 2020. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2020. Выпуск 2. С. 73-80.
DOI: 10.31114/2078-7707-2020-2-73-80

Аннотация: Настоящая статья посвящена исследованию применимости специализированных рекуррентных преобразователей в рекуррентном операционном устройстве для задач цифровой обработки сигналов. Рассматриваются основные особенности и существующие проблемы реализации рекуррентности в операционном устройстве, построенном на основе потокового (data-flow) принципа. Приводится анализ ограниченного подмножества алгоритмов цифровой обработки сигналов с целью построения специализированных рекуррентных цепочек и преобразователей их реализующих. Представлены результаты построения некоторых специализированных преобразователей тегов и реализации демонстрационного алгоритма фильтрации Баттерворта.

Abstract: Self-timed (ST) circuit’s indication subcircuit largely determines its performance. This problem is especially acute in multi-bit computing ST circuits, including multiplier. The classical indication involves generating an entire ST circuit total indication output, which takes part in handshaking ST units or ST pipeline stages. Multi-bit ST circuits that implement data processing algorithms with a high parallelism degree allow the use of group indication of the ST circuit outputs resulting in bitwise signals controlling their inputs’ phase. The article describes a method of accelerating the indication subcircuit operation as applied to the ST-multiplier, which implements the modified Booth algorithm and uses the two-stage Wallace tree on adders with redundant (ternary) and dual-rail ST-coding of their inputs and outputs. Group indication and bitwise input control of both Wallace tree pipeline stages provide an increase in ST-multiplier performance by 40% with a penalty of 2.3-2.5% in its hardware.

Testing and optimization of Recurrent Signal Processor

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov. Testing and optimization of Recurrent Signal Processor // 2020 International Conference Engineering Technologies and Computer Science EnT 2020 Moscow, Russia24-27 June 2020. P 54-57. (indexed in Scopus).
DOI: 10.1109/EnT48576.2020.00017

Abstract: This paper covers the optimization research for the novel data-flow computational architecture called Hybrid Architecture of Recurrent Signal Processor. The testing methodology, based on the shift towards Test-Driven Development of architecture models, is provided. We cover the toolset developed to unify the methodology for both software and hardware models. The testing results are analyzed, and the issues are formulated. We propose the pipeline extension by splitting our largest component down. We show the new pipeline utilization ratio this solution provides.

Аннотация: В статье рассматриваются исследования по оптимизации новой вычислительной архитектуры потока данных, называемой гибридной архитектурой процессора рекуррентных сигналов. Приведена методология тестирования, основанная на переходе к разработке архитектурных моделей через тестирование. Рассмотриен набор инструментов, разработанный для унификации методологии как для программных, так и для аппаратных моделей. Анализируются результаты тестирования. Мы предлагаем расширение конвейера путем разделения нашего самого большого компонента на части.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Iterator component development for data redundancy solution in data-flow architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgii A. Orlov.  Iterator component development for data redundancy solution in data-flow architecture // 2020 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus)Moscow, Russia, January 27-30, 2020. — IEEE, P. 1869-1872. (indexed in Scopus).
DOI: 10.1109/EIConRus49466.2020.9039358

Abstract: The hardware sample of multi-core data-flow recurrent architecture has been developed and tested on the digital signal processing domain. An analysis of the iterative algorithms execution results made it possible to propose a number of mechanisms to improve one of the components of the architecture — the Iterator. A significant problem in architecture programming is a high program redundancy produced by a significant number of special operands that are designed to control its internal resources. The Iterator component is designed to solve this issue, but its capabilities were not enough. The article presents the development results of the Iterator component. A description of the developed mechanisms to control the Iterator is provided. We demonstrate the results of the Iterator improvements using an example of the Viterbi algorithm for searching at hidden Markov models. The developed tools made it possible to nearly halve the volume of special operands and optimize the software implementation of the algorithm.

Аннотация: Аппаратный образец многоядерной рекуррентной архитектуры потока данных был разработан и протестирован в области цифровой обработки сигналов. Анализ результатов выполнения итерационных алгоритмов позволил предложить ряд механизмов для улучшения одного из компонентов архитектуры — Итератора. Существенной проблемой архитектурного программирования является высокая избыточность программы, создаваемая значительным количеством специальных операндов, предназначенных для управления ее внутренними ресурсами. Компонент Iterator призван решить эту проблему, но его возможностей оказалось недостаточно. В статье представлены результаты разработки компонента Итератор. Приведено описание разработанных механизмов управления Итератором. Продемонстрируем результаты усовершенствований Итератора на примере алгоритма Витерби для поиска скрытых марковских моделей. Разработанные инструменты позволили почти вдвое уменьшить объем специальных операндов и оптимизировать программную реализацию алгоритма.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Development of Capsule Programming Means for Recurrent Data-flow Architecture

D.V. Khilko, Yu. A. Stepchenkov, Yu.I. Shikunov, G.A. Orlov. Development of Capsule Programming Means for Recurrent Data-flow Architecture // Problems of Advanced Micro- and Nanoelektronic Systems Development – 2019, Issue II, Moscow, IPPM RAS, P. 40-45.
DOI: 10.31114/2078-7707-2019-2-40-45

Abstract: This paper presents new results obtained in the course of work on the development of methods and tools for software programming and debugging of the multicore re-current data-flow architecture (MRDA). At the current stage of development, the main goal is to automate the construc-tion of a special programmer’s tool – graph-capsules (GC), which visualizes the distribution of computing resources of the MRDA. To automate its creation, a component was de-veloped to construct GC in numerical form, using the model-ling results. The next step in the development of program-ming toolset is the creation of tools for graph and GC con-struction based on their symbolic form, which lays the foun-dation for the creation of the compilation tools in the future. This paper is dedicated to discussing the results of solving this problem.

Modeling and debugging tools development for recurrent architecture

Dmitry Khilko, Yuri Stepchenkov, Yury Shikunov and George Orlov. Modeling and debugging tools development for recurrent architecture  // 2019 IEEE EAST-WEST DESIGN & TEST SYMPOSIUM Batumi, Georgia, September 13 — 16, 2019.
DOI: 10.1109/EWDTS.2019.8884412

Abstract: An unconventional multi-core recurrent data-flow architecture, that is being developed at Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences (FRS CSC RAS)was successfully tested on digital signal processing domain both at the model level and on a hardware sample. Based on the test results, several mechanisms had been identified that required improvement and a decision was made to investigate the architecture on other subject domains. Software and main architectural blocks debugging are carried out with the specially developed hardware and software modeling tools. The active extension and debugging of the architecture by using these tools revealed a number of shortcomings of the existing software. To eliminate these shortcomings, two problems have to be solved: to provide a high degree of reconfigurability of the architecture’s imitational model (to debug its mechanisms)and implement a symbolic modeling mode (to debug its software). The redesigning results of modeling and debugging tools for recurrent data-flow architecture are discussed in the article.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Hybrid multi-core recurrent architecture approbation on FPGA

Yury Stepchenkov, Nikolai Morozov, Dmitry Khilko, Yury Shikunov, Georgy Orlov. Hybrid multi-core recurrent architecture approbation on FPGA // 2019 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) Moscow, Russia, January 28-31, 2019. — IEEE, P. 1705 — 1708. (indexed in Scopus).
DOI: 10.1109/EIConRus.2019.8657140

Abstract: This paper provides approbation results of the multi-core hybrid architecture for recurrent signal processing (HARSP) as a hardware sample. The prototype has been designed primarily to check architecture’s integrity and universality on digital signal processing domain and to verify the hardware implementation of its imitational model, while operational frequency has not been as relevant. Hardware sample has been implemented on FPGA basis with Cyclone V GT Development Kit. Every data-flow processor implements fixed-point 16-bit processing core while the control level is implemented via generated NIOS II processor. The isolated word recognition with a high confidence threshold (at least 95% with a noise level of 15 dB) has been selected as the subject area. We compare HARSP efficiency against specialized TI C66x DSP by implementing the subset of BTDImark2000 algorithms, using computational steps amount the comparison metric.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Развитие средств капсульного программирования потоковой рекуррентной архитектуры

Д.В. Хилько, Ю.А. Степченков, Ю.И. Шикунов, Г.А. Орлов. Развитие средств капсульного программирования потоковой рекуррентной архитектуры // Проблемы разработки перспективных микро- и наноэлектронных систем – 2018. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2018. Часть III. С. 2–9.
DOI: 10.31114/2078-7707-2018-3-2-9

Аннотация: В статье рассматриваются новые результаты, полученные в ходе работ по направлению разработки методов и средств программирования многоядерной потоковой рекуррентной архитектуры. На текущем этапе разработки основной целью является автоматизация построения специального инструмента программиста – графкапсулы, который позволяет наглядно отображать распределение ресурсов архитектуры в процессе выполнения программы. Для этого был разработан компонент построения граф-капсул в числовом виде, использующий результаты моделирования. Следующим шагом в развитии средств программирования является разработка инструментария для построения потоковых графов и граф-капсул на их основе в символьном виде, что позволит заложить основу для создания средств компиляции в будущем. Обсуждению результатов решения данной задачи посвящена настоящая статья.

Graph-capsule construction toolset for data-flow computer architecture

Yu. Shikunov, Yu. Stepchenkov, D. Khilko, G. Orlov. Graph-capsule construction toolset for data-flow computer architecture // 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) Moscow, Russia, 29 Jan.-1 Feb., 2018. — IEEE, P. 1419 — 1423. (indexed in Scopus).

Abstract: This paper covers the technical aspects of developing elements of methodology and software for multicore recurrent data-flow architecture. Nowadays capsule programming is similar to assembler: high efficiency accompanied by high complexity and unintuitiveness. We develop specialized toolset suite for creating and debugging software for hybrid architecture for recurrent signal processing called HARSP IDE. One of the toolsets included is the specialized data-flow graph builder that constructs graph-capsules. Automatic graph-capsule construction significantly reduces development complexity by providing visual overview of computational process and resource utilization. The paper covers development stages, architecture and functionality of graph builder. We show case the tool on Viterbi algorithm debugging.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.