Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov.  Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms // 2022 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 25-28, 2022. — IEEE, 5 P.

Indexed in WoS, Scopus.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The FPGA prototype of the Hybrid Architecture of Recurrent Signal Processor has shown promising results on the isolated word recognition (IWR) problem. This task is a subset of DSP algorithms. In expanding trial on a wide range of DSP algorithms, work has begun to increase the versatility of architectural solutions. The proposed solutions aim to reduce memory costs for storing tagged input data and optimize a number of computational pipeline modules. The article covers the implementation results of the FFT and a series of FIR filter algorithms. Some redundant, highly specialized for the IWR tasks blocks were excluded in the course of this work. The proposed architectural solutions increase the scalability of the architecture and reuse the introduced blocks to optimize the solution of other DSP tasks.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС

Дьяченко Ю.Г., Степченков Ю.А., Морозов Н.В., Хилько Д.В., Степченков Д.Ю., Шикунов Ю.И. Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2021. Выпуск 2. С. 77-82.

DOI: 10.31114/2078-7707-2021-2-77-82. (Индексируется в РИНЦ). URL: http://www.mes-conference.ru/data/year2021/pdf/D016.pdf.

Translation: Diachenko Yu.G., Stepchenkov Yu.A., Morozov N.V., Khilko D.V., Stepchenkov D.Yu., Shikunov Yu.I. Hardware verification of the recurrent signal processor on FPGA // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2021. Issue 2. P. 77-82.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: В работе представлены результаты верификации аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП), представленной VHDL-моделью уровня регистровых передач. Макетный образец реализован на отладочной плате HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SG с помощью системы Quartus Pro 18 (Intel). ГМАРСП включает ведущий фон-неймановский процессор в качестве управляющего уровня и потоковый процессор с четырьмя вычислительными ядрами в качестве операционного уровня. В составе макетного образца управляющий процессор (УП) реализуется либо программно (NIOS II), либо аппаратно (ARM Cortex-A9). Тестирование аппаратной реализации ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели ГМАРСП и исходной С++ модели РИС. Достигнутая производительность аппаратной реализации ГМАРСП обеспечивает работу РИС на отладочной плате в режиме реального времени. Верификация аппаратной реализации ГМАРСП на синтетических тестах, покрывающих основную часть алгоритмов цифровой обработки сигналов, показала, что ее производительность в среднем на 5% превышает производительность процессора обработки цифровых данных C55x фирмы Texas Instruments.

Abstract: Paper represents Hybrid Architecture of Recurrent Multi-core Signal Processor (HARMSP) hardware implementation results. It describes HARMSP’s register transfer level model in VHDL and hardware prototype on HAN Pilot Platform demo-board with field-programmable gate array (FPGA) Intel Arria10 SoC 10AS066K3F40E2SG. HARMSP consists of a von Neumann master processor on a control level and a dataflow processor on an operational level. Dataflow processor includes four computing cores. HARMSP’s hardware model combines program or hardware implementation of the controlling processor (CP) and VHDL model of the operational level. CP’s program implementation is a default option provided by Quartus software (Intel) for FPGA. FPGA Intel Arria10 SoC on demo-board provides CP’s hardware implementation as Cortex-A9 two-core processor. Testing the HARMSP’s hardware prototype on demo-board using an isolated word recognizer as a typical data processing application has proved that the hardware model is bit-exact with HARMSP’s imitation model. The HARMSP’s hardware prototype’s achieved performance ensures isolated word recognizer’s operation in real-time mode on demo-board. It is slightly better than the performance of the C55x (Texas Instruments) digital signal processor.

Design validation of recurrent signal processor FPGA prototype

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov and Georgy Orlov. Design validation of recurrent signal processor FPGA prototype // Proceedings of IEEE East-West Design & Test Symposium (EWDTS’2021),  Batumi, Georgia, September, 10 — 13, 2021, P. 157-161.

DOI: 10.1109/EWDTS52692.2021.9581005. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9581005.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: This paper describes the final stage of the FPGA prototype development of a recurrent signal processor. During the development of this prototype, a set of tools was created, based on which design verification was carried out. We describe the development process and the prototype validation methodology on a class of DSP tasks using a demo task of isolated word recognition. Taking the previously developed tools and methods for verifying software and hardware models, we have developed a specialized design validation tool. This solution made it possible to ensure the uniformity of the validation process for various types of architecture implementation and to establish the correctness of their operation.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

Computing Dataflow Architectures: History and Implementation Perspectives

Victor Zakharov, Yuri Stepchenkov, Yuri Diachenko and Dmitrij Khilko. Computing Dataflow Architectures: History and Implementation Perspectives // 2021 International Conference Engineering Technologies and Computer Science EnT 2021 Moscow, Russia, 18-19 August 2021. P. 98-102.

DOI: 10.1109/EnT52731.2021.00024. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9623012.

Funding Agency: The study was carried out within the framework of state assignment No. 0063-2019-0010. / Финансовая поддержка: Исследование выполнено в рамках государственного задания № 0063-2019-0010.

Abstract: The article analyzes computational architectures with data flow controlling computations. In particular, it analyzes the reasons that prevented the formation of this promising class of architectures. The paper considered the features of algorithms in digital signal processing and the requirements from the digital signal processors. A more accurate accounting of these features allows for proposing an approach for introducing the dataflow paradigm into the DSP area. The paper considers the concept of a new multicore dataflow recurrent architecture developed at the Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences. It is designed for the parallel computing implementation of real-time signal processing. This architecture is currently at the final stage of prototyping on FPGA.

Аннотация: Статья посвящена анализу вычислительных архитектур с управлением вычислениями от потока данных и, в частности, анализу причин, которые помешали становлению этого перспективного класса архитектур. Рассматриваются особенности алгоритмов в области цифровой обработки сигналов и требования со стороны цифровых сигнальных процессоров, более точный учет которых позволил бы предложить подход для внедрения потоковой парадигмы в область DSP. Рассмотрены элементы концепции, разработанной в ФИЦ ИУ РАН новой многоядерной потоковой рекуррентной архитектуры, предназначенной для реализации параллельных вычислительных процессов обработки сигналов в реальном времени. В настоящее время эта архитектура находится на финальной стадии макетной ПЛИС-апробации.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044.

DOI: 10.1109/ElConRus51938.2021.9396594. Indexed in Scopus. URL: https://ieeexplore.ieee.org/document/9396594.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The article discusses the results of a preliminary assessment of the data-flow recurrent architecture’s performance on a subset of digital signal processing key tasks. Various implementations of vector convolution, FIR filters, IIR filters, adaptive filter, and 256-Point-In-Place FFT are evaluated. The implementation of the listed algorithms is based on the TMS320C55x DSP Library. The preliminary results showed that the performance of the recurrent architecture based on data-flow principles is not inferior to the TMS320C55x, based on von Neumann principles, in terms of the number of computation cycles. Architecture improvement suggestions are presented.

Аннотация:В статье рассматриваются результаты предварительной оценки производительности потоковой рекуррентной архитектуры на подмножестве основных задач цифровой обработки сигналов. Оцениваются различные варианты реализации свертки векторов, КИХ-фильтров, БИХ-фильтров, адаптивного фильтра и 256-Point-In-Place FFT. Реализация перечисленных алгоритмов осуществлена на основе TMS320C55x DSP Library. Полученные предварительные результаты показали, что уровень производительности рекуррентной архитектуры, основанной на потоковых принципах, не уступает TMS320C55x, основанному на принципах фон Неймана, по количеству циклов вычислений. Также представлены предложения по развитию архитектуры на основе полученных результатов.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Специализированные преобразователи тегов для рекуррентного обработчика сигналов

Степченков Ю.А., Хилько Д.В., Шикунов Ю.И., Орлов Г.А. Специализированные преобразователи тегов для рекуррентного обработчика сигналов // Проблемы разработки перспективных микро- и наноэлектронных систем — 2020. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2020. Выпуск 2. С. 73-80.
DOI: 10.31114/2078-7707-2020-2-73-80

Аннотация: Настоящая статья посвящена исследованию применимости специализированных рекуррентных преобразователей в рекуррентном операционном устройстве для задач цифровой обработки сигналов. Рассматриваются основные особенности и существующие проблемы реализации рекуррентности в операционном устройстве, построенном на основе потокового (data-flow) принципа. Приводится анализ ограниченного подмножества алгоритмов цифровой обработки сигналов с целью построения специализированных рекуррентных цепочек и преобразователей их реализующих. Представлены результаты построения некоторых специализированных преобразователей тегов и реализации демонстрационного алгоритма фильтрации Баттерворта.

Abstract: Self-timed (ST) circuit’s indication subcircuit largely determines its performance. This problem is especially acute in multi-bit computing ST circuits, including multiplier. The classical indication involves generating an entire ST circuit total indication output, which takes part in handshaking ST units or ST pipeline stages. Multi-bit ST circuits that implement data processing algorithms with a high parallelism degree allow the use of group indication of the ST circuit outputs resulting in bitwise signals controlling their inputs’ phase. The article describes a method of accelerating the indication subcircuit operation as applied to the ST-multiplier, which implements the modified Booth algorithm and uses the two-stage Wallace tree on adders with redundant (ternary) and dual-rail ST-coding of their inputs and outputs. Group indication and bitwise input control of both Wallace tree pipeline stages provide an increase in ST-multiplier performance by 40% with a penalty of 2.3-2.5% in its hardware.

Testing and optimization of Recurrent Signal Processor

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov. Testing and optimization of Recurrent Signal Processor // 2020 International Conference Engineering Technologies and Computer Science EnT 2020 Moscow, Russia24-27 June 2020. P 54-57. (indexed in Scopus).
DOI: 10.1109/EnT48576.2020.00017

Abstract: This paper covers the optimization research for the novel data-flow computational architecture called Hybrid Architecture of Recurrent Signal Processor. The testing methodology, based on the shift towards Test-Driven Development of architecture models, is provided. We cover the toolset developed to unify the methodology for both software and hardware models. The testing results are analyzed, and the issues are formulated. We propose the pipeline extension by splitting our largest component down. We show the new pipeline utilization ratio this solution provides.

Аннотация: В статье рассматриваются исследования по оптимизации новой вычислительной архитектуры потока данных, называемой гибридной архитектурой процессора рекуррентных сигналов. Приведена методология тестирования, основанная на переходе к разработке архитектурных моделей через тестирование. Рассмотриен набор инструментов, разработанный для унификации методологии как для программных, так и для аппаратных моделей. Анализируются результаты тестирования. Мы предлагаем расширение конвейера путем разделения нашего самого большого компонента на части.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Iterator component development for data redundancy solution in data-flow architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgii A. Orlov.  Iterator component development for data redundancy solution in data-flow architecture // 2020 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus)Moscow, Russia, January 27-30, 2020. — IEEE, P. 1869-1872. (indexed in Scopus).
DOI: 10.1109/EIConRus49466.2020.9039358

Abstract: The hardware sample of multi-core data-flow recurrent architecture has been developed and tested on the digital signal processing domain. An analysis of the iterative algorithms execution results made it possible to propose a number of mechanisms to improve one of the components of the architecture — the Iterator. A significant problem in architecture programming is a high program redundancy produced by a significant number of special operands that are designed to control its internal resources. The Iterator component is designed to solve this issue, but its capabilities were not enough. The article presents the development results of the Iterator component. A description of the developed mechanisms to control the Iterator is provided. We demonstrate the results of the Iterator improvements using an example of the Viterbi algorithm for searching at hidden Markov models. The developed tools made it possible to nearly halve the volume of special operands and optimize the software implementation of the algorithm.

Аннотация: Аппаратный образец многоядерной рекуррентной архитектуры потока данных был разработан и протестирован в области цифровой обработки сигналов. Анализ результатов выполнения итерационных алгоритмов позволил предложить ряд механизмов для улучшения одного из компонентов архитектуры — Итератора. Существенной проблемой архитектурного программирования является высокая избыточность программы, создаваемая значительным количеством специальных операндов, предназначенных для управления ее внутренними ресурсами. Компонент Iterator призван решить эту проблему, но его возможностей оказалось недостаточно. В статье представлены результаты разработки компонента Итератор. Приведено описание разработанных механизмов управления Итератором. Продемонстрируем результаты усовершенствований Итератора на примере алгоритма Витерби для поиска скрытых марковских моделей. Разработанные инструменты позволили почти вдвое уменьшить объем специальных операндов и оптимизировать программную реализацию алгоритма.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Development of Capsule Programming Means for Recurrent Data-flow Architecture

D.V. Khilko, Yu. A. Stepchenkov, Yu.I. Shikunov, G.A. Orlov. Development of Capsule Programming Means for Recurrent Data-flow Architecture // Problems of Advanced Micro- and Nanoelektronic Systems Development – 2019, Issue II, Moscow, IPPM RAS, P. 40-45.
DOI: 10.31114/2078-7707-2019-2-40-45

Abstract: This paper presents new results obtained in the course of work on the development of methods and tools for software programming and debugging of the multicore re-current data-flow architecture (MRDA). At the current stage of development, the main goal is to automate the construc-tion of a special programmer’s tool – graph-capsules (GC), which visualizes the distribution of computing resources of the MRDA. To automate its creation, a component was de-veloped to construct GC in numerical form, using the model-ling results. The next step in the development of program-ming toolset is the creation of tools for graph and GC con-struction based on their symbolic form, which lays the foun-dation for the creation of the compilation tools in the future. This paper is dedicated to discussing the results of solving this problem.

Modeling and debugging tools development for recurrent architecture

Dmitry Khilko, Yuri Stepchenkov, Yury Shikunov and George Orlov. Modeling and debugging tools development for recurrent architecture  // 2019 IEEE EAST-WEST DESIGN & TEST SYMPOSIUM Batumi, Georgia, September 13 — 16, 2019.
DOI: 10.1109/EWDTS.2019.8884412

Abstract: An unconventional multi-core recurrent data-flow architecture, that is being developed at Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences (FRS CSC RAS)was successfully tested on digital signal processing domain both at the model level and on a hardware sample. Based on the test results, several mechanisms had been identified that required improvement and a decision was made to investigate the architecture on other subject domains. Software and main architectural blocks debugging are carried out with the specially developed hardware and software modeling tools. The active extension and debugging of the architecture by using these tools revealed a number of shortcomings of the existing software. To eliminate these shortcomings, two problems have to be solved: to provide a high degree of reconfigurability of the architecture’s imitational model (to debug its mechanisms)and implement a symbolic modeling mode (to debug its software). The redesigning results of modeling and debugging tools for recurrent data-flow architecture are discussed in the article.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.