Реализация блочного КИХ-фильтра в потоковом рекуррентном сигнальном процессоре

Хилько Д.В. Реализация блочного КИХ-фильтра в потоковом рекуррентном сигнальном процессоре // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2022. Выпуск 4. С. 163-170.

DOI: 10.31114/2078-7707-2022-4-163-170. Индексируется в РИНЦ, ВАК. URL: http://www.mes-conference.ru/data/year2022/pdf/D085.pdf.

Library reference: Khilko D.V. Block FIR filter implementation with a data-flow recurrent signal processor // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2022. Issue 4. P. 163-170.

Финансовая поддержка: Исследование выполнено в рамках государственного задания № 0063-2019-0010. / Funding Agency: The study was carried out within the framework of state assignment No. 0063-2019-0010.

Аннотация: В статье рассматриваются аспекты апробации прототипа потокового рекуррентного сигнального процессора на одном из ключевых алгоритмов цифровой обработки сигналов – фильтре с конечной импульсной характеристикой. Первая попытка реализации блочного КИХ-фильтра показала высокий уровень производительности рассматриваемого прототипа. Однако избыточность потоковой программы оказалась слишком высокой. Был осуществлен анализ методов программной и аппаратной оптимизации реализации КИХ-фильтров. По результатам данного анализа определены основные направления для усовершенствования прототипа рекуррентного сигнального процессора. Средства аппаратной поддержки алгоритма Быстрого преобразования Фурье, созданные на более ранних этапах разработки прототипа, были успешно доработаны и использованы для реализации КИХ-фильтра. Данное решение позволило снизить избыточность потоковой программы реализации блочного КИХ-фильтра почти на 80% и повысить скорость загрузки отсчетов обрабатываемого сигнала.

Abstract: The article covers aspects of the prototype approbation of a data-flow recurrent signal processor in the subject area of digital signal processing. A brief description of the scientific and practical results obtained during the development of the considered prototype is presented. A set of BDTIMark2000 benchmarks is selected to assess the prototype performance. The successful testing of the most impactful DSP algorithm — FFT with point-in-place implementation through the introduction of hardware support is especially noted. The next essential algorithm for testing the prototype was a filter with a finite impulse response. The first attempt to implement a block FIR filter showed a high level of performance of the covered prototype.
However, the redundancy of the data-flow program turned out to be too high. Therefore, software and hardware optimi-zation techniques for FIR filters implementation have been analyzed. Based on the analysis results, the main directions for improving the prototype of the recurrent signal processor have been determined. Following techniques have been considered: cyclic addressing mechanisms; hardware support for cycles; optimal memory placement of samples and coeffi-cients; superscalar calculations; parallel and block imple-mentation of the filter; optimization of the multiplier microarchitecture; representation of coefficients in signed-powers-of-two form for implementation without multipliers; distributed arithmetic; multiple constant multiplications.
Applicability analysis of the studied techniques for a proto-type of a recurrent signal processor is covered. It concluded that most of the techniques could be used to improve the FFT hardware support. This hardware has been successfully re-fined and used to implement the FIR filter. The resulting solution reduced the redundancy of the block FIR filter data-flow program by almost 80% and increased the loading speed of the input signal samples.
In conclusion, unresolved problems with the implementation of other types of FIR filters, such as single-sample FIR and complex block FIR are considered. It is shown that the developed tools were designed with the goal of further devel-opment and can be efficiently modified for the effective im-plementation of these filters.

Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov.  Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms // 2022 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 25-28, 2022. — IEEE, P. 464-468

DOI: 10.1109/ElConRus54750.2022.9755727 (Indexed in WoS, Scopus, ядро РИНЦ) URL: https://ieeexplore.ieee.org/document/9755727.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The FPGA prototype of the Hybrid Architecture of Recurrent Signal Processor has shown promising results on the isolated word recognition (IWR) problem. This task is a subset of DSP algorithms. In expanding trial on a wide range of DSP algorithms, work has begun to increase the versatility of architectural solutions. The proposed solutions aim to reduce memory costs for storing tagged input data and optimize a number of computational pipeline modules. The article covers the implementation results of the FFT and a series of FIR filter algorithms. Some redundant, highly specialized for the IWR tasks blocks were excluded in the course of this work. The proposed architectural solutions increase the scalability of the architecture and reuse the introduced blocks to optimize the solution of other DSP tasks.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС

Дьяченко Ю.Г., Степченков Ю.А., Морозов Н.В., Хилько Д.В., Степченков Д.Ю., Шикунов Ю.И. Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2021. Выпуск 2. С. 77-82.

DOI: 10.31114/2078-7707-2021-2-77-82. (Индексируется в РИНЦ). URL: http://www.mes-conference.ru/data/year2021/pdf/D016.pdf.

Translation: Diachenko Yu.G., Stepchenkov Yu.A., Morozov N.V., Khilko D.V., Stepchenkov D.Yu., Shikunov Yu.I. Hardware verification of the recurrent signal processor on FPGA // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2021. Issue 2. P. 77-82.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: В работе представлены результаты верификации аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП), представленной VHDL-моделью уровня регистровых передач. Макетный образец реализован на отладочной плате HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SG с помощью системы Quartus Pro 18 (Intel). ГМАРСП включает ведущий фон-неймановский процессор в качестве управляющего уровня и потоковый процессор с четырьмя вычислительными ядрами в качестве операционного уровня. В составе макетного образца управляющий процессор (УП) реализуется либо программно (NIOS II), либо аппаратно (ARM Cortex-A9). Тестирование аппаратной реализации ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели ГМАРСП и исходной С++ модели РИС. Достигнутая производительность аппаратной реализации ГМАРСП обеспечивает работу РИС на отладочной плате в режиме реального времени. Верификация аппаратной реализации ГМАРСП на синтетических тестах, покрывающих основную часть алгоритмов цифровой обработки сигналов, показала, что ее производительность в среднем на 5% превышает производительность процессора обработки цифровых данных C55x фирмы Texas Instruments.

Abstract: Paper represents Hybrid Architecture of Recurrent Multi-core Signal Processor (HARMSP) hardware implementation results. It describes HARMSP’s register transfer level model in VHDL and hardware prototype on HAN Pilot Platform demo-board with field-programmable gate array (FPGA) Intel Arria10 SoC 10AS066K3F40E2SG. HARMSP consists of a von Neumann master processor on a control level and a dataflow processor on an operational level. Dataflow processor includes four computing cores. HARMSP’s hardware model combines program or hardware implementation of the controlling processor (CP) and VHDL model of the operational level. CP’s program implementation is a default option provided by Quartus software (Intel) for FPGA. FPGA Intel Arria10 SoC on demo-board provides CP’s hardware implementation as Cortex-A9 two-core processor. Testing the HARMSP’s hardware prototype on demo-board using an isolated word recognizer as a typical data processing application has proved that the hardware model is bit-exact with HARMSP’s imitation model. The HARMSP’s hardware prototype’s achieved performance ensures isolated word recognizer’s operation in real-time mode on demo-board. It is slightly better than the performance of the C55x (Texas Instruments) digital signal processor.

Design validation of recurrent signal processor FPGA prototype

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov and Georgy Orlov. Design validation of recurrent signal processor FPGA prototype // Proceedings of IEEE East-West Design & Test Symposium (EWDTS’2021),  Batumi, Georgia, September, 10 — 13, 2021, P. 157-161.

DOI: 10.1109/EWDTS52692.2021.9581005. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9581005.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: This paper describes the final stage of the FPGA prototype development of a recurrent signal processor. During the development of this prototype, a set of tools was created, based on which design verification was carried out. We describe the development process and the prototype validation methodology on a class of DSP tasks using a demo task of isolated word recognition. Taking the previously developed tools and methods for verifying software and hardware models, we have developed a specialized design validation tool. This solution made it possible to ensure the uniformity of the validation process for various types of architecture implementation and to establish the correctness of their operation.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

Computing Dataflow Architectures: History and Implementation Perspectives

Victor Zakharov, Yuri Stepchenkov, Yuri Diachenko and Dmitrij Khilko. Computing Dataflow Architectures: History and Implementation Perspectives // 2021 International Conference Engineering Technologies and Computer Science EnT 2021 Moscow, Russia, 18-19 August 2021. P. 98-102.

DOI: 10.1109/EnT52731.2021.00024. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9623012.

Funding Agency: The study was carried out within the framework of state assignment No. 0063-2019-0010. / Финансовая поддержка: Исследование выполнено в рамках государственного задания № 0063-2019-0010.

Abstract: The article analyzes computational architectures with data flow controlling computations. In particular, it analyzes the reasons that prevented the formation of this promising class of architectures. The paper considered the features of algorithms in digital signal processing and the requirements from the digital signal processors. A more accurate accounting of these features allows for proposing an approach for introducing the dataflow paradigm into the DSP area. The paper considers the concept of a new multicore dataflow recurrent architecture developed at the Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences. It is designed for the parallel computing implementation of real-time signal processing. This architecture is currently at the final stage of prototyping on FPGA.

Аннотация: Статья посвящена анализу вычислительных архитектур с управлением вычислениями от потока данных и, в частности, анализу причин, которые помешали становлению этого перспективного класса архитектур. Рассматриваются особенности алгоритмов в области цифровой обработки сигналов и требования со стороны цифровых сигнальных процессоров, более точный учет которых позволил бы предложить подход для внедрения потоковой парадигмы в область DSP. Рассмотрены элементы концепции, разработанной в ФИЦ ИУ РАН новой многоядерной потоковой рекуррентной архитектуры, предназначенной для реализации параллельных вычислительных процессов обработки сигналов в реальном времени. В настоящее время эта архитектура находится на финальной стадии макетной ПЛИС-апробации.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044.

DOI: 10.1109/ElConRus51938.2021.9396594. Indexed in Scopus. URL: https://ieeexplore.ieee.org/document/9396594.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The article discusses the results of a preliminary assessment of the data-flow recurrent architecture’s performance on a subset of digital signal processing key tasks. Various implementations of vector convolution, FIR filters, IIR filters, adaptive filter, and 256-Point-In-Place FFT are evaluated. The implementation of the listed algorithms is based on the TMS320C55x DSP Library. The preliminary results showed that the performance of the recurrent architecture based on data-flow principles is not inferior to the TMS320C55x, based on von Neumann principles, in terms of the number of computation cycles. Architecture improvement suggestions are presented.

Аннотация:В статье рассматриваются результаты предварительной оценки производительности потоковой рекуррентной архитектуры на подмножестве основных задач цифровой обработки сигналов. Оцениваются различные варианты реализации свертки векторов, КИХ-фильтров, БИХ-фильтров, адаптивного фильтра и 256-Point-In-Place FFT. Реализация перечисленных алгоритмов осуществлена на основе TMS320C55x DSP Library. Полученные предварительные результаты показали, что уровень производительности рекуррентной архитектуры, основанной на потоковых принципах, не уступает TMS320C55x, основанному на принципах фон Неймана, по количеству циклов вычислений. Также представлены предложения по развитию архитектуры на основе полученных результатов.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Специализированные преобразователи тегов для рекуррентного обработчика сигналов

Степченков Ю.А., Хилько Д.В., Шикунов Ю.И., Орлов Г.А. Специализированные преобразователи тегов для рекуррентного обработчика сигналов // Проблемы разработки перспективных микро- и наноэлектронных систем — 2020. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2020. Выпуск 2. С. 73-80.
DOI: 10.31114/2078-7707-2020-2-73-80

Аннотация: Настоящая статья посвящена исследованию применимости специализированных рекуррентных преобразователей в рекуррентном операционном устройстве для задач цифровой обработки сигналов. Рассматриваются основные особенности и существующие проблемы реализации рекуррентности в операционном устройстве, построенном на основе потокового (data-flow) принципа. Приводится анализ ограниченного подмножества алгоритмов цифровой обработки сигналов с целью построения специализированных рекуррентных цепочек и преобразователей их реализующих. Представлены результаты построения некоторых специализированных преобразователей тегов и реализации демонстрационного алгоритма фильтрации Баттерворта.

Abstract: Self-timed (ST) circuit’s indication subcircuit largely determines its performance. This problem is especially acute in multi-bit computing ST circuits, including multiplier. The classical indication involves generating an entire ST circuit total indication output, which takes part in handshaking ST units or ST pipeline stages. Multi-bit ST circuits that implement data processing algorithms with a high parallelism degree allow the use of group indication of the ST circuit outputs resulting in bitwise signals controlling their inputs’ phase. The article describes a method of accelerating the indication subcircuit operation as applied to the ST-multiplier, which implements the modified Booth algorithm and uses the two-stage Wallace tree on adders with redundant (ternary) and dual-rail ST-coding of their inputs and outputs. Group indication and bitwise input control of both Wallace tree pipeline stages provide an increase in ST-multiplier performance by 40% with a penalty of 2.3-2.5% in its hardware.

Testing and optimization of Recurrent Signal Processor

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov. Testing and optimization of Recurrent Signal Processor // 2020 International Conference Engineering Technologies and Computer Science EnT 2020 Moscow, Russia24-27 June 2020. P 54-57. (indexed in Scopus).
DOI: 10.1109/EnT48576.2020.00017

Abstract: This paper covers the optimization research for the novel data-flow computational architecture called Hybrid Architecture of Recurrent Signal Processor. The testing methodology, based on the shift towards Test-Driven Development of architecture models, is provided. We cover the toolset developed to unify the methodology for both software and hardware models. The testing results are analyzed, and the issues are formulated. We propose the pipeline extension by splitting our largest component down. We show the new pipeline utilization ratio this solution provides.

Аннотация: В статье рассматриваются исследования по оптимизации новой вычислительной архитектуры потока данных, называемой гибридной архитектурой процессора рекуррентных сигналов. Приведена методология тестирования, основанная на переходе к разработке архитектурных моделей через тестирование. Рассмотриен набор инструментов, разработанный для унификации методологии как для программных, так и для аппаратных моделей. Анализируются результаты тестирования. Мы предлагаем расширение конвейера путем разделения нашего самого большого компонента на части.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Iterator component development for data redundancy solution in data-flow architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgii A. Orlov.  Iterator component development for data redundancy solution in data-flow architecture // 2020 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus)Moscow, Russia, January 27-30, 2020. — IEEE, P. 1869-1872. (indexed in Scopus).
DOI: 10.1109/EIConRus49466.2020.9039358

Abstract: The hardware sample of multi-core data-flow recurrent architecture has been developed and tested on the digital signal processing domain. An analysis of the iterative algorithms execution results made it possible to propose a number of mechanisms to improve one of the components of the architecture — the Iterator. A significant problem in architecture programming is a high program redundancy produced by a significant number of special operands that are designed to control its internal resources. The Iterator component is designed to solve this issue, but its capabilities were not enough. The article presents the development results of the Iterator component. A description of the developed mechanisms to control the Iterator is provided. We demonstrate the results of the Iterator improvements using an example of the Viterbi algorithm for searching at hidden Markov models. The developed tools made it possible to nearly halve the volume of special operands and optimize the software implementation of the algorithm.

Аннотация: Аппаратный образец многоядерной рекуррентной архитектуры потока данных был разработан и протестирован в области цифровой обработки сигналов. Анализ результатов выполнения итерационных алгоритмов позволил предложить ряд механизмов для улучшения одного из компонентов архитектуры — Итератора. Существенной проблемой архитектурного программирования является высокая избыточность программы, создаваемая значительным количеством специальных операндов, предназначенных для управления ее внутренними ресурсами. Компонент Iterator призван решить эту проблему, но его возможностей оказалось недостаточно. В статье представлены результаты разработки компонента Итератор. Приведено описание разработанных механизмов управления Итератором. Продемонстрируем результаты усовершенствований Итератора на примере алгоритма Витерби для поиска скрытых марковских моделей. Разработанные инструменты позволили почти вдвое уменьшить объем специальных операндов и оптимизировать программную реализацию алгоритма.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Development of Capsule Programming Means for Recurrent Data-flow Architecture

D.V. Khilko, Yu. A. Stepchenkov, Yu.I. Shikunov, G.A. Orlov. Development of Capsule Programming Means for Recurrent Data-flow Architecture // Problems of Advanced Micro- and Nanoelektronic Systems Development – 2019, Issue II, Moscow, IPPM RAS, P. 40-45.
DOI: 10.31114/2078-7707-2019-2-40-45

Abstract: This paper presents new results obtained in the course of work on the development of methods and tools for software programming and debugging of the multicore re-current data-flow architecture (MRDA). At the current stage of development, the main goal is to automate the construc-tion of a special programmer’s tool – graph-capsules (GC), which visualizes the distribution of computing resources of the MRDA. To automate its creation, a component was de-veloped to construct GC in numerical form, using the model-ling results. The next step in the development of program-ming toolset is the creation of tools for graph and GC con-struction based on their symbolic form, which lays the foun-dation for the creation of the compilation tools in the future. This paper is dedicated to discussing the results of solving this problem.