Аппаратная реализация алгоритмов цифровой обработки сигналов в рекуррентном потоковом процессоре на ПЛИС

Ю. А. Степченков, Н. В. Морозов, Ю. Г. Дьяченко, Д. В. Хилько, Д. Ю. Степченков, Ю. И. Шикунов. Аппаратная реализация алгоритмов цифровой обработки сигналов в рекуррентном потоковом процессоре на ПЛИС // М.: Известия вузов. Электроника / Proceeding of Universities. Electronics 2022 27(3) – C. 356-366.

DOI: 10.24151/1561-5405-2022-27-3-356-366.

Финансовая поддержка: Исследование выполнено в рамках государственного задания № 0063-2019-0010. / Funding Agency: The study was carried out within the framework of state assignment No. 0063-2019-0010.

Аннотация: Статья описывает результаты верификации аппаратной реализации архитектуры гибридного рекуррентного сигнального процессора (ГРСП), представленной аппаратной моделью уровня регистровых передач. Макетный образец реализован на отладочной плате с программируемой логической интегральной схемой Intel Arria10. ГРСП включает фон-неймановский процессор в качестве управляющего уровня и потоковое рекуррентное обрабатывающее устройство с четырьмя вычислительными ядрами в качестве операционного уровня. Тестирование ГРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели и исходной С++ модели РИС. Верификация аппаратной реализации ГРСП на синтетических тестах показала, что ее производительность в среднем на 5% превышает производительность цифрового сигнального процессора TMSC55x фирмы Texas Instruments. Статья представляет результат оптимизации аппаратной поддержки быстрого преобразования Фурье, которая ускоряет его расчет, существенно уменьшает размер капсулы, сокращает требуемые аппаратные ресурсы и упрощает его масштабирование.

Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov.  Optimizing Data-flow Processor Architecture for Efficient Implementation of DSP Algorithms // 2022 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 25-28, 2022. — IEEE, P. 464-468

DOI: 10.1109/ElConRus54750.2022.9755727 (Indexed in WoS, Scopus) URL: https://ieeexplore.ieee.org/document/9755727.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The FPGA prototype of the Hybrid Architecture of Recurrent Signal Processor has shown promising results on the isolated word recognition (IWR) problem. This task is a subset of DSP algorithms. In expanding trial on a wide range of DSP algorithms, work has begun to increase the versatility of architectural solutions. The proposed solutions aim to reduce memory costs for storing tagged input data and optimize a number of computational pipeline modules. The article covers the implementation results of the FFT and a series of FIR filter algorithms. Some redundant, highly specialized for the IWR tasks blocks were excluded in the course of this work. The proposed architectural solutions increase the scalability of the architecture and reuse the introduced blocks to optimize the solution of other DSP tasks.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.

Оптимизация аппаратной поддержки быстрого преобразования Фурье в рекуррентном сигнальном процессоре

Хилько Д.В., Степченков Ю.А., Шикунов Ю.И., Дьяченко Ю.Г., Орлов Г.А. Оптимизация аппаратной поддержки быстрого преобразования Фурье в рекуррентном сигнальном процессоре // Системы и средства информатики, 2021. Т. 31. № 4. С. 71-83.

DOI: 10.14357/08696527210407. Индексируется в РИНЦ, ВАК, RSCI. URL: http://www.ipiran.ru/journal/collected/2021_31_04_rus/Vol31_Issue4_2021.pdf

Library reference: Khilko D.V., Stepchenkov Yu.A., Shikunov Yu.I., Diachenko Yu.G., Orlov G.A. Fast Fourier Transform hardware support optimization in recurrent signal processor // Systems and means of informatics, 2021. Vol. 31. Iss. 4, P. 71-83.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: Рассматривается поддержка быстрого преобразования Фурье (БПФ, англ. FFT — fast Fourier transform) в гибридной архитектуре рекуррентного обработчика сигналов (ГАРОС). Приводится анализ существующей реализации. Выявляются недостатки и их последствия. Предлагается оптимизированное решение, направленное на упрощение масштабирования как архитектуры, так и числа отсчетов БПФ.

Abstract: The paper covers the fast Fourier transform (FFT) support in the hybrid recurrent signal processor architecture. An analysis of the existing implementation is presented. Disadvantages and their ramifications are identified. An optimized solution is proposed to ease the scaling of both the architecture and the number of FFT samples.

Инструментальная среда разработки HARSP IDE. Версия 2

Государственная регистрация программы для ЭВМ № 2021668788 от 19.11.2021 Бюл. №11. Инструментальная среда разработки HARSP IDE. Версия 2. Хилько Дмитрий Владимирович, Шикунов Юрий Игоревич, Орлов Георгий Александрович, Степченков Юрий Афанасьевич; заявитель Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук» (ФИЦ ИУ РАН).  № заявки 2021668056, дата поступления заявки 12.11.2021.

Программа предназначена для разработки и отладки капсул и макетного образца нетрадиционной потоковой архитектуры и проведения их программно-аппаратных испытаний. Версия 2 дополнена новой реализацией модели потоковой архитектуры, направленной на повышение эффективности аппаратной поддержки алгоритма Быстрого Преобразования Фурье. Программа включает новый модуль автоматизированной валидации и верификации, позволяющий установить идентичность результатов вычислений разработанной и эталонной программ. Инструменты сборки позволяют получить исполняемый файл, не требующий установки Common Language Runtime библиотек. Тип ЭВМ: IBM PC-совмест. ПК на базе процессора х64; ОС: Windows 7/8/10.

Аппаратная реализация рекуррентного обработчика сигналов

Степченков Ю.А., Морозов Н.В., Дьяченко Ю.Г., Хилько Д.В. Аппаратная реализация рекуррентного обработчика сигналов // Системы и средства информатики, 2021. Т. 31. № 3. С. 113-122.

DOI: 10.14357/08696527210310. (Индексируется в РИНЦ, ВАК, RSCI). URL: http://www.ipiran.ru/journal/collected/2021_31_03_rus/Vol31_Issue3_2021.pdf.

Translation: Stepchenkov Yu.A., Morozov N.V., Diachenko Yu.G., Khilko D.V. Hardware Implementation of Recurrent Signal Processor // Systems and means of informatics, 2021. Vol. 33. Iss. 3, P. 113-122.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: Представлены результаты аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП) в виде VHDL-модели уровня регистровых передач и ее апробации в виде макетного образца на отладочной плате с программируемой логической интегральной схемой (ПЛИС) Intel Arria10. Гибридная многоядерная архитектура рекуррентного сигнального процессора состоит из ведущего фон-неймановского процессора, реализующего управляющий уровень архитектуры, и потокового процессора с четырьмя вычислительными секциями на операционном уровне архитектуры. Аппаратная модель ГМАРСП представляет собой совокупность программной или аппаратной реализации управляющего процессора (УП) и VHDL-модели операционного уровня ГМАРСП. Программная реализация УП предоставляется системой Quartus автоматизированного проектирования цифровых СБИС на ПЛИС фирмы Intel. Аппаратную реализацию УП в виде двухъядерного процессора Cortex-A9 обеспечивает ПЛИС на отладочной плате.

Abstract: The paper presents the results of hybrid architecture of recurrent
multicore signal processor (HARMSP) hardware implementation as register
transfer level VHDL-model and its prototype approbation on a development
board with Intel Arria10 field-programmable gate array (FPGA). HARMSP
consists of von-Neumann master processor at control architecture level and
data-flow recurrent processor with four computing sections at operational level.
Hardware HARMSP model is a complex of software or hardware control
processor (CP) implementation and operational level VHDL-model. CAD
Quartus (Intel) provides the software CP implementation on FPGA, whereas
SoC FPGA on the development board contains the hardware CP implementation
as dual-core Cortex-A9 processor.

Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС

Дьяченко Ю.Г., Степченков Ю.А., Морозов Н.В., Хилько Д.В., Степченков Д.Ю., Шикунов Ю.И. Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2021. Выпуск 2. С. 77-82.

DOI: 10.31114/2078-7707-2021-2-77-82. (Индексируется в РИНЦ). URL: http://www.mes-conference.ru/data/year2021/pdf/D016.pdf.

Translation: Diachenko Yu.G., Stepchenkov Yu.A., Morozov N.V., Khilko D.V., Stepchenkov D.Yu., Shikunov Yu.I. Hardware verification of the recurrent signal processor on FPGA // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2021. Issue 2. P. 77-82.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: В работе представлены результаты верификации аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП), представленной VHDL-моделью уровня регистровых передач. Макетный образец реализован на отладочной плате HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SG с помощью системы Quartus Pro 18 (Intel). ГМАРСП включает ведущий фон-неймановский процессор в качестве управляющего уровня и потоковый процессор с четырьмя вычислительными ядрами в качестве операционного уровня. В составе макетного образца управляющий процессор (УП) реализуется либо программно (NIOS II), либо аппаратно (ARM Cortex-A9). Тестирование аппаратной реализации ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели ГМАРСП и исходной С++ модели РИС. Достигнутая производительность аппаратной реализации ГМАРСП обеспечивает работу РИС на отладочной плате в режиме реального времени. Верификация аппаратной реализации ГМАРСП на синтетических тестах, покрывающих основную часть алгоритмов цифровой обработки сигналов, показала, что ее производительность в среднем на 5% превышает производительность процессора обработки цифровых данных C55x фирмы Texas Instruments.

Abstract: Paper represents Hybrid Architecture of Recurrent Multi-core Signal Processor (HARMSP) hardware implementation results. It describes HARMSP’s register transfer level model in VHDL and hardware prototype on HAN Pilot Platform demo-board with field-programmable gate array (FPGA) Intel Arria10 SoC 10AS066K3F40E2SG. HARMSP consists of a von Neumann master processor on a control level and a dataflow processor on an operational level. Dataflow processor includes four computing cores. HARMSP’s hardware model combines program or hardware implementation of the controlling processor (CP) and VHDL model of the operational level. CP’s program implementation is a default option provided by Quartus software (Intel) for FPGA. FPGA Intel Arria10 SoC on demo-board provides CP’s hardware implementation as Cortex-A9 two-core processor. Testing the HARMSP’s hardware prototype on demo-board using an isolated word recognizer as a typical data processing application has proved that the hardware model is bit-exact with HARMSP’s imitation model. The HARMSP’s hardware prototype’s achieved performance ensures isolated word recognizer’s operation in real-time mode on demo-board. It is slightly better than the performance of the C55x (Texas Instruments) digital signal processor.

Design validation of recurrent signal processor FPGA prototype

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov and Georgy Orlov. Design validation of recurrent signal processor FPGA prototype // Proceedings of IEEE East-West Design & Test Symposium (EWDTS’2021),  Batumi, Georgia, September, 10 — 13, 2021, P. 157-161.

DOI: 10.1109/EWDTS52692.2021.9581005. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9581005.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: This paper describes the final stage of the FPGA prototype development of a recurrent signal processor. During the development of this prototype, a set of tools was created, based on which design verification was carried out. We describe the development process and the prototype validation methodology on a class of DSP tasks using a demo task of isolated word recognition. Taking the previously developed tools and methods for verifying software and hardware models, we have developed a specialized design validation tool. This solution made it possible to ensure the uniformity of the validation process for various types of architecture implementation and to establish the correctness of their operation.

Аннотация: Настоящая статья описывает завершающий этап разработки ПЛИС прототипа рекуррентного обработчика сигналов. В процессе разработки данного прототипа был создан набор инструментальных средств, на основе которого была осуществлена верификация дизайна. Мы описываем методику валидации прототипа на классе DSP задач на примере демонстрационной задачи распознавания изолированных слов. Взяв за основу разработанные ранее средства и методики верификации программной и аппаратной моделей, мы разработали специализированный инструмент валидации дизайна. Данное решение позволило обеспечить единообразие процесса валидации различных видов реализации архитектуры и установить корректность их работы.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

Computing Dataflow Architectures: History and Implementation Perspectives

Victor Zakharov, Yuri Stepchenkov, Yuri Diachenko and Dmitrij Khilko. Computing Dataflow Architectures: History and Implementation Perspectives // 2021 International Conference Engineering Technologies and Computer Science EnT 2021 Moscow, Russia, 18-19 August 2021. P. 98-102.

DOI: 10.1109/EnT52731.2021.00024. (Indexed in Scopus). URL: https://ieeexplore.ieee.org/document/9623012.

Funding Agency: The study was carried out within the framework of state assignment No. 0063-2019-0010. / Финансовая поддержка: Исследование выполнено в рамках государственного задания № 0063-2019-0010.

Abstract: The article analyzes computational architectures with data flow controlling computations. In particular, it analyzes the reasons that prevented the formation of this promising class of architectures. The paper considered the features of algorithms in digital signal processing and the requirements from the digital signal processors. A more accurate accounting of these features allows for proposing an approach for introducing the dataflow paradigm into the DSP area. The paper considers the concept of a new multicore dataflow recurrent architecture developed at the Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences. It is designed for the parallel computing implementation of real-time signal processing. This architecture is currently at the final stage of prototyping on FPGA.

Аннотация: Статья посвящена анализу вычислительных архитектур с управлением вычислениями от потока данных и, в частности, анализу причин, которые помешали становлению этого перспективного класса архитектур. Рассматриваются особенности алгоритмов в области цифровой обработки сигналов и требования со стороны цифровых сигнальных процессоров, более точный учет которых позволил бы предложить подход для внедрения потоковой парадигмы в область DSP. Рассмотрены элементы концепции, разработанной в ФИЦ ИУ РАН новой многоядерной потоковой рекуррентной архитектуры, предназначенной для реализации параллельных вычислительных процессов обработки сигналов в реальном времени. В настоящее время эта архитектура находится на финальной стадии макетной ПЛИС-апробации.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru

2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering

Было принято участие в конференции 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). Был принят следующий доклад по по рекуррентной тематике:

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044. (indexed in Scopus).

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044.

DOI: 10.1109/ElConRus51938.2021.9396594. Indexed in Scopus. URL: https://ieeexplore.ieee.org/document/9396594.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Abstract: The article discusses the results of a preliminary assessment of the data-flow recurrent architecture’s performance on a subset of digital signal processing key tasks. Various implementations of vector convolution, FIR filters, IIR filters, adaptive filter, and 256-Point-In-Place FFT are evaluated. The implementation of the listed algorithms is based on the TMS320C55x DSP Library. The preliminary results showed that the performance of the recurrent architecture based on data-flow principles is not inferior to the TMS320C55x, based on von Neumann principles, in terms of the number of computation cycles. Architecture improvement suggestions are presented.

Аннотация:В статье рассматриваются результаты предварительной оценки производительности потоковой рекуррентной архитектуры на подмножестве основных задач цифровой обработки сигналов. Оцениваются различные варианты реализации свертки векторов, КИХ-фильтров, БИХ-фильтров, адаптивного фильтра и 256-Point-In-Place FFT. Реализация перечисленных алгоритмов осуществлена на основе TMS320C55x DSP Library. Полученные предварительные результаты показали, что уровень производительности рекуррентной архитектуры, основанной на потоковых принципах, не уступает TMS320C55x, основанному на принципах фон Неймана, по количеству циклов вычислений. Также представлены предложения по развитию архитектуры на основе полученных результатов.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции / You can get additional information on the content of the article on the conference website. Также вы можете связаться с авторами доклада, или с руководителем научной группы Степченковым Ю. А. ia_ste@mail.ru / You can also contact the authors of the report, or with the head of the scientific group Stepchenkov Ya. A. ia_ste@mail.ru.