Аппаратная реализация рекуррентного обработчика сигналов

Степченков Ю.А., Морозов Н.В., Дьяченко Ю.Г., Хилько Д.В. Аппаратная реализация рекуррентного обработчика сигналов // Системы и средства информатики, 2021. Т. 31. № 3. С. 113-122.

DOI: 10.14357/08696527210310. (Индексируется в РИНЦ, ВАК, RSCI). URL: http://www.ipiran.ru/journal/collected/2021_31_03_rus/Vol31_Issue3_2021.pdf.

Translation: Stepchenkov Yu.A., Morozov N.V., Diachenko Yu.G., Khilko D.V. Hardware Implementation of Recurrent Signal Processor // Systems and means of informatics, 2021. Vol. 33. Iss. 3, P. 113-122.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: Представлены результаты аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП) в виде VHDL-модели уровня регистровых передач и ее апробации в виде макетного образца на отладочной плате с программируемой логической интегральной схемой (ПЛИС) Intel Arria10. Гибридная многоядерная архитектура рекуррентного сигнального процессора состоит из ведущего фон-неймановского процессора, реализующего управляющий уровень архитектуры, и потокового процессора с четырьмя вычислительными секциями на операционном уровне архитектуры. Аппаратная модель ГМАРСП представляет собой совокупность программной или аппаратной реализации управляющего процессора (УП) и VHDL-модели операционного уровня ГМАРСП. Программная реализация УП предоставляется системой Quartus автоматизированного проектирования цифровых СБИС на ПЛИС фирмы Intel. Аппаратную реализацию УП в виде двухъядерного процессора Cortex-A9 обеспечивает ПЛИС на отладочной плате.

Abstract: The paper presents the results of hybrid architecture of recurrent
multicore signal processor (HARMSP) hardware implementation as register
transfer level VHDL-model and its prototype approbation on a development
board with Intel Arria10 field-programmable gate array (FPGA). HARMSP
consists of von-Neumann master processor at control architecture level and
data-flow recurrent processor with four computing sections at operational level.
Hardware HARMSP model is a complex of software or hardware control
processor (CP) implementation and operational level VHDL-model. CAD
Quartus (Intel) provides the software CP implementation on FPGA, whereas
SoC FPGA on the development board contains the hardware CP implementation
as dual-core Cortex-A9 processor.

Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС

Дьяченко Ю.Г., Степченков Ю.А., Морозов Н.В., Хилько Д.В., Степченков Д.Ю., Шикунов Ю.И. Аппаратная верификация рекуррентного обработчика сигналов на ПЛИС // Проблемы разработки перспективных микро- и наноэлектронных систем (МЭС). 2021. Выпуск 2. С. 77-82.

DOI: 10.31114/2078-7707-2021-2-77-82. (Индексируется в РИНЦ). URL: http://www.mes-conference.ru/data/year2021/pdf/D016.pdf.

Translation: Diachenko Yu.G., Stepchenkov Yu.A., Morozov N.V., Khilko D.V., Stepchenkov D.Yu., Shikunov Yu.I. Hardware verification of the recurrent signal processor on FPGA // Problems of Perspective Micro- and Nanoelectronic Systems Development — 2021. Issue 2. P. 77-82.

Финансовая поддержка: Исследование выполнено при поддержке Российского научного фонда (проект 19-11-00334). / Funding Agency: The research was supported by the Russian Science Foundation (project No. 19-11-0034).

Аннотация: В работе представлены результаты верификации аппаратной реализации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП), представленной VHDL-моделью уровня регистровых передач. Макетный образец реализован на отладочной плате HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SG с помощью системы Quartus Pro 18 (Intel). ГМАРСП включает ведущий фон-неймановский процессор в качестве управляющего уровня и потоковый процессор с четырьмя вычислительными ядрами в качестве операционного уровня. В составе макетного образца управляющий процессор (УП) реализуется либо программно (NIOS II), либо аппаратно (ARM Cortex-A9). Тестирование аппаратной реализации ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов (РИС) – на отладочной плате подтвердило ее битэкзектность имитационной модели ГМАРСП и исходной С++ модели РИС. Достигнутая производительность аппаратной реализации ГМАРСП обеспечивает работу РИС на отладочной плате в режиме реального времени. Верификация аппаратной реализации ГМАРСП на синтетических тестах, покрывающих основную часть алгоритмов цифровой обработки сигналов, показала, что ее производительность в среднем на 5% превышает производительность процессора обработки цифровых данных C55x фирмы Texas Instruments.

Abstract: Paper represents Hybrid Architecture of Recurrent Multi-core Signal Processor (HARMSP) hardware implementation results. It describes HARMSP’s register transfer level model in VHDL and hardware prototype on HAN Pilot Platform demo-board with field-programmable gate array (FPGA) Intel Arria10 SoC 10AS066K3F40E2SG. HARMSP consists of a von Neumann master processor on a control level and a dataflow processor on an operational level. Dataflow processor includes four computing cores. HARMSP’s hardware model combines program or hardware implementation of the controlling processor (CP) and VHDL model of the operational level. CP’s program implementation is a default option provided by Quartus software (Intel) for FPGA. FPGA Intel Arria10 SoC on demo-board provides CP’s hardware implementation as Cortex-A9 two-core processor. Testing the HARMSP’s hardware prototype on demo-board using an isolated word recognizer as a typical data processing application has proved that the hardware model is bit-exact with HARMSP’s imitation model. The HARMSP’s hardware prototype’s achieved performance ensures isolated word recognizer’s operation in real-time mode on demo-board. It is slightly better than the performance of the C55x (Texas Instruments) digital signal processor.

2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering

Было принято участие в конференции 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus). Был принят следующий доклад по по рекуррентной тематике:

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044. (indexed in Scopus).

DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgy A. Orlov.  DSP Filter Kernels Preliminary Benchmarking for Recurrent Data-flow Architecture // 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Moscow, Russia, January 26-29, 2021. — IEEE, P. 2040-2044. (indexed in Scopus).

DOI:10.1109/ElConRus51938.2021.9396594

Abstract: The article discusses the results of a preliminary assessment of the data-flow recurrent architecture’s performance on a subset of digital signal processing key tasks. Various implementations of vector convolution, FIR filters, IIR filters, adaptive filter, and 256-Point-In-Place FFT are evaluated. The implementation of the listed algorithms is based on the TMS320C55x DSP Library. The preliminary results showed that the performance of the recurrent architecture based on data-flow principles is not inferior to the TMS320C55x, based on von Neumann principles, in terms of the number of computation cycles. Architecture improvement suggestions are presented.

Аннотация:В статье рассматриваются результаты предварительной оценки производительности потоковой рекуррентной архитектуры на подмножестве основных задач цифровой обработки сигналов. Оцениваются различные варианты реализации свертки векторов, КИХ-фильтров, БИХ-фильтров, адаптивного фильтра и 256-Point-In-Place FFT. Реализация перечисленных алгоритмов осуществлена на основе TMS320C55x DSP Library. Полученные предварительные результаты показали, что уровень производительности рекуррентной архитектуры, основанной на потоковых принципах, не уступает TMS320C55x, основанному на принципах фон Неймана, по количеству циклов вычислений. Также представлены предложения по развитию архитектуры на основе полученных результатов.

Скачать докладDownload PRESENTATION

Развитие гибридной многоядерной рекуррентной архитектуры на ПЛИС

Степченков Ю. А., Морозов Н. В., Дьяченко Ю. Г., Хилько Д. В., Степченков Д. Ю. Развитие гибридной многоядерной рекуррентной архитектуры на ПЛИС // Системы и средства информатики, 2020. Т. 30. № 4. С. 95-101.

DOI:10.14357/08696527200409. Индексируется в РИНЦ, ВАК, RSCI.

Аннотация: Представлен результат модификации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП) и ее апробации в виде макетного образца на отладочной плате нового поколения HAN Pilot Platform с программируемой логической интегральной схемой (ПЛИС) Intel Arria10 SoC 10AS066K3F40E2SGна основе VHDL (very high speed integrated circuits) модели уровня регистровых передач. Гибридная многоядерная архитектура рекуррентного сигнального процессора состоит из ведущего фон- неймановского процессора на управляющем уровне и потокового процессора с восемью вычислительными ядрами (ВЯ) на операционном уровне. Вычислительные ядра объединены капсульным распределителем, обеспечивающим развертывание алгоритмической капсулы в параллельно-последовательный поток команд, и работают с 32-разрядными данными. Аппаратная реализация двухъядерного процессора управляющего уровня Cortex-A9 обеспечила существенное повышение производительности всей ГМАРСП и увеличение точности обработки данных за счет использования 32-разрядных данных с фиксированной точкой. Апробация VHDL-модели модифицированной ГМАРСП на типовом приложении цифровой обработки данных — распознавателе изолированных слов (РИС) — показала ее высокую эффективность при работе в режиме реального времени.

Abstract: The paper presents the result of modification of the multicore hybrid architecture for recurrent signal processing (HARSP) and discusses its approbation as a prototype on the next-generation HAN Pilot Platform development board with FPGA (field-programmable gate array) Intel Arria10 SoC 10AS066K3F40E2SG on the basis of the register transfer level VHDL (very high speed integrated circuits) model. Hybrid architecture for recurrent signal processing contains the control level, implemented as von Neumann processor, and the operational level represented by the data-flow processor with eight computing cores. A capsule distributor combines all computing cores. It provides algorithmic capsule explication into a parallel-serial command flow and processes 32-bit data. Hardware implementation of the control level dual-core processor Cortex-A9 improved HARSP performance radically and increased data processing accuracy due to using 32-bit fixed-point operands. Modified HARSP VHDL-model approbation on a typical data processing application, namely, isolated word recognition, proved HARSP high efficiency in real-time mode operation.

Специализированные преобразователи тегов для рекуррентного обработчика сигналов

Степченков Ю.А., Хилько Д.В., Шикунов Ю.И., Орлов Г.А. Специализированные преобразователи тегов для рекуррентного обработчика сигналов // Проблемы разработки перспективных микро- и наноэлектронных систем — 2020. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2020. Выпуск 2. С. 73-80.
DOI: 10.31114/2078-7707-2020-2-73-80

Аннотация: Настоящая статья посвящена исследованию применимости специализированных рекуррентных преобразователей в рекуррентном операционном устройстве для задач цифровой обработки сигналов. Рассматриваются основные особенности и существующие проблемы реализации рекуррентности в операционном устройстве, построенном на основе потокового (data-flow) принципа. Приводится анализ ограниченного подмножества алгоритмов цифровой обработки сигналов с целью построения специализированных рекуррентных цепочек и преобразователей их реализующих. Представлены результаты построения некоторых специализированных преобразователей тегов и реализации демонстрационного алгоритма фильтрации Баттерворта.

Abstract: Self-timed (ST) circuit’s indication subcircuit largely determines its performance. This problem is especially acute in multi-bit computing ST circuits, including multiplier. The classical indication involves generating an entire ST circuit total indication output, which takes part in handshaking ST units or ST pipeline stages. Multi-bit ST circuits that implement data processing algorithms with a high parallelism degree allow the use of group indication of the ST circuit outputs resulting in bitwise signals controlling their inputs’ phase. The article describes a method of accelerating the indication subcircuit operation as applied to the ST-multiplier, which implements the modified Booth algorithm and uses the two-stage Wallace tree on adders with redundant (ternary) and dual-rail ST-coding of their inputs and outputs. Group indication and bitwise input control of both Wallace tree pipeline stages provide an increase in ST-multiplier performance by 40% with a penalty of 2.3-2.5% in its hardware.

Публикации в журналах ФИЦ ИУ РАН в 2020 году

Приняты к публикации следующие статьи по рекуррентной тематике, которые выйдут в печать в 2020 году:

Развитие гибридной многоядерной рекуррентной архитектуры на ПЛИС

Ю. А. Степченков, Н. В. Морозов, Ю. Г. Дьяченко, Д.В. Хилько, Д. Ю. Степченков. Развитие гибридной многоядерной рекуррентной архитектуры на ПЛИС // Системы и средства информатики, – М.: ТОРУС ПРЕСС, Т. 3x, № x, 2020 – С. xx-xx

Аннотация: В работе представлен результат модификации гибридной многоядерной архитектуры рекуррентного сигнального процессора (ГМАРСП) и ее апробации в виде макетного образца на отладочной плате нового поколения HAN Pilot Platform с ПЛИС In-tel Arria10 SoC 10AS066K3F40E2SG на основе VHDL-модели уровня регистровых пере-дач. ГМАРСП состоит из ведущего фон-неймановского процессора на управляющем уровне и потокового процессора с восемью вычислительными ядрами на операционном уровне. Вычислительные ядра объединены капсульным распределителем, обеспечивающим развертывание алгоритмической капсулы в параллельно-последовательный поток команд, и работают с 32-разрядными данными. Аппаратная реализация двухъядерного процессора управляющего уровня Cortex-A9 обеспечила существенное повышение производительности всей ГМАРСП и увеличение точности обработки данных за счет использования 32-разрядных данных с фиксированной точкой. Апробация VHDL-модели модифицированной ГМАРСП на типовом приложении цифровой обработки данных – распознавателе изолированных слов, – показала ее высокую эффективность при работе в режиме реального времени.

Участие в конференции МЭС-2020

Было подано и принято три доклада на IX Всероссийскую научно-техническую конференцию Проблемы Разработки перспективных микро- и нано электронных систем МЭС-2020. Один из них посвящены рекуррентной схемотехнике.

Специализированные преобразователи тегов для рекуррентного обработчика сигналов

Ю.А. Степченков, Д. В. Хилько, Ю.И. Шикунов, Г.А. Орлов. Специализированные преобразователи тегов для рекуррентного обработчика сигналов. // Проблемы разработки перспективных микро- и наноэлектронных систем – 2020. DOI: 10.31114/2078-7707-2020-2-73-80

Аннотация—Настоящая статья посвящена исследованию применимости специализированных рекуррентных преобразователей в рекуррентном операционном устройстве для задач цифровой обработки сигналов. Рассматриваются основные особенности и существующие проблемы реализации рекуррентности в операционном устройстве, построенном на основе потокового (data-flow) принципа. Приводится анализ ограниченного подмножества алгоритмов цифровой обработки сигналов с целью построения специализированных рекуррентных цепочек и преобразователей их реализующих. Представлены результаты построения некоторых специализированных преобразователей тегов и реализации демонстрационного алгоритма фильтрации Баттерворта

Testing and optimization of Recurrent Signal Processor

Yury Stepchenkov, Dmitry Khilko, Yury Shikunov, Georgy Orlov. Testing and optimization of Recurrent Signal Processor // 2020 International Conference Engineering Technologies and Computer Science EnT 2020 Moscow, Russia24-27 June 2020. P 54-57. (indexed in Scopus).
DOI: 10.1109/EnT48576.2020.00017

Abstract: This paper covers the optimization research for the novel data-flow computational architecture called Hybrid Architecture of Recurrent Signal Processor. The testing methodology, based on the shift towards Test-Driven Development of architecture models, is provided. We cover the toolset developed to unify the methodology for both software and hardware models. The testing results are analyzed, and the issues are formulated. We propose the pipeline extension by splitting our largest component down. We show the new pipeline utilization ratio this solution provides.

Аннотация: В статье рассматриваются исследования по оптимизации новой вычислительной архитектуры потока данных, называемой гибридной архитектурой процессора рекуррентных сигналов. Приведена методология тестирования, основанная на переходе к разработке архитектурных моделей через тестирование. Рассмотриен набор инструментов, разработанный для унификации методологии как для программных, так и для аппаратных моделей. Анализируются результаты тестирования. Мы предлагаем расширение конвейера путем разделения нашего самого большого компонента на части.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Iterator component development for data redundancy solution in data-flow architecture

Yury A. Stepchenkov, Dmitry V. Khilko, Yury I. Shikunov, Georgii A. Orlov.  Iterator component development for data redundancy solution in data-flow architecture // 2020 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus)Moscow, Russia, January 27-30, 2020. — IEEE, P. 1869-1872. (indexed in Scopus).
DOI: 10.1109/EIConRus49466.2020.9039358

Abstract: The hardware sample of multi-core data-flow recurrent architecture has been developed and tested on the digital signal processing domain. An analysis of the iterative algorithms execution results made it possible to propose a number of mechanisms to improve one of the components of the architecture — the Iterator. A significant problem in architecture programming is a high program redundancy produced by a significant number of special operands that are designed to control its internal resources. The Iterator component is designed to solve this issue, but its capabilities were not enough. The article presents the development results of the Iterator component. A description of the developed mechanisms to control the Iterator is provided. We demonstrate the results of the Iterator improvements using an example of the Viterbi algorithm for searching at hidden Markov models. The developed tools made it possible to nearly halve the volume of special operands and optimize the software implementation of the algorithm.

Аннотация: Аппаратный образец многоядерной рекуррентной архитектуры потока данных был разработан и протестирован в области цифровой обработки сигналов. Анализ результатов выполнения итерационных алгоритмов позволил предложить ряд механизмов для улучшения одного из компонентов архитектуры — Итератора. Существенной проблемой архитектурного программирования является высокая избыточность программы, создаваемая значительным количеством специальных операндов, предназначенных для управления ее внутренними ресурсами. Компонент Iterator призван решить эту проблему, но его возможностей оказалось недостаточно. В статье представлены результаты разработки компонента Итератор. Приведено описание разработанных механизмов управления Итератором. Продемонстрируем результаты усовершенствований Итератора на примере алгоритма Витерби для поиска скрытых марковских моделей. Разработанные инструменты позволили почти вдвое уменьшить объем специальных операндов и оптимизировать программную реализацию алгоритма.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.