Синтез самосинхронных схем в базисе БМК

Л.П. Плеханов, А.Н. Денисов, Ю.Г. Дьяченко, Ю.А. Степченков, Д.И. Мамонов, Д.Ю. Степченков. Синтез самосинхронных схем в базисе БМК // Научная конференция «Микроэлектроника – ЭКБ и электронные модули». Алушта (Республика Крым), 30.09-05.10.2019. М: Техносфера, 2019. С. 450-454.
DOI: 10.22184/1993-8578.2020.13.3s.460.470

Аннотация: Данный доклад посвящен разработке средств автоматизированного синтеза самосинхронных (CC) схем. Рассматриваются особенности реализации СС-схем. Предложен маршрут проектирования цифровых СС СБИС. Описана интеграция разрабатываемых средств в стандартную САПР синхронных СБИС («Ковчег»), обеспечивающая эффективное проектирование действительно СС-схем.

Abstract: This report is devoted to the development of software for automated synthesis of the self-timed (ST) circuits. Peculiarities of the ST circuit implementation have been discussed, and digital ST VLSI design flow has been offered. Besides, the report highlights an integration of the suggested tools into standard synchronous VLSI CAD (“Kovcheg”), which provides the effective design of real ST circuits.

Advanced Indication of the Self-Timed Circuits

Yuri Stepchenkov, Yuri Diachenko, Yury Rogdestvenski, Yury Shikunov and Denis Diachenko. Advanced Indication of the Self-Timed Circuits // 2019 IEEE EAST-WEST DESIGN & TEST SYMPOSIUM Batumi, Georgia, September 13 — 16, 2019.

Abstract: Paper discusses a problem of the CMOS self-timed circuits’ indication. Large number of indicating signals in the multi-bit computational devices and registers requires an additional hardware and time for their combining and forming a single control signal that provides a request-acknowledge interaction between interconnected self-timed functional blocks. Indication subcircuit performs this. Multi-input hysteretic triggers allows for accelerating indication subcircuit by factor of 1.1 – 1.6 and reducing its complexity in several times in comparison to standard implementation basis on static and semi-static Muller’s elements. A penalty for this is some shortcircuit current in the worst case.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Energy Efficient Speed-Independent 64-bit Fused Multiply-Add Unit

Yury Stepchenkov, Yury Rogdestvenski , Yury Diachenko, Dmitry Stepchenkov, Yury Shikunov. Energy Efficient Speed-Independent 64-bit Fused Multiply-Add Unit // 2019 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) Moscow, Russia, January 28-31, 2019. — IEEE, P. 1709 — 1714. (indexed in Scopus). DOI: 10.1109/EIConRus.2019.8657207.

Abstact: The results of a Speed-Independent Fused Multiply-Add (SIFMA) unit pipeline implementation research are presented. SIFMA is compliant with IEEE 754 Standard. A criterion of the SIFMA pipeline’s maximum performance is formulated. A method of reducing hardware costs of SIFMA multiplier by 1.5-2 times depending on its features is offered. The multiplier utilizes a modified Booth algorithm using self-timed redundant code. A new energy efficient self-timed organization of an input and output FIFO was developed. It provides less complexity versus a previous SIFMA implementation on base of semi-dense register.

Аннотация: В статье изложены результаты исследования конвейерной реализации независимого от задержек устройства умножения-сложения (SIFMA — Speed-Independed Fused Multiply-Add), соответствующего стандарту IEEE 754. Сформулирован критерий максимальной производительности конвейера SIFMA. Предложен способ снижения аппаратных затрат блока умножения в 1.5 – 2 раза (в зависимости от варианта исполнения), выполненного по модифицированному алгоритму Бута с использованием самосинхронного избыточного кода. Разработана новая энергоэффективная самосинхронная организация входного и выходного FIFO с меньшими аппаратными затратами по сравнению с предыдущей реализацией SIFMA. Использование адаптивной индикации в пределах эквихронной зоны позволило снизить на 20% аппаратные затраты на подсхему индикации SIFMA и уменьшить ее задержку на 18%.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Нечувствительный к задержкам блок умножения-сложения-вычитания с плавающей точкой

Соколов И.А., Ю.В. Рождественский, Ю.Г. Дьяченко, Ю.А. Степченков, Н.В. Морозов, Д.Ю. Степченков. Нечувствительный к задержкам блок умножения-сложения-вычитания с плавающей точкой // Проблемы разработки перспективных микро- и наноэлектронных систем – 2018. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2018. Часть II. С. 170–177.
DOI: 10.31114/2078-7707-2018-2-170-177

Аннотация: Представлено устройство совмещенного умножения-сложения-вычитания, независящее от задержек в элементах и проводниках. Оно полностью соответствует стандарту IEEE 754 и реализует одновременно операции сложения и вычитания третьего операнда из произведения первых двух. Каждый 64-разрядный операнд содержит либо одно число двойной точности, либо два числа одинарной точности. Для увеличения быстродействия умножитель, реализующий модифицированный алгоритм Бута, разбит на две ступени конвейера с ускоренным переключением в спейсер. Схема кодера Бута интегрирована во входное FIFO. Выполнение сложения и вычитания в троичном избыточном коде обеспечивает сокращение аппаратных затрат всего блока. С целью сокращения энергопотребления блок построен как одноканальное устройство. Блок разработан на базе объемной КМОП технологии с проектными нормами 65 нм с использованием библиотеки стандартных элементов, дополненной самосинхронными элементами, и обеспечивает производительность на уровне 3 гигафлопс.

Self-Timed Floating Point Multiply-Add Unit

Y.A. Stepchenkov, Y.V. Rogdestvenski, Y.G. Diachenko, N.V. Morozov, D.Y. Stepchenkov, B.A. Stepanov, D.Y. Diachenko, A.V. Rogdestvenskene. Self-Timed Floating Point Multiply-Add Unit // Problems of Advanced Micro- and Nanoelectronic Systems Development, 2017, Part III, Moscow, IPPM RAS, P. 45-51. (is indexed in Scopus).

Abstract: The subject of this paper is a Speed-Independent Floating  Point  Coprocessor  (SIFPC)  implementing  Fused Multiply-Add-Subtract  operation.  It  utilizes  mixed  dual-rail and  redundant  self-timed  coding,  and  is   compliant  with IEEE  754  Standard.  SIFPC  processes  either  one  operation with  double  precision  numbers,  or  two  simultaneous  opera-tions  with  single  precision  numbers,  and  calculates  two  re-sults: sum  and  difference between  product  of first two oper-ands  and  third  operand.  SIFPC  consists  of  two  identical channels  with  common  input  and  output.  An  order  of  data outputting matches the order of an input data. Each channel implements  full  data  processing  path  and  has  two  pipeline stages:  first  is  multiplier  and  exponent  calculation,  and  se-cond is all rest parts. This reduces hardware complexity and accelerates  calculations  due  to  reducing  number  of  interme-diate  registers  and  cutting  number  of  «bottlenecks»  in  an indication  subcircuit  of  the  unit.  An  additional  speed-up  of performance,  comparing  to  a  traditional  self-timed  circuit implementation,  is  achieved  due  to  utilizing  bit-wise  and simplified  (adaptive)  indication.  Multiplier  utilizes  modified Booth  algorithm  with  Wallace  tree,  self-timed  redundant code  and  ternary  adders.  First  stage  of  the  Wallace  tree compresses  four  dual-rail  partial  products  into  two  ternary operands.  The  unit  is  designed  for  standard  65-nm  CMOS process.  It  has  1.12  mm2  die  size,  demonstrates  3.15  Gflops performance and 1.8 ns latency.

Самосинхронное устройство умножения-сложения с плавающей точкой

Ю.А. Степченков, Ю.В. Рождественский, Ю.Г. Дьяченко,  Н.В. Морозов, Д.Ю. Степченков, Б.А.Степанов, Д.Ю. Дьяченко, А.В. Рождественскене. Самосинхронное устройство умножения-сложения с плавающей точкой // Проблемы разработки перспективных микро- и наноэлектронных систем — 2016. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2016. Часть III. С. 149- 156.

Аннотация: Представлено самосинхронное устройство совмещенного умножения-сложения в качестве сопроцессора, относящееся к новому подклассу независящих от задержек схем с адаптивной индикацией. Оно полностью соответствует стандарту IEEE 754 и реализует одновременно операции сложения и вычитания третьего операнда из произведения первых двух. Каждый 64-разрядный операнд содержит либо одно число двойной точности, либо два числа одинарной точности. Для минимизации аппаратных затрат и энергопотребления число ступеней конвейера сокращено до двух. Оптимальное соотношение «производительность / аппа-ратные затраты» достигается за счет двух параллельных каналов с общим входом и выходом. Дополнительное сокращение аппаратных затрат и повышение быстро-действия обеспечивается использованием адаптивной индикации. Умножение реализовано на основе самосинхронного избыточного кода. Устройство разработано на базе объемной КМОП технологии с проектными норма-ми 65 нм и обеспечивает производительность на уровне 3,15 гигафлопс.

Speed-Independent Fused Multiply Add and Subtract Unit

Yuri Stepchenkov, Victor Zakharov, Yuri Rogdestvenski, Yuri Diachenko, Nikolai Morozov and Dmitri Stepchenkov. Speed-Independent Fused Multiply Add and Subtract Unit // Proceedings of IEEE East-West Design & Test Symposium (EWDTS’2016), Yerevan, October, 14 — 17, 2016. P. 150-153. (is indexed in Scopus).

DOI:  10.1109/EWDTS.2016.7807735

Abstract: Speed-independent fused multiply-add-subtract unit is offered together with test environment providing full verification of its performance and workability in all range of the environment conditions. It complies with IEEE 754 Standard, and performs double and single precision operations at three operands. The unit is implemented as a two-channel with a common input and output. Each channel is a pipeline with four stages. Multiplier is implemented on the modified Booth algorithm using self-timed redundant code. The unit was designed on a base of standard CMOS process with 65 nm design rules and has 3.15 Gigaflops performance and less than 2 ns latency.

Аннотация: Представлено speed-independent устройство умножения-сложения-вычитания с тестовым окружением, обеспечивающим всестороннюю проверку его характеристик и работоспособности во всем диапазоне условий окружающей среды. Оно соответствует стандарту IEEE 754 и выполняет операции двойной и одинарной точности над тремя операндами. Устройство реализовано как двухканальное с общим входом и выходом. Каждый канал является конвейером с четырьмя стадиями. Умножитель реализован по модифицированному алгоритму Бута с использованием самосинхронного избыточного кода. Устройство разработано на основе КМОП-технологии с проектными нормами 65 нм и обеспечивает производительность на уровне 3.15 гигафлопс и латентность менее 2 нС.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Challenges of the Algorithms Optimization and High Performance Arithmetic Coprocessors Development for Numerical Modeling of Gas Flow and Heat Transfer in the Combustion Problem

Sergey Aryashev, Sergey Bobkov, Pavel Zubkovskiy, Eugene Ivasyuk and Yuri Stepchenkov. Challenges of the Algorithms Optimization and High Performance Arithmetic Coprocessors Development for Numerical Modeling of Gas Flow and Heat Transfer in the Combustion Problem // International Conference Of Numerical Analysis And Applied Mathematics 2015 (ICNAAM 2015), Rhodes, Greece, September 22 — 28, 2015.  Volume number: 1738, Published: 08 June 2016 P. 220008-1 — 220008-4. (indexed in Web of Science).

Abstract: Computer simulation of multiscale burning and detonation processes requires an exaflop-scale performance supercomputer. The paper present research from SRISA intended to development high-performance architectures of DSP extensions for burning process simulations. Also a number of solutions for dataflow coprocessor development based on self-timed circuits are proposed.

Self-timed multiplier for multiply-add unit

B. Stepanov, Y. Diachenko, Y. Rogdestvenski, D. Diachenko. Self-timed multiplier for multiply-add unit // // 2016 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) St. Petersburg, Russia, February 02-03, 2016. — IEEE, P 373-376. (indexed in Scopus).
DOI: 10.1109/EIConRusNW.2016.7448190

Abstract: Paper discusses the peculiarities of self-timed multiplier implementation for unit multiplying two operands and then adding the product to third operand without an intermediate rounding according to the IEEE 754 Standard. The multiplier is a hardware implementation of modified Booth algorithm on a base of self-timed adder with redundant signal code. An optimal self-timed redundant coding of internal and output signals in the multiplier was proposed. The circuitry and layout problems were solved for self-timed multiplier implementation. Wallace tree structure, which is the main part of the multiplier, was optimized for the facilities of 65-nm CMOS process with six metal layers taking into account more number of signals in the multiplier circuit, than in the synchronous analog. A release of the self-timed multiplier implementation in CMOS process with 65-nm design rules is introduced.

Аннотация: Доклад посвящен особенностям реализации самосинхронного умножителя для устройства, выполняющего операцию умножения двух операндов с последующим сложением произведения с третьим операндом без промежуточного округления в соответствии со стандартом IEEE 754. Умножитель является аппаратной реализацией модифицированного алгоритма Бута на основе самосинхронного сумматора с избыточным кодированием сигналов. Предложено оптимальное избыточное самосинхронное кодирование внутренних и выходных сигналов умножителя. Решены проблемы схемотехнической и топологической реализации самосинхронного умножителя. Структура дерева Уоллеса –основной части умножителя, –оптимизирована под возможности 65-нм КМОП технологии с шестью слоями металлизации с учетом большего, чем в синхронном аналоге, количества сигналов в схеме умножителя. Представлена топологическая реализации самосинхронного умножителя в КМОП технологии с проектными нормами 65 нм.

Дополнительную информацию о содержании доклада вы можете получить на сайте конференции или связавшись с авторами доклада / You can get additional information on the content of the article on the conference website or by contacting the authors of the article.

Самосинхронный умножитель для распределенных вычислений

Степанов Б.А., Дьяченко Ю.Г., Рождественский Ю.В. Самосинхронный умножитель для распределенных вычислений // Труды Второй молодежной научной конференции «Задачи современной информатики» – М.: ФИЦ ИУ РАН, 2015. – С. 201-207.

Аннотация: Доклад посвящен особенностям реализации самосинхронного умножителя для устройства умножения-сложения. Обоснован выбор оптимального самосинхронного кодирования сигналов умножителя с помощью избыточного троичного самосинхронного кода. Предложена структура дерева Уоллеса – основной части умножителя. Рассматриваются проблемы схемотехнической и топологической реализации умножителя. Представлен вариант реализации самосинхронного умножителя в КМОП технологии с проектными нормами 65 нм.