Синтез самосинхронных схем в базисе БМК

Л.П. Плеханов, А.Н. Денисов, Ю.Г. Дьяченко, Ю.А. Степченков, Д.И. Мамонов, Д.Ю. Степченков. Синтез самосинхронных схем в базисе БМК // Научная конференция «Микроэлектроника – ЭКБ и электронные модули». Алушта (Республика Крым), 30.09-05.10.2019. М: Техносфера, 2019. С. 450-454.

Advanced Indication of the Self-Timed Circuits

Yuri Stepchenkov, Yuri Diachenko, Yury Rogdestvenski, Yury Shikunov and Denis Diachenko. Advanced Indication of the Self-Timed Circuits // 2019 IEEE EAST-WEST DESIGN & TEST SYMPOSIUM Batumi, Georgia, September 13 — 16, 2019.

Abstract—Paper discusses a problem of the CMOS self-timed circuits’ indication. Large number of indicating signals in the multi-bit computational devices and registers requires an additional hardware and time for their combining and forming a single control signal that provides a request-acknowledge interaction between interconnected self-timed functional blocks. Indication subcircuit performs this. Multi-input hysteretic triggers allows for accelerating indication subcircuit by factor of 1.1 – 1.6 and reducing its complexity in several times in comparison to standard implementation basis on static and semi-static Muller’s elements. A penalty for this is some shortcircuit current in the worst case.

Fault-Tolerance of the Self-Timed Circuits

Yuri A. Stepchenkov, Anton N. Kamenskih, Yuri G. Diachenko, Yuri V. Rogdestvenski, and Denis Y. Diachenko. Fault-Tolerance of the  Self-Timed Circuits  // 2019 10th International Conference on Dependable Systems, Services and Technologies (DESSERT). (indexed in Scopus). DOI: 10.1109/DESSERT.2019.8770047.

Abstract—the paper discusses a fault-tolerance problem for digital integrated circuits. Due to their properties, self-timed circuits, unlike synchronous counterparts, are immune towards the greater part of the short-term logical faults. Indication of an illegal state of the dual-rail signal as second spacer increases fault-tolerance of the combinational selftimed circuits up to 82%. Self-timed triggers, due to their indication features, are immune to 44% logical faults. The use of special methods of doubling transistors and bistable cells, which are the basis of the self-timed triggers, enhances their fault-tolerance up to 80%.

Energy Efficient Speed-Independent 64-bit Fused Multiply-Add Unit

Yury Stepchenkov, Yury Rogdestvenski , Yury Diachenko, Dmitry Stepchenkov, Yury Shikunov EnergyEfficient Speed-Independent 64-bit Fused Multiply-Add Unit // 2019 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus)January 28-31, 2019, Moscow, Russia. (indexed in Scopus). DOI: 10.1109/EIConRus.2019.8657207.

The results of a Speed-Independent Fused Multiply-Add (SIFMA) unit pipeline implementation research are presented. SIFMA is compliant with IEEE 754 Standard. A criterion of the SIFMA pipeline’s maximum performance is formulated. A method of reducing hardware costs of SIFMA multiplier by 1.5-2 times depending on its features is offered. The multiplier utilizes a modified Booth algorithm using self-timed redundant code. A new energy efficient self-timed organization of an input and output FIFO was developed. It provides less complexity versus a previous SIFMA implementation on base of semi-dense register.

Delay-Insensitive Floating Point Multiply-Add-Subtract Unit

I.A. Sokolov, Y.V. Rogdestvenski, Y.G. Diachenko, Y.A. Stepchenkov, N.V. Morozov, D.Y. Stepchenkov, D.Y. Diachenko. Delay-Insensitive Floating Point Multiply-Add-Subtract Unit / Problems of Advanced Micro- and Nanoelektronic Systems Development – 2019, Issue III, Moscow, IPPM RAS, P. 20-25. (is indexed in Scopus).

DOI: 10.31114/2078-7707-2019-3-20-25.

The subject of this paper is a floating point unit implementing fused multiply-add-subtract operation. It be-longs to the delay-insensitive self-timed (ST) circuits which do not depend on delays both in cells and on wires. It is fully compliant with IEEE 754 Standard and processes both a sum and difference between product of first two operands and third operand. Each 64-bit input operand contains either one double precision number, or two single precision numbers. Thus presented unit calculates either one operation with double precision numbers, or two simultaneous operations with single precision numbers. Multiplier utilizes modified Booth algorithm. In order to increase its performance, it is divided into two pipeline stages with accelerated forced switching to spacer phase. Booth encoder circuit is integrated into an input FIFO. FIFO is implemented as a register file with an output multiplexer and read/write address counters. Using ternary redundant ST code for multiplying, adding and subtracting provides reduction of unit’s complexity. Indication subcircuit considers the constrains imposed by an isochronous area for chosen fabrication technology. For de-creasing energy consumption, the fused multiply-add-subtract unit implements one-channel pipeline. The unit is designed for 65-nm CMOS bulk technology using an indus-trial standard cell library supplemented by self-timed cells. It provides 3 Gflops performance and 2.9-ns latency

Нечувствительный к задержкам блок умножения-сложения-вычитания с плавающей точкой

Соколов И.А., Ю.В. Рождественский, Ю.Г. Дьяченко, Ю.А. Степченков, Н.В. Морозов, Д.Ю. Степченков. Нечувствительный к задержкам блок умножения-сложения-вычитания с плавающей точкой // Проблемы разработки перспективных микро- и наноэлектронных систем – 2018. Сборник трудов под общ. ред. академика РАН А.Л. Стемпковского, М.: ИППМ РАН, 2018. Часть II. С. 170–177 (DOI 10.31114/2078-7707-2018-2-170-177).

Представлено устройство совмещенного умножения-сложения-вычитания, независящее от задержек в элементах и проводниках. Оно полностью соответствует стандарту IEEE 754 и реализует одновременно операции сложения и вычитания третьего операнда из произведения первых двух. Каждый 64-разрядный операнд содержит либо одно число двойной точности, либо два числа одинарной точности. Для увеличения быстродействия умножитель, реализующий модифицированный алгоритм Бута, разбит на две ступени конвейера с ускоренным переключением в спейсер. Схема кодера Бута интегрирована во входное FIFO. Выполнение сложения и вычитания в троичном избыточном коде обеспечивает сокращение аппаратных затрат всего блока. С целью сокращения энергопотребления блок построен как одноканальное устройство. Блок разработан на базе объемной КМОП технологии с проектными нормами 65 нм с использованием библиотеки стандартных элементов, дополненной самосинхронными элементами, и обеспечивает производительность на уровне 3 гигафлопс.

Speed-Independent Fused Multiply Add and Subtract Unit

Yuri Stepchenkov, Victor Zakharov, Yuri Rogdestvenski, Yuri Diachenko, Nikolai Morozov and Dmitri Stepchenkov. Speed-Independent Fused Multiply Add and Subtract Unit // Proceedings of IEEE East-West Design & Test Symposium (EWDTS’2016), Yerevan, October, 14 — 17, 2016. P. 150-153. (is indexed in Scopus).

DOI:  10.0.4.85/EWDTS.2016.7807735

Speed -independent fused multiply-add -subtract unit is offered together with test environment providing full verification of its performance and workability in all range of the environment conditions. It complies with IEEE 754 Standard, and performs double and single precision operations at three operands. The unit is implemented as a two-channel with a common input and output . Each channel is a pipeline with four stag-es. Multiplier is implemented on the modified Booth algorithm using self -timed redundant code. The unit was design ed on a base of standard CMOS processwith 65 nm design rules and has 3.15 Gigaflops per-formance and less than 2 ns latency

Self-timed multiplier for multiply-add unit

B. Stepanov, Y. Diachenko, Y. Rogdestvenski, D. Diachenko. Self-timed multiplier for multiply-add unit // NW Russia Young Researchers in Electrical and Electronic Engineering Conference (EIConRusNW), 2016 IEEE. P. 349 – 352.  (is indexed in Scopus).

Paper discusses the peculiarities of self-timed multiplier implementation for unit multiplying two operands and then adding the product to third operand without an intermediate rounding according to the IEEE 754 Standard. The multiplier is a hardware implementation of modified Booth algorithm on a base of self-timed adder with redundant signal code. An optimal self-timed redundant coding of internal and output signals in the multiplier was proposed. The circuitry and layout problems were solved for self-timed multiplier implementation. Wallace tree structure, which is the main part of the multiplier, was optimized for the facilities of 65-nm CMOS process with six metal layers taking into account more number of signals in the multiplier circuit, than in the synchronous analog. A release of the self-timed multiplier implementation in CMOS process with 65-nm design rules is introduced

Self-Timed Floating Point Multiply-Add Unit

Y.A. Stepchenkov, Y.V. Rogdestvenski, Y.G. Diachenko, N.V. Morozov, D.Y. Stepchenkov, B.A. Stepanov, D.Y. Diachenko, A.V. Rogdestvenskene. Self-Timed Floating Point Multiply-Add Unit // Problems of Advanced Micro- and Nanoelectronic Systems Development, 2017, Part III, Moscow, IPPM RAS, P. 45-51. . (is indexed in Scopus).

The subject of this paper is a Speed-Independent Floating  Point  Coprocessor  (SIFPC)  implementing  Fused Multiply-Add-Subtract  operation.  It  utilizes  mixed  dual-rail and  redundant  self-timed  coding,  and  is   compliant  with IEEE  754  Standard.  SIFPC  processes  either  one  operation with  double  precision  numbers,  or  two  simultaneous  opera-tions  with  single  precision  numbers,  and  calculates  two  re-sults: sum  and  difference between  product  of first two oper-ands  and  third  operand.  SIFPC  consists  of  two  identical channels  with  common  input  and  output.  An  order  of  data outputting matches the order of an input data. Each channel implements  full  data  processing  path  and  has  two  pipeline stages:  first  is  multiplier  and  exponent  calculation,  and  se-cond is all rest parts. This reduces hardware complexity and accelerates  calculations  due  to  reducing  number  of  interme-diate  registers  and  cutting  number  of  «bottlenecks»  in  an indication  subcircuit  of  the  unit.  An  additional  speed-up  of performance,  comparing  to  a  traditional  self-timed  circuit implementation,  is  achieved  due  to  utilizing  bit-wise  and simplified  (adaptive)  indication.  Multiplier  utilizes  modified Booth  algorithm  with  Wallace  tree,  self-timed  redundant code  and  ternary  adders.  First  stage  of  the  Wallace  tree compresses  four  dual-rail  partial  products  into  two  ternary operands.  The  unit  is  designed  for  standard  65-nm  CMOS process.  It  has  1.12  mm2  die  size,  demonstrates  3.15  Gflops performance and 1.8 ns latency.

Самосинхронное устройство умножения-сложения с плавающей точкой

Ю.А. Степченков, Ю.В. Рождественский, Ю.Г. Дьяченко,  Н.В. Морозов, Д.Ю. Степченков, Б.А.Степанов, Д.Ю. Дьяченко, А.В. Рождественскене. Самосинхронное устройство умножения-сложения с плавающей точкой // Проблемы разработки перспективных микро- и наноэлектронных систем — 2016. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. М.: ИППМ РАН, 2016. Часть III. С. 149- 156.

Представлено самосинхронное устройство совмещенного умножения-сложения в качестве сопроцессора, относящееся к новому подклассу независящих от задержек схем с адаптивной индикацией. Оно полностью соответствует стандарту IEEE 754 и реализует одновременно операции сложения и вычитания третьего операнда из произведения первых двух. Каждый 64-разрядный операнд содержит либо одно число двойной точности, либо два числа одинарной точности. Для минимизации аппаратных затрат и энергопотребления число ступеней конвейера сокращено до двух. Оптимальное соотношение «производительность / аппа-ратные затраты» достигается за счет двух параллельных каналов с общим входом и выходом. Дополнительное сокращение аппаратных затрат и повышение быстро-действия обеспечивается использованием адаптивной индикации. Умножение реализовано на основе самосинхронного избыточного кода. Устройство разработано на базе объемной КМОП технологии с проектными норма-ми 65 нм и обеспечивает производительность на уровне 3,15 гигафлопс.