Memory-centric architectures for energy-efficient cryptographic hardware in edge applications

Zhang, Shutao; Kumar, Akash; Gemmeke, Tobias

doi:45011

Memory-centric architectures for energy-efficient cryptographic hardware in edge applications

Zhang, Shutao^RWTH*

2026

Verantwortlichkeitsangabevorgelegt von Shutao Zhang, M. Sc.

ImpressumAachen : RWTH Aachen University 2026

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2026

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Gemmeke, Tobias (Thesis advisor)^RWTH* ; Kumar, Akash (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2026-01-13

Online
DOI: 10.18154/RWTH-2026-00599
URL: https://publications.rwth-aachen.de/record/1025210/files/1025210.pdf

Einrichtungen

Lehrstuhl für Integrierte digitale Systeme und Schaltungsentwurf (611110)

Projekte

BMBF 16ME0399 - Verbundprojekt: Neuro-inspirierte Technologien der künstlichen Intelligenz für die Elektronik der Zukunft - NEUROTEC II - (BMBF-16ME0399) (BMBF-16ME0399)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Die rasante Verbreitung digitaler Systeme hat die Sicherheitsherausforderungen verschärft und kritische Schwachstellen offengelegt. Diese sich stetig weiterentwickelnde Bedrohungslandschaft wird durch den Aufstieg des Quantencomputings zusätzlich verschärft, da dieses die Sicherheit traditioneller kryptografischer Algorithmen, insbesondere solcher der asymmetrischen Kryptografie, gefährdet. Um die Sicherheit digitaler Systeme im Quantenzeitalter zu gewährleisten, müssen moderne Sicherheitsprotokolle klassische symmetrische Kryptografie und Hash-Funktionen mit neuen post-quantenmechanischen asymmetrischen Verfahren integrieren. Parallel dazu erfordert der Trend zu ressourcenbeschränkten Edge-Geräten hocheffiziente Hardwarelösungen. Insbesondere Speicheroperationen machen einen erheblichen Teil des Gesamtenergieverbrauchs digitaler Systeme aus. Daher konzentriert sich diese Dissertation auf die Untersuchung und Entwicklung speicherzentrierter Architekturen für kryptografische Algorithmen, die für hohe Energieeffizienz in Edge-Anwendungen optimiert sind. Diese Dissertation untersucht symmetrische Chiffren, Hashfunktionen und gitterbasierte kryptografische Algorithmen und gibt einen systematischen Überblick über speicherzentrierte Architekturen. Wichtige Datenflussmuster dieser Algorithmen werden extrahiert, um die Entwicklung energieeffizienter speicherzentrierter Hardware zu unterstützen. Symmetrische Chiffren und Hashfunktionen verwenden häufig dedizierte Permutationsnetzwerke, wie beispielsweise Diffusionsschichten in SPN-Blockchiffren (Substitution Permutation Network) und LFSR-basierte Zustandsaktualisierungen (Linear Feedback Shift Register) in Stromchiffren und Hashfunktionen. Traditionelle Hardware-Designs basieren stark auf homogenen Speicherstrukturen, wie Schieberegistern oder zentralisierten Registerdateien mit komplexen Zugriffsmustern, was einen erheblichen Energieaufwand verursacht. Um diesem Problem zu begegnen, schlägt diese Dissertation verteilte Speicherorganisationen vor, die auf die spezifischen Datenflüsse dieser kryptografischen Algorithmen zugeschnitten sind. Dies wird anhand von ASIC-Implementierungen (Application Specific Integrated Circuit) des Advanced Encryption Algorithm (AES) und des Secure Hash Algorithm-256 (SHA-256) validiert. Für AES nutzt der Beschleuniger verteilte Scratchpad-Speicher, um die Datenlokalität zu verbessern und ausreichend Speicherbandbreite für eine optimierte Hardwareauslastung bereitzustellen. Dieses Design erreicht einen Durchsatz von 1432 Mbit/s und eine Energieeffizienz von 400 Gbps/W. Im Fall von SHA-256 integriert der Beschleuniger Schieberegister und FIFO-Puffer (First-In-First-Out), um die Kosten für Schreib- und Lesevorgänge auszugleichen. Dies führt zu einem Durchsatz von 31,6 MHash/s und einer Energieeffizienz von 2,7 GHash/J. Für postquantenbasierte Gitterverfahren, bei denen die Polynommultiplikation die dominierende Operation ist, werden zwei unterschiedliche Techniken vorgestellt. Für Verfahren, bei denen die Zahlentheoretische Transformation (NTT) anwendbar ist, wird ein lokaler horizontaler Faltungsalgorithmus (LHF) vorgeschlagen, um die NTT-Arbeitslast auf eine Compute-Near-Memory-Architektur (CNM) mit minimalem lokalen Puffer abzubilden und dabei die Regularität von Butterfly-Netzwerken auszunutzen. Der LHF-NTT-Ansatz reduziert die Speicherzugriffe im Vergleich zu herkömmlichen eindimensionalen (1D) NTT-Implementierungen um mindestens 50 % bei gleichbleibendem Durchsatz. Im zweidimensionalen (2D) NTT-Fall verdoppelt das Design den Durchsatz ohne Erhöhung der Speicherbandbreite. Für Verfahren, bei denen NTT nicht geeignet ist, weist die Polynommultiplikation eine einzigartige Datenstationarität auf. Um diese auszunutzen, wird eine Compute-In-Memory-Architektur (CIM) entwickelt, um Datenbewegungen zu minimieren. Diese Methodik wurde anhand des Binary Ring Learning-with-Error (BRLWE)-Algorithmus validiert und erzielte eine erstklassige Leistung mit einem Durchsatz von 6,92 MOPS und einer Energieeffizienz von 429 MOPS/W. Insgesamt bieten speicherzentrierte Architekturen einen vielversprechenden Weg zur Erzielung hoher Energieeffizienz in kryptografischer Hardware, insbesondere für Edge-Anwendungen.

The rapid proliferation of digital systems has intensified security challenges and exposed critical vulnerabilities. This evolving threat landscape is further aggravated by the rise of quantum computing, which jeopardizes the security of traditional cryptographic algorithms, particularly those used in asymmetric cryptography. To ensure the security of digital systems in the quantum era, modern security protocols must integrate classical symmetric cryptography and hash functions with emerging post-quantum asymmetric schemes. In parallel, the shift toward resource-constrained edge devices demands highly energy-efficient hardware solutions. Notably, memory operations account for a substantial portion of total energy consumption in digital systems. Therefore, this dissertation focuses on the investigation and development of memory-centric architectures for cryptographic algorithms, optimized for high energy efficiency in edge applications. This dissertation investigates symmetric ciphers, hash functions and lattice-based cryptographic algorithms, while systematically reviewing memory-centric architectures. Key dataflow patterns of these algorithms are extracted to guide the design of energy-efficient memory-centric hardware. Symmetric ciphers and hash functions often incorporate dedicated permutation networks, such as diffusion layers in Substitution Permutation Network (SPN) block ciphers and Linear Feedback Shift Registers (LFSR)-based state updates in stream ciphers and hash functions. Traditional hardware designs rely heavily on homogeneous memory structures, such as shift registers or centralized register files with complex access patterns, which incur significant energy overhead. To address this, this dissertation proposes distributed memory organizations tailored to the unique dataflows of these cryptographic algorithms, which is validated through Application Specific Integrated Circuit (ASIC) implementations of Advanced Encryption Algorithm (AES) and Secure Hash Algorithm-256 (SHA-256). For AES, the accelerator utilizes distributed scratchpad memories to enhance data locality and provide sufficient memory bandwidth to improve hardware utilization. This design achieves a throughput of 1432 Mbps and an energy efficiency of 400 Gbps/W. In the case of SHA-256, the accelerator integrates shift registers and First-In-First-Out (FIFO) buffers to balance write and read costs. This results in a throughput of 31.6 MHash/s and an energy efficiency of 2.7 GHash/J. For post-quantum lattice-based schemes, where polynomial multiplication is the dominant operation, two distinct techniques are introduced. For schemes where Number Theoretic Transform (NTT) is applicable, a Local Horizontal Folding (LHF) algorithm is proposed to map the NTT workload onto a Compute-near-Memory (CNM) architecture with minimal local buffer, exploiting the regularity of butterfly networks. The LHF-NTT approach reduces memory accesses by at least 50% compared to conventional One-Dimensional (1D) NTT implementations while maintaining the same throughput. In the Two-Dimensional (2D) NTT case, the design doubles throughput without increasing memory bandwidth. For schemes where NTT is not suitable, polynomial multiplication exhibits unique data stationarity. To exploit this, a Compute-in-Memory (CIM) architecture is developed to minimize data movement. This methodology is validated on the Binary Ring Learning-with-Error (BRLWE) algorithm, achieving best-in-classperformance with a throughput of 6.92 MOPS and an energy efficiency of 429 MOPS/W. Overall, memory-centric architectures offer a promising path toward achieving high energy efficiency in cryptographic hardware, particularly for edge applications.

OpenAccess:
PDF
(additional files)