Die Lade-/Speichern-Einheiten und ALUs sind im Wesentlichen auch verdoppelt worden, was angesichts der Verdoppelung der Befehlsdekoder sehr sinnvoll ist. Allzweck- und Gleikomma-Register sind gemäß ARMv8 ebenfalls verdoppelt, ebenso der L1-Cache sowohl für Daten als auch für Befehle. Der Grund hierfür liegt in die Speicherhierarchie. Moderne CPUs haben oft 2 bis 3 Cache-Ebenen. Mit jeder Ebene nimmt die Größe, ebenso wie die Assoziativität und Latenzzeit zu. Daher kann ein Prozessor mit doppelter Anzahl von Befehlsdekodern sich nicht einfach auf einen großen L2-Cache verlassen, um schnell Daten laden zu können, wenn die Latenzzeit viel höher als beim L1-Cache ist. Assoziativität und Art des Datenersatzes sind Gründe, warum die L1-Caches in Befehls- und Daten-Caches getrennt sind.
Schließlich hat sich Apple entschieden, einen L3-Cache mit 4 MB hinzuzufügen. Dieser beliefert CPU, GPU und den Bildsignal-Prozessor (ISP). Neben dem zusätzlichen Extra-Cache für die CPU wird die durchschnittliche Gesamtspeicherzugriffslatenz reduziert. Es ist auch bezeichnend, dass die GPU und ISP darauf zugreifen können, da Apples Kamera-Software-Erweiterungen eine Menge Echtzeit-Bildverarbeitung erfordern. Er kann auch die GPU-Rechenleistung verbessern, was aber davon abhängt, wie er vom Entwickler programmiert werden kann. Wenn der Cache eine gewisse Programmierbarkeit aufweisen würde, könnte damit die reduzierte Hauptspeicherbandbreite vom A6X zum A7 für die iPads kompensiert werden, ähnlich wie es das eDRAM in der Xbox 360 und das eSRAM in den Xbox-One-Konsolen machen. Allerdings haben wir keinerlei Indikatoren gefunden, dass dies der Fall wäre.
Das Ergebnis der Verdoppelung all dieser Ausführungseinheiten und das Hinzufügen eines großen L3-Cache war, dass sich die Anzahl der Transistoren in etwa auf über 1 Mrd. verdoppelt hat. Dies ist insofern bedeutsam, weil die Chipfläche vom A6 zum A7 tatsächlich sank. Der L3-Cache mit 4 MB steht dabei alleine für etwa 196 Millionen Transistoren.
Als Referenz behauptet die taiwanische Foundry TSMC, dass die Transistordichte von ihrem 28-nm- zum 20-nm-Prozess um Faktor 1,9 ansteigt, wenn alle anderen Parameter konstant bleiben. Jedoch wurde in diesem Fall das Design vollständig geändert. Auch ist der Übergang von 28 nm zu 20 nm ein sogenannter „Vollknoten“, während der Wechsel von 32 nm zu 28 nm, wie wir ihn von A6 zu A7 sahen, nur ein „Halbknoten“ darstellt. Diese sind in der Regel einfache optische Schrumpfungen der vorherigen Generation mit meist gleichen Fab-Tools und Prozessen, während Vollknoten-Übergänge völlig neue Tools und viel größere finanzielle Investitionen der Fertiger erfordern. All dies berücksichtigt, ist es sehr beeindruckend, dass Apple bei diesem Halbknoten-Übergang einen derartigen Anstieg der Transistordichte erreicht hat. Es ist wirklich ein Beleg für das Know-how ihrer Mitarbeiter, die das bereits benutzerdefinierte A6-Design nochmal deutlich verbessert haben.