Um den Code zu optimieren, sucht der Embedded Coder nach Funktionen, die in der CMSIS-Bibliothek enthalten sind und ersetzt diese dann entsprechend. Um also z.B. eine Sinus- oder Cosinus-Funktion zu berechnen, greift der Embedded Coder nicht auf seine eigenen ANSI-C-Funktionsvorrat zurück, sondern fügt den entsprechenden Befehl für den Aufruf der CMSIS-Bibliothek ein.
Darüber hinaus ist der Embedded Coder aber auch in der Lage, eine „Processor-in-the-loop“-Simulation durchzuführen. Das bedeutet, dass z.B. der Code für einen Regelalgorithmus auf dem Zielsystem läuft, während die Regelschleife durch den Host-PC geschlossen wird, der die Stimuli für das Zielsystem liefert. Auf diese Weise können Performance-Engpässe bei der Berechnung aufgedeckt werden, indem man das Timing-Profil des ausgeführten Codes analysiert. Im Falle eines Cortex-M3 kann die echte Hardware auch durch den freien QEMU-Emulator (www.qemu.org) ersetzt werden, der den M3 auf dem Host-Rechner abbildet.
Die Cortex-Optimierungen des Embedded Coders gliedern sich in zwei Bereiche: mathematische Grundfunktionen wie trigonometrische oder algebraische Funktionen und DSP-Funktionen. Besonders für die DSP-Funktionen bringt der Cortex-M4 eigene Recheneinheiten mit. Insofern wirkt sich der Performance-Gewinn der Optimierungen beim Cortex-M4 wesentlich dramatischer aus als bei einem Cortex-M3.