TMS320C6000嵌入式系統(tǒng)優(yōu)化編程的研究
這時(shí)可以考慮使用線(xiàn)性匯編語(yǔ)言進(jìn)行開(kāi)發(fā)。線(xiàn)性匯編語(yǔ)言是TMS320C6000中獨(dú)有的一種編程語(yǔ)言,介于高級(jí)語(yǔ)言和低級(jí)語(yǔ)言之間。因?yàn)樵谟檬謱?xiě)匯編語(yǔ)言進(jìn)行應(yīng)用開(kāi)發(fā)時(shí),開(kāi)發(fā)者除了要精通C6000的指令系統(tǒng)之外,還必須為指令分配功能單元、考慮指令的延遲和功能單元之間的配合以及合理分配使用32個(gè)寄存器,才能寫(xiě)出高效的并行指令,發(fā)揮C6000的威力。上面任何一個(gè)方面出現(xiàn)問(wèn)題,都會(huì)嚴(yán)重影響算法的效率。
線(xiàn)性匯編語(yǔ)言的指令系統(tǒng)和匯編語(yǔ)言的指令系統(tǒng)完全相同,但是它有自己的匯編優(yōu)化器指令系統(tǒng),用于和匯編優(yōu)化器配合使用。與匯編語(yǔ)言的最大區(qū)別在于,編寫(xiě)線(xiàn)性匯編語(yǔ)言時(shí)不需要考慮指令的延時(shí)、寄存器的使用和功能單元的分配,完全可以按照高級(jí)語(yǔ)言的方式進(jìn)行編寫(xiě)。當(dāng)然由于它不是高級(jí)語(yǔ)言,有許多編程的限制。例如,在優(yōu)化循環(huán)體時(shí),不能使用跳轉(zhuǎn)到循環(huán)體之外的跳轉(zhuǎn)指令;另外計(jì)數(shù)器只能使用減計(jì)數(shù),如果使用加計(jì)數(shù),優(yōu)化器將不能工作等等。但總的說(shuō)來(lái),它的代碼效率遠(yuǎn)遠(yuǎn)高于高級(jí)語(yǔ)言,而且開(kāi)發(fā)難度和開(kāi)發(fā)周期比匯編語(yǔ)言要小得多。
在實(shí)際開(kāi)發(fā)過(guò)程中需要具體情況具體分析,選擇一種高效、快捷的開(kāi)發(fā)方法。以下結(jié)合應(yīng)用開(kāi)發(fā)中的幾個(gè)模塊來(lái)簡(jiǎn)述我們使用的優(yōu)化方法。
2.1 使用匯編語(yǔ)言
使用匯編語(yǔ)言進(jìn)行并行編程難度比較大。但在有些情況下,程序中數(shù)據(jù)有非常強(qiáng)的承接關(guān)系,并且該程序體邏輯關(guān)系清楚,使用的寄存器不超過(guò)32個(gè),這時(shí)直接使用匯編語(yǔ)言實(shí)現(xiàn),效率會(huì)更高。另外,有些使用C語(yǔ)言比較難實(shí)現(xiàn)的運(yùn)算函數(shù),在C6000的匯編指令集中可能有專(zhuān)用DSP指令,這時(shí)就可以直接使用匯編語(yǔ)言實(shí)現(xiàn)。
使用匯編語(yǔ)言進(jìn)行編程時(shí)特別需要注意的是C6000指令的延遲情況,有些指令并不是立刻就能得到結(jié)果。C6000指令集中有延遲的指令如表1所示。
例1 32位歸一化函數(shù)norm_l()
short norm_l(long L_var1)
{short var_out;
if (L_var1 == 0L) {
var_out = (short)0;
}
else {
if (L_var1 == (long)0xffffffffL) {
var_out = (short)31;
}
else {
if (L_var1 0L) {
L_var1 = *L_var1;
}
for(var_out=(short)0;L_var1(long)0x40000000L;
var_out++) {
L_var1 = 1L;
}}}
return(var_out);
}
使用匯編語(yǔ)言進(jìn)行優(yōu)化:
.global _norm_l
_norm_l:
B B3
CMPEQ 0,A4,B0
[!B0] NORM A4,A4
NOP 3
消耗時(shí)間(時(shí)鐘周期):C語(yǔ)言norm_l()為723;匯編語(yǔ)言為11。
2.2 使用線(xiàn)性匯編語(yǔ)言重寫(xiě)整個(gè)函數(shù)
對(duì)于某些以循環(huán)體為主的函數(shù)可以使用線(xiàn)性匯編語(yǔ)言重寫(xiě)整個(gè)函數(shù)。使用匯編優(yōu)化器進(jìn)行優(yōu)化之后,效率是非常高的。
linux操作系統(tǒng)文章專(zhuān)題:linux操作系統(tǒng)詳解(linux不再難懂)
評(píng)論