国产免费好av黄片,黄色在线播放无毒xxxx,999影院成人在线影院

The optimization of G.729A Algorithm Using TMS320C6x DSP

摘要:在ITU-T的G.729A語音編解碼算法基礎(chǔ)上，本文介紹了使用TI公司的TMS320C6x系列DSP實(shí)現(xiàn)該算法的一些線性匯編的具體優(yōu)化技術(shù)，這在很大的程度上降低了該算法的計(jì)算復(fù)雜度，而輸出語音仍然保持了很高的合成品質(zhì)。經(jīng)改進(jìn)優(yōu)化后的程序在內(nèi)存占用率和運(yùn)算復(fù)雜度方面都達(dá)到了預(yù)期目標(biāo)，語音信號經(jīng)編碼器編碼解碼之后失真很小。
關(guān)鍵詞: G.729A；語音編解碼；DSP

Abstract: Based on the G.729A Speech Codec Algorithm, this paper describes the details of the ITU-T G.729A Speech Codec in using Texas Instruments’ high-performance programmable TMS320C6x DSP family and the various techniques used in the linear assembler optimization. It can largely reduce the calculation burden and the out speech still keeps a high reconstructed quality. Finally, the optimized programs have met with the expectation in data storage and operational complexity. The distortion of the decoded speech is rather small.
Key Words: G.729A; speech codec; DSP
1. 引言
語音通信是現(xiàn)代多媒體通信中一個(gè)重要的組成部分，語音壓縮又是實(shí)現(xiàn)低速率語音通信的關(guān)鍵技術(shù)。國際電信聯(lián)盟(ITU)于1996年提出了一種共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(CS-ACELP)的語音編碼算法—G.729。該算法在8kbits碼率下具有較好的語音編碼質(zhì)量,且延遲較短,因此在IP電話、移動通信、多媒體網(wǎng)絡(luò)通信以及各種手持設(shè)備中具有廣泛應(yīng)用。G.729A是在G.729基礎(chǔ)上進(jìn)行了一部分簡化,使得編碼的復(fù)雜度降低,對硬件的要求更低,而編碼質(zhì)量并沒有明顯降低[1][2][3]。
2．G.729A的DSP軟件開發(fā)流程
在編寫和調(diào)試C6000程序時(shí)，為了使C6000代碼獲得最好的性能，我們需要按照軟件編程的3個(gè)階段進(jìn)行，每個(gè)階段完成的任務(wù)如下[4]：
第一階段：開始可以不考慮C6000的有關(guān)知識，完全根據(jù)任務(wù)編寫C語言程序。在CCS環(huán)境下用C6000的代碼產(chǎn)生工具，編譯產(chǎn)生在C6000內(nèi)運(yùn)行的代碼，證明其功能正確。然后再用CCS的調(diào)試工具，如debug和profiler等，分析確定代碼可能存在的、影響性能的低效率段。為進(jìn)一步改進(jìn)代碼性能，需要進(jìn)入第二階段。
第二階段：利用內(nèi)聯(lián)函數(shù)、CCS編譯選項(xiàng)和其他具體優(yōu)化方法改進(jìn)C語言程序。重復(fù)第一階段，檢查所產(chǎn)生的C6000代碼性能。如果產(chǎn)生的代碼仍不能達(dá)到所期望的性能，則進(jìn)入第三階段。
第三階段：從C語言程序中抽出對性能影響很大的程序段，用線性匯編重新編寫，再用匯編優(yōu)化器優(yōu)化，鏈接，直到達(dá)到所期望的性能要求。
具體到G.729A標(biāo)準(zhǔn)編解碼器的實(shí)時(shí)要求，第三階段是工作的重點(diǎn)，而且線性匯編的重新編寫要求對程序代碼和DSP的特性有充分的了解。
3. G.729A代碼的剖析
CCS集成開發(fā)環(huán)境為軟件開發(fā)人員提供了高效的開發(fā)、調(diào)試工具。特別是它提供了評價(jià)器( profiler)的優(yōu)化工具，通過收集在指定代碼區(qū)間程序執(zhí)行的統(tǒng)計(jì)性能，分析確定程序中各個(gè)段、各個(gè)子函數(shù)所花費(fèi)的處理器時(shí)間，從而把程序的優(yōu)化集中在對程序性能影響最大的代碼段上去[5]。其兩種不同的測試方法是：
(1) 在需要測定復(fù)雜度的程序段的開頭和結(jié)尾處設(shè)定兩個(gè)斷點(diǎn)，打開時(shí)鐘窗口，運(yùn)行程序。在第一個(gè)斷點(diǎn)處執(zhí)行停止，這時(shí)雙擊時(shí)鐘窗口使之清0，接著繼續(xù)執(zhí)行程序，在第二個(gè)斷點(diǎn)處停止，這時(shí)，時(shí)鐘窗口顯示的值便是該段代碼的復(fù)雜度。這在測試程序中一個(gè)函數(shù)的復(fù)雜度是非常有用的。
(2) 先打開統(tǒng)計(jì)窗口，在需要測試的程序段頭尾設(shè)置統(tǒng)計(jì)點(diǎn)((Probe Point)。程序運(yùn)行結(jié)束后，統(tǒng)計(jì)窗口內(nèi)該程序段后面的統(tǒng)計(jì)值便是該代碼段的復(fù)雜度。這種方法較簡單，統(tǒng)計(jì)點(diǎn)自動收集統(tǒng)計(jì)信息，無需手工干涉，這在測定程序多段代碼的復(fù)雜度是非常有用。
4. 線性匯編的優(yōu)化
線性匯編是TI提供的一種匯編語言，其指令系統(tǒng)和匯編語言的指令系統(tǒng)完全相同，但在編寫時(shí)不需要指定寄存器和操作單元，也不需要考慮延時(shí)的問題，因此編寫線性匯編相對要容易一些 [6]。
經(jīng)過第一階段和第二階段的優(yōu)化后，音頻編碼程序在DM642上的運(yùn)行狀況有了很大改善，但是經(jīng)測試仍然沒有到達(dá)實(shí)時(shí)效果，而高級語言的效率幾乎發(fā)揮到了極致，測試的速度達(dá)到了36.5幀/s，是未優(yōu)化之前的10倍。這時(shí)，我們采用線性匯編語言重新編寫C代碼的低效率段程序，進(jìn)一步提高程序的執(zhí)行效率和充分利用DM642的硬件資源，最終按設(shè)計(jì)要求在DM642實(shí)時(shí)實(shí)現(xiàn)G.729A編碼。在前面的DSP開發(fā)流程已經(jīng)提過，DSP開發(fā)的最后一個(gè)手段是用匯編重寫C代碼，它是唯一可以既提高程序執(zhí)行速度又可以減少程序體積的方法。由于針對并行處理器編寫匯編的難度很大，一般采取的是混合編程的方法，即程序的主要部分用C代碼，部分耗時(shí)較大的函數(shù)可以用線性匯編改寫。
在編寫線性匯編優(yōu)化代碼的過程中，為了提高代碼執(zhí)行效率，我們需要遵循以下原則[7]：
(1)寫并行代碼：通過使用匯編指令并行執(zhí)行的方法減少循環(huán)內(nèi)的執(zhí)行周期數(shù)，優(yōu)化線性匯編代碼。這里的關(guān)鍵問題是弄清指令相關(guān)性，只有不相關(guān)的指令才能并行執(zhí)行。辨別指令是否相關(guān)，可以使用相關(guān)圖。
(2)處理跳轉(zhuǎn)指令和轉(zhuǎn)移指令：匯編程序的一大特點(diǎn)就是頻繁地跳轉(zhuǎn)，當(dāng)滿足不同的條件時(shí)，要求程序進(jìn)行不同的操作，或跳到相應(yīng)的位置。對于“大于”、“大于等于”、“小于”、“小于等于”等較為接近的邏輯判斷和處理，應(yīng)慎重對待，否則將產(chǎn)生邏輯性錯(cuò)誤，并且很難調(diào)試。當(dāng)發(fā)生溢出需進(jìn)行相應(yīng)處理時(shí)，這種現(xiàn)象尤為突出。
(3)盡量減少循環(huán)體內(nèi)的指令數(shù)：G.729A的算法實(shí)現(xiàn)，有許多是在循環(huán)內(nèi)部完成的，有些地方如固定碼本搜索過程中，為了確定四個(gè)非0脈沖的位置和幅度，還用到了多重循環(huán)。在循環(huán)內(nèi)部，特別是在嵌套較深的循環(huán)內(nèi)部，減少一條指令可以大大降低程序的操作次數(shù)。例如，對于一個(gè)每重循環(huán)8次的四重嵌套循環(huán)，在最內(nèi)層循環(huán)每減少一條指令，整個(gè)程序可以少執(zhí)行84=4096語句。因此在設(shè)計(jì)程序時(shí)，能夠放在循環(huán)體外執(zhí)行的語句，盡量放在循環(huán)體外執(zhí)行。
(4)展開程序體：在一定條件下，盡量展開程序，以減少子程序的調(diào)用和返回次數(shù)，犧牲空間換取時(shí)間。
G.729A算法中的LPC模塊、LSP量化及激勵(lì)碼本搜索耗時(shí)最多，為進(jìn)一步提高代碼效率，對相關(guān)計(jì)算、FIR濾波等部分函數(shù)用線性匯編語言進(jìn)行了改寫，并用畫相關(guān)圖等方法有針對性的進(jìn)行優(yōu)化。經(jīng)匯編優(yōu)化器優(yōu)化后，代碼效率比C語言直接編譯有明顯提高。
5. 優(yōu)化工作的創(chuàng)新點(diǎn)
在對G.729A的優(yōu)化中，本文在前人研究成果的基礎(chǔ)上，針對TMS320DM642 DSP系列芯片提出了一些有價(jià)值的新方法。這些創(chuàng)新點(diǎn)在不同程度上提高了代碼的優(yōu)化速度和執(zhí)行效率，在語音編解碼的DSP實(shí)時(shí)實(shí)現(xiàn)中起到了關(guān)鍵性作用。下面，以舉例的方式闡明一些經(jīng)典的方法。
5.1 繪制分析圖，掌握函數(shù)結(jié)構(gòu)
對于一個(gè)語句較多、結(jié)構(gòu)復(fù)雜的函數(shù)，為了充分了解其邏輯結(jié)構(gòu)和語句的相關(guān)性，我們通常采用畫分析圖的方法。分析圖的形式比較靈活，可以根據(jù)具體的情況選用不同的制圖工具。在編寫線性匯編的時(shí)候，需要考慮存取數(shù)組中的元素，數(shù)據(jù)打包操作和數(shù)據(jù)相關(guān)性等問題，分析圖有助于正確處理這些問題。
在對函數(shù)Cor_h_X( )優(yōu)化過程中，我們遇到了一定的困難，原因在于其中有一個(gè)雙層的循環(huán)體，內(nèi)層的次數(shù)與外層有關(guān)，外層的循環(huán)次數(shù)為40，并且循環(huán)內(nèi)部的語句有先后的相關(guān)性。這樣的結(jié)構(gòu)如果用循環(huán)展開的方法將會用到大量的寄存器，數(shù)目超出了64個(gè)，需要開辟額外的內(nèi)存空間去存放臨時(shí)變量，而讀寫內(nèi)存會消耗較多的時(shí)間，因此這樣執(zhí)行效率不會有充分的提高。對此，我們利用分析圖描述了函數(shù)中關(guān)鍵代碼的數(shù)組X[ ]，h[ ]的使用情況，如圖1所示：