登录站点

用户名

密码

第三代无线通信中的专用数字信号处理器CDSP

已有 1143 次阅读  2009-09-28 11:17   标签数字信号  无线通信  CDSP  处理器 

第三代无线通信中的专用数字信号处理器CDSP

近年来,无线通信及相关产品在各种领域中已显得越来越重要,特别通过无线电接口的数据发射需求与日俱增。第一代(1G)无线通信系统使用模拟技术,为蜂窝电话提供各种产品,在这个过程中,主要是涉及到声频。但第二代(2G)无线通信系统,如GSM或IS-95,是基于现代数字技术,为移动服务(声频和数据)提供各种设备。第三代(3G)无线通信是目前应用最广泛的一种通信技术,为了能提供更多的无线实时多媒体服务,建议采用宽带编码平分多路寻址(Wide-band Code Division Multiple Access,WCDMA)。在这种寻址方式下,需要更多的数据速率,通常高达2MB/s。因此,3G系统比2G系统具有更高的信号处理能力。

可编程的数字信号处理器(Programmable Digital Signal Processor,PDSP)在无线通信系统中获得广泛应用,它能为所需系统提供更多的灵活性和可升级性。为了使无线通信系统达到更佳的性能,必须推荐几种无线通信中的专用DSP芯片。如果把这些芯片使用到2G系统能满足要求,反之用到3G系统,则不能提供充足的计算能力。

为了能满足3G无线通信中的要求,这里提出一种专用的数字信号处理器,通常称为CDSP。该芯片是一种计算能力极高的DSP器件,芯片内具有为WCDMA系统专门设计的处理器结构和指令集。这些关键特性使CDSP在实时运行时花费指令最少,即具有最低的MIPS。因此,它利用几个重要的无线通信应用操作,就能方便地完成多种特有任务和应用。

1  处理器结构

    (1) WCDMA基带处理器

WCDMA基带处理器的内部框图如图5-6所示。该处理器是由一个DSP、一个相关器阵列、一个系统控制器和几个编码发生器组成。其中系统控制器能够控制基带信号处理器的各种任务,并为编码发生器和DSP提供编码籽数和信号交换的数据。而编码发生器除能接收编码籽数外,还能为相关阵列提供所需要的相应编码。在实时处理时,芯片速率的处理是由相关阵列完成,而符号速率处理是由DSP实现。


(2) CDSP结构

在设计DSP结构前,首先要考虑WCDMA系统的模拟。在模拟后,然后由DSP对几个可执行的关键操作进行析取。CDSP是为符号速率I/Q通道数据处理(通道估算、RAKE组合、维特比算法和FIR滤波器)专门设计的。

    a.结构说明

CDSP内部结构的框图如图5-7所示,它是一种改进的哈佛结构,芯片内包含一个程序存储器和两个双口数据存储器。这些存储器均具有一个16位寻址空间,其中数据存储器使用16位字宽,而程序存储器使用28位字宽。每个数据存储器均具有它自己的地址发生器(Address Generator,AG)并为相应的存储器提供地址。在程序运行过程的一个单时钟周期里,它能同时完成下列操作:

从程序存储器中取出一条指令;

从两个双口数据存储器中读出两个操作数;

把两个数据写回到两个数据存储器。

这种改进的哈佛结构能为DSP提供足够宽的存储器带宽,从而为完成更多特有任务奠定基础。

CDSP中的流水线必须遵守数据的流动规律,这样才能实现快速运行的目的。在CDSP中,它由5级流水线组成,分别为:指令存取、指令解码、读操作数、执行和回写。流水线排列次序如图5-8所示。另外,一条指令执行时间和一条指令周期的关系必须满足下列关系:即一条指令执行时间等于一条指令周期。另外,CDSP也具有5个中断矢量和1个通用并行I/O口,其中这个并行口对于和外设进行数据通信是很有用的。
(2) CDSP结构

在设计DSP结构前,首先要考虑WCDMA系统的模拟。在模拟后,然后由DSP对几个可执行的关键操作进行析取。CDSP是为符号速率I/Q通道数据处理(通道估算、RAKE组合、维特比算法和FIR滤波器)专门设计的。

    a.结构说明

CDSP内部结构的框图如图5-7所示,它是一种改进的哈佛结构,芯片内包含一个程序存储器和两个双口数据存储器。这些存储器均具有一个16位寻址空间,其中数据存储器使用16位字宽,而程序存储器使用28位字宽。每个数据存储器均具有它自己的地址发生器(Address Generator,AG)并为相应的存储器提供地址。在程序运行过程的一个单时钟周期里,它能同时完成下列操作:

从程序存储器中取出一条指令;

从两个双口数据存储器中读出两个操作数;

把两个数据写回到两个数据存储器。

这种改进的哈佛结构能为DSP提供足够宽的存储器带宽,从而为完成更多特有任务奠定基础。

CDSP中的流水线必须遵守数据的流动规律,这样才能实现快速运行的目的。在CDSP中,它由5级流水线组成,分别为:指令存取、指令解码、读操作数、执行和回写。流水线排列次序如图5-8所示。另外,一条指令执行时间和一条指令周期的关系必须满足下列关系:即一条指令执行时间等于一条指令周期。另外,CDSP也具有5个中断矢量和1个通用并行I/O口,其中这个并行口对于和外设进行数据通信是很有用的。



b.具有SIMD计算模式的专用指令

根据宽带编码平分多路寻址(WCDMA)模拟结果,我们能够设计出关键运算的几种专用指令,如RAKE组合的通道估算、维特比算法,FIR滤波器等。如果使用具有单指令流、多数据流(Signgle Instruction Streams,Multiple Data Streams,SIMD)计算模式的专用指令,就能在一个单指令周期里,以并列方式执行几个数据通路的功能单元,因此,CDSP能够有效地完成WCDMA系统中的许多关键运算(操作)。

c.具有SWP的数据通路

在CDSP中,具有子字并行度(Sub-Word Parallelism,SWP)的数据通路有4个单元,它们分别为算术逻辑单元(Arithmetic Logic Unit,ALU)、乘法累加器(Multiple Accumula-tor,MAC),比较器(Comparator,CMP)和环形移位器。其中ALU、SFT、CMP的输入和MAC的累加器是40位宽度,而MAC的乘法器的输入是16位宽。数据通路的输出能够存储到两个40位累加器(D0或D1)或两个存储器中的一个。在实时运行过程中,4个数据通路单元的所有执行均是在一个单时钟周期里完成。

根据WCDMA系统模拟结果表明,只要有6位字长宽度就能满足相关器输出。因此,一个正常的16位DSP数据通路能够分离成2个8位数据形式(I和Q通道),其数据排列格式如图5-9所示。从图中看出,这是CDSP中具有SWP结构的数据通路格式,利用这种结构,能够有效加速对符号速率I/Q通道数据处理。



在CDSP中,具有SWP的数据通路单元有4个。现将其中一个MAC的SWP结构作些说明,如图5-10所示。从图中看出,图中4个并行8位乘法器能够支持8×8和16×16的乘法操作。

d.本地(局部)数据总线

在CDSP中,除了两个双口数据总线外,同样还具有3个本地数据总线,这些总线能够进一步保持本地数据关系。另外,这些数据总线和两个40位累加器一起能为4个数据通路单元提供各种输入源。

e.硬件循环缓冲器

在许多DSP算法中,如数字滤波器等,它们均需要循环数据缓冲器。在CDSF,中的每一个地址发生器(Addcess Generator,AG)具有8个寻址寄存器,并支持模量寻址模式。利用这个硬件循环缓冲器能够处理地址寻址的环境,并简化循环寄存器的实现。

f.零开销循环

由于DSP算法是重复性的,而且大部分的逻辑均能用循环来表示。因此,只要把极好的性能和简洁的程序结构组合在一起,CDSP中的程序序列发生器就能支持零开销的循环编码。

g.电源管理中的空闲模式

在低功率电路设计中,CDSP的电源管理应该支持空闲模式,以便在CDSP不工作时节约电能。

2  专用指令

根据WCDMA模拟结果可知,关键操作设计中有几个专用指令。

    (1) RAKE组合的通道估算

通道估算的主要概念是使用已知的典型试验符号来得到当前可移动通道响应。为了得到这个信息,能够把最大比率组合作为RAKE接收机的核心。在这种操作过程中,需要一些复杂算法,如乘法器和乘法累加器。通常,一个16位DSP芯片,要花费6个时钟周期才能完成包含四个乘法操作和两个加法/减法操作的复杂乘法器。因为cDsP能够支持具有SWP结构的8位和16位数据。所以MAC的四个8位乘法器能够在一个指令周期里完成一个复杂的MUL/MAC,复杂的乘法器/乘法累加器(MUL/MAC)运行结果,使它变成具有实数和虚数的两个16位字,然后就能把这两个字存储到一个16位数据存储器或两个40位累加器中的一个。

(2) 维特比算法

卷积编码技术是一种误差校正编码方法,它在无线通信系统中获得广泛应用。利用格子结构图上的维特比算法,就能对卷积编码数据进行解码处理。通常,卷积编码处理分两个步骤:度量更新和追溯操作。

    a.度量更新

卷积编码处理第一步是度量更新。在这个过程中,使用一种加法——比较选择操作(Add-Compare Select,ACS)。因为这个步骤在维特比算法中消费时间最多,为此,某些通信DSP,如TI公司的TMS320C54 x就要使用专用指令来加速ACS操作。即使如此,仍然还需要花费5个指令周期才能完成一次蝶形计算。但是在CDSP中,使用SIMD和SWP结构就能加速ACS操作,详细操作的数据流如图5-11所示。在图中,MAC能够旁路乘法器,并使一个24位的减法器/加法器和一个16位的加法器/减法器正常工作。另外,ALU也能使一个24位的加法器/减法器和一个16位的减法器/加法器正常工作。同时CMP能够选择数据存储器,并节省计算通道的最小距离。因此,两个ACS操作能够在一个时钟周期里完成,这也是把CMP和ALU分开设置的原因。


很明显,两个存储器的读操作和写操作需要在一个时钟周期里完成,这就是在CDSP结构图中使用两个双口数据存储器的主要原因。根据如图5-12中所示的度量数据编址,就能得到图5-12(a)所示的双口数据存储器的执行图。利用这个执行图,度量数据必须按图5-12(b)所示的排列。在此方法中,每个格子图中存储器的数据是平稳的。

 


b.追溯操作

维特比算法的第二步是追溯操作。在这个操作中,使用WCDMA结构,它能够支持约束长度从5变到9,从而给计算提供较为宽松的环境。

(3) FIR滤波器

利用2的因子,MAC的SWP结构也能加速FIR滤波器工作。它的存储器排列图如图5-13所示。当完成FIR滤波器时,左边是两个8位乘法器,中间是32位加法器,最后是MAC的40位累加器,这些均是在激活状态和完成各自操作后的存储器排列。由图5-13可以看出,输入数据是存储在一个数据存储器中,而系数存储在另一个数据存储器,它们均是以压缩形式完成存储操作。


3  性能比较

为了进行性能比较,特将CDSP和某些著名通信DSP芯片(TI公司的C54X/C55X、LODE和MDSP-II)进行比较,结果见表5-3。

 


由表得出几点结论:

CDSP在完成卷积编码技术时,它的性能是其他芯片的4~8倍;

CDSP在完成复杂操作时,它的性能是其他芯片的2~4倍;

CDSP在完成FIR滤波器应用时,它所花费的时间仅为其他芯片(1 MAC)的50%。

综上分析可以看到在无线应用的关键操作中,CDSP与其他通信DSP,相比较,其性能最好。其中消耗指令最少,执行时间最短。

4  芯片性能

CDSP的原型芯片是基于单元的设计方法,以TSMC O.35μm CMOS 1 P4M技术制造完成的,它的性能见表5-4。

 


CDSP的显微照相实物图,如图5-14所示。

 


上一篇: 具有DAC和电源优化功能的MP3解码器 下一篇: dsp电平转换的方法介绍

分享 举报