talekodek info

Y

Yasser A. Nour

Guest
hey guyz
Jeg vil ETSI papirer for GSM tale-kodek

thanx

 
Yasser A. Nour,

Håper dette hjelper,

mindrover************************************************** ************************************************** ************************************************** ****
Sortering Gjennom GSM Kodeker: A Tutorial

God kodek design er et vesentlig element i å gi toll-kvalitet stemme overføringer over GSM-koblinger.Her er en titt på dagens kodeker som trengs for å gjøre det mulig så vel som ved fremtidig kodek teknologier i horisonten.

Richard Meston, Racal Instruments
CommsDesign
11 juli 2003Overføring av tale fra ett punkt til et annet over GSM mobiltelefon nettverk er noe som de fleste av oss tar for gitt.Kompleksiteten er vanligvis oppfattes å være tilknyttet nettverket infrastruktur og administrasjon nødvendig for å skape ende-til-ende forbindelsen, og ikke med overføring av nyttelast selv.Den virkelige kompleksiteten, men ligger i kodeken ordningen brukes til å kode taletrafikk for overføring.

GSM-standarden støtter fire forskjellige men lignende komprimeringsteknologier å analysere og komprimere talen.Dette inkluderer full-rate, forbedret full-rate (EFR), Adaptive Multi-rate (AMR), og halv-rate.Til tross for alle er lossy (dvs. noen data går tapt under komprimering), har disse codecs blitt optimalisert for nøyaktig regenerere tale på utgangen av en trådløs link.

For å gi toll-kvalitet stemme over et GSM-nettverk, må designere forstå hvordan og når man skal implementere disse kodeker.Å hjelpe til, gir denne artikkelen en titt inn i hvordan hver av disse kodeker virker.Vi vil også undersøke hvordan kodeker trenger å utvikle seg for å møte kravene til 2.5 og 3G trådløse nettverk.

Speech Transmission Oversikt
Når du snakker inn i mikrofonen på en GSM-telefon, er talen konvertert til et digitalt signal med en oppløsning på 13 bits, samplet med en hastighet på 8 kHz denne 104000 b / s former inngangssignalet til alle GSM-tale kodeker.Kodeken analyserer stemmen, og bygger opp en bit-stream består av en rekke parametere som beskriver aspekter ved stemmen.The output rate av kodeken er avhengig av sitt slag (se tabell 1), med en rekkevidde på mellom 4,75 kbit / s og 13 kbit / s.

Tabell 1: Ulike Coding Priser

Etter koding bitene re-arrangerte, convoluted, interleaved, og bygget inn støt for overføring gjennom luften grensesnittet.Under ekstreme feiltilstander en ramme sletting oppstår, og dataene er tapt, ellers de opprinnelige dataene er re-montert, potensielt med noen feil til mindre vesentlige biter.Bitene er arrangert tilbake til sine parametrisk representasjon, og matet inn i dekoderen, som bruker dataene til å syntetisere den originale talen informasjon.

Full-Rate Codec
The full-rate kodek er en regelmessig puls eksitasjon, langsiktig prediksjon (RPE-LTP) lineær prediktiv koder som opererer på en 20-ms rammen består av ett hundre sixty 13-bits samples.

Den vocoder modell består av en tone generator (som modeller i stemmebåndene), og et filter som endrer tonen (som modeller i munnen og nesehulen form) [Figur 1].Den kortsiktige analyse og filtrering bestemmer filter koeffisientene og en feil måling, kvantifiserer langsiktige analyser av overtonene av talen.Figur 1: Diagram av en full-rate vocoder modellen.

Som matematisk modell for tale generasjon i en full-rate kodek viser en gradvis forfall i kraft for en økning i frekvens, prøvene er mates gjennom en pre-emphasis filter som forbedrer høyere frekvenser, noe som gir bedre overføring effektivitet.En tilsvarende de-vekt-filter på fjernkontrollen slutten gjenskaper lyden.

Den kortsiktige analyse (lineær prediksjon) utfører autokorrelasjon og Schur rekursjon på inngangssignalet å avgjøre filteret ( "refleksjon") koeffisienter.Refleksjoner koeffisientene, som overføres gjennom luften som åtte parametere totalt 36 biter av informasjon, er konvertert til log-området forhold (LARS) som de tilbyr gunstigere Companding egenskaper.Refleksjoner koeffisientene blir så brukt til å søke kortsiktige filtrering av inngangssignalet, som resulterer i 160 prøver av rester signal.

De resterende signal fra kortsiktig filtrering er delt inn i fire sub-rammer på 40 prøver hver.Den langsiktige prediksjon (LTP) filter modeller de fine harmoniske av talen ved hjelp av en kombinasjon av nåværende og tidligere sub-frames.Gevinsten og lag (forsinkelse) parametere for LTP filteret bestemmes av kryss-samkjøre dagens sub-ramme med tidligere gjenværende sub-frames.

Toppen av kryss-korrelasjon bestemmer signalet lag, og gevinsten beregnes ved normalising på tvers av korrelasjonskoeffisientene.Parameterne brukes på langsiktige filter, og en forutsigelse av gjeldende kortsiktige resterende er laget.Feilen mellom estimatet og den virkelige kortsiktige gjenværende signalet den langsiktige gjenværende signalet brukes til RPE analysen, som utfører datakomprimering.

The Regular Pulse Excitation (RPE) stadiet innebærer å redusere de 40 langsiktige resterende prøvene ned til fire sett med 13-bits sub-sekvenser gjennom en kombinasjon av interleaving og sub-sampling.Den optimale sub-sekvens er definert som å ha den minste feil, og er kodet med APCM (adaptiv PCM) i 45 biter.

Den resulterende signalet føres tilbake gjennom en RPE dekoder og blandet med den kortsiktige gjenværende anslaget slik kilde langsiktige analyser filter for neste ramme, og dermed fullført feedback loop (tabell 2).

Tabell 2 - Output parametere fra Full Rate Codec

The Enhanced Full Rate Codec
Som prosessorkraft forbedret og strømforbruket redusert i digitale signalprosessorer (DSPs), mer komplekse kodeker kan brukes til å gi en bedre kvalitet på tale.Den EFR kodeken er i stand til å formidle mer subtile detaljer i talen, selv om produksjonen bit rate er lavere enn full pris.

Den EFR kodek er en algebraisk kode eksitasjon lineær prediksjon (ACELP) kodek, som bruker et sett av lignende prinsipper til RPE-LTP kodek, men har også noen viktige forskjeller.Den EFR codec bruker en 10th-ordre lineær-intelligent (kortsiktig) filter og en langsiktig filter implementert ved hjelp av en kombinasjon av adaptive og faste codebooks (sett med eksitasjon vektorer).Figur 2: Diagram av EFM vocoder modellen

The pre-processing scenen for EFR består av et 80 Hz høy-pass filter, og noen avskalling å redusere implementering kompleksitet.Kortsiktig analyse, derimot, skjer to ganger per bilde og består av autokorrelasjon med to ulike asymmetriske vinduene på 30ms lang konsentrert rundt ulike sub-frames.Resultatene er konvertert til kortsiktige filter koeffisienter, deretter linje spectral par (for bedre overføring effektivitet) og kvantisert til 38 bits.

I EFR kodeken, inneholder den adaptive codebook eksitasjon vektorer som modell den langsiktige tale struktur.Open-loop pitch analyse er utført på en halv ramme, og dette gir to estimater av banen lag (forsinkelse) for hver ramme.

The open-loop resultatet brukes til frø et lukket loop søk etter fart og redusert beregning krav.Banen lag brukes på en synthesizer, og resultatene sammenlignet mot de ikke-syntetiserte inngang (analyse-by-syntese), og minimum perceptually vektet feil er funnet.Resultatene er kodet inn i 34 biter.

De gjenværende signalet igjen etter kvantisering av adaptive codebook søket er modellert av algebraisk (fixed) codebook, igjen ved hjelp av en analyse-by-syntese tilnærming.Resultatet lag er kodet som 35 bits per sub-ramme, og gevinsten som 5 biter per sub-frame.

Den siste scenen for koderen er å oppdatere aktuelle minnet klar for neste ramme.

Going Adaptive
Prinsippet for AMR-kodeken er å bruke svært lignende beregninger for et sett av kodeker, for å skape resultatene av ulike priser.I GSM er kvaliteten på den mottatte luft-grensesnitt signal overvåkes og kodingen talehastigheten kan endres.På denne måten blir mer beskyttelse brukes på dårligere signal områder ved å redusere koding rate og økt redundans, og i områder med god signalkvalitet, kvaliteten på talen er forbedret.

I forhold til gjennomføring, en ACELP koder brukes.Faktisk er 12,2 kbit / s AMR-kodeken er beregningsmessig det samme som EFR kodeken.For priser lavere enn 12,2 kbit / s, er kortsiktig analyse utført kun én gang per bilde.For 5,15 kbit / s og lavere, er open-loop pitch lag anslått bare en gang per bilde.Resultatet er at ved lavere produksjon bithastigheter, er det et mindre antall parametere å sende, og færre biter brukes til å representere dem.

The Half-Rate Codec
Luften overføring Spesifikasjonen for GSM tillater deling av en stemme kanal i to sub-kanaler som kan opprettholde separate samtaler.En stemme koder som bruker halvparten av kanalen kapasiteten ville tillate nettoperatører å doble kapasiteten på en celle for lite investeringer.

Halv-rate kodek er en vektorsummen eksitasjon lineær prediksjon (VSELP) kodek som opererer på en analyse-by-syntese tilnærming lik den EFR og AMR-kodeker.Den resulterende produksjon er 5,7 kb / s, som omfatter 100 b / s av Indikator biter som angir om rammer antas å inneholde stemme eller ikke stemme.Modus indikatoren gjør at kodeken til opererte litt forskjellig for å få den beste kvaliteten.

Half-rate tale koding først ble introdusert på midten av 1990-tallet, men den offentlige oppfatningen av talekvalitet var så dårlig at det ikke er generelt brukt i dag.På grunn av den variable bit-rate-utgang, gir AMR seg pent til overføring over en halv-rate kanalen.Ved å begrense utgang til laveste 6 koding priser (4,75 - 7.95kbps), kan brukeren fremdeles opplever kvaliteten fordelene med tale adaptiv koding og nettverksoperatøren fordelene av økt kapasitet.Det er antatt at med innføring av AMR, bruk av halv-rate air-kanalen begynner å bli mye mer utbredt.

Computational Complexity
Tabell 3 viser tiden det tar å kode og dekode en tilfeldig strøm av tale-lignende data, og hastigheten på driften i forhold til GSM full rate kodeken.

Tabell 3: Generelt koding og dekoding Complexity

The full-rate encoder opererer på ikke-iterativ analyse og filtrering, noe som resulterer i hurtig koding og dekoding.Til sammenligning omfatter analyse-by-syntese tilnærming ansatt i CELP kodeker repeterende beregning av syntetiserte talen parametere.Den beregningsorientert kompleksitet EFR / AMR / half-rate kodeker er derfor langt større enn full-rate kodek, og gjenspeiles i den tiden det tar å komprimere og dekomprimere en ramme.

Utgangen av talen kodeker er gruppert i parametrene (f.eks LARS) som de er generert (figur 3).For overføring over luften grensesnittet er de biter så ordner de viktigste bitene er gruppert sammen.Ekstra beskyttelse kan deretter brukes til de mest betydelige biter av parameterne som vil ha størst effekt på talekvalitet dersom de er feilaktigeFigur 3: Diagram av vocoder parameteren grupperinger.

Prosessen med å bygge luften overføring støt innebærer å legge til redundans i dataene ved convolution.Under denne prosessen, den viktigste bitene (klasse 1a) er beskyttet mest, mens den minst viktige biter (klasse 2) har ingen beskyttelse brukt.

Denne rammen byggeprosessen sikrer at mange feil oppstår på lufta grensesnittet vil være enten correctable (ved hjelp av redundans), eller vil bare ha en liten innvirkning på talekvalitet.

FREMTIDSUTSIKTER
Den nåværende fokus for tale kodeker er å produsere et resultat som har en perceptually høy kvalitet til svært lave data vurdert ved å forsøke å matematisk simulere mekanikken menneskelige stemme generasjon.Med introduksjonen av 2.5G og 3G-systemer, er det sannsynlig at to forskjellige programmer tale koding vil bli utviklet.

Den første vil være forholdsvis lav båndbredde tale koding, sannsynligvis basert på den nåværende generasjonen av CELP kodeker.Wideband AMR-kodeker allerede er standardisert for bruk med 2G og 2,5 G teknologi, og disse vil utnytte kapasiteten gevinster fra EDGE distribusjon.

Den andre vil gjøre mer bruk av bred båndbredde som sysselsetter en rekke ulike teknikker som trolig vil være basert på gjeldende psykoakustiske koding, en teknikk som er i utstrakt bruk i dag for MP3 lydkomprimering.

Det er ingen tvil om at talekvalitet over mobilnett vil forbedre, men det kan ta tid før wideband kodeker er standardisert og integrert med fast wire-line nettverk, noe som fører til potensielt CD-kvalitet tale kommunikasjon over hele verden.

 
kjære mindrover
takk for hjelpen

kanne u sende dette papiret til meg eller sende den i stedet?

Jeg er mer intersting i RPE-LTP codec gjøre u ha mer info om det?

mange takk

 
Hei

Kan du ikke se standarder

http://pda.etsi.org/pda/queryform.asp

Salam
Hossam Alzomor

 

Welcome to EDABoard.com

Sponsor

Back
Top