Telefoni handler grundlæggende om at opsamle lyd elektronisk, transportere den til et andet sted, gengive den der, og på samme tid gøre det samme i modsat retning, så 2 eller flere personer kan føre en samtale på afstand.
Oprindeligt blev det klaret ved at placere en mikrofon og en højttaler hos hver person og forbinde dem med et par ledninger tilkoblet 48 Volt jævnstrøm. Mikrofonen skabte svingninger i strømmen svarende til lydbilledet, og højttaleren gengav vha. disse svingninger lyden hos modparten (analog forbindelse). Parterne blev forbundet med hinanden via centralen, hvor de relevante ledninger blev koblet sammen først manuelt og siden med automatiske relæer. Brugerne signalerede til centralen ved at dreje på håndsvinget og derefter at fortælle, hvilket nummer man ønskede forbindelse med. Hver samtale beslaglagde et par ledninger på hele strækningen mellem deltagerne. Når samtalen var slut, skulle der signaleres til centralen igen, så forbindelserne kunne tages ned og evt. benyttes til den næste samtale på strækningen.
Telefoni består altså af 2 delkomponenter: signalering og lyd.
Digitalisering indebærer, at lyden ikke sendes direkte som elektriske svingninger men i stedet opdeles i bittesmå lydstumper. Lyden fra 1/8000 sekund bliver til 8 stk 0 og 1 taller (bits), som sendes samlet til modtager. På moderne forbindelser er der plads til at sende mange flere data end en enkelt samtale kan producere. På en ISDN forbindelse sender man skiftevis 8 bits fra enten 2 eller 30 kanaler 8000 gange pr sekund. Udstyret i den anden ende fordeler simpelthen lydstumperne ud til de relevante kanaler 8000 gange pr sekund. Det kalder man Time Division Multiplexing (TDM), på dansk noget i retning tidsopdelt multikanalsending. I stedet for 1 samtale er man dermed i stand til at sende 2 eller 30 samtaler på et enkelt sæt ledninger, men der skal stadig etableres direkte forbindelse mellem parterne. Signalering foregår i særlige D-kanaler. ISDN2 har 2 lydkanaler (B-kanaler) og 1 D-kanal, ISDN30 har 30 B-kanaler og 2 D-kanaler.
Når lydstumperne skal fordeles til de respektive kanaler, er det afgørende, at udstyret i hver ende er synkroniseret korrekt. D-kanalen indeholder et særligt bitmønster på en bestemt plads, så rammerne (frames) med N x 8 bits kan genkendes og kanalerne fordeles korrekt. Men ikke nok med det. Hvis udstyret ikke arbejder nøjagtigt lige hurtigt, vil der opstå kø eller huller i datastrømmen. Derfor opbygges et hierarki hvor centralt udstyr med stabile ure jævnligt sender synkroniseringssignaler til underordnet udstyr, så de følges ad indenfor 1/8000-del sekund!
For at gøre plads til flere samtaler begyndte man at komprimere lyden. I stedet for at sende 8 bits 8000 gange pr sekund (64 kbps), opsamler man lyden fra f.eks. 20 millisekunder i en lille klump, komprimerer dem og sender dem afsted i en pakke. Der er udviklet en række forskellige metoder (codecs) til komprimere lyden, så man kan nå ned på f.eks. 32, 21, 14, 12, 9,6, 8 kbps eller endnu mindre. Det er vigtigt at benytte samme metode (codec) i begge ender af forbindelsen. Som udgangspunkt bliver lydkvaliteten ringere med større komprimering, men de nyeste codecs er faktisk i stand til at gengive en flot lyd med stor komprimering. GSM (mobil) telefoner benytter som udgangspunkt komprimering til 12 kbps, men går længere ned, hvis forbindelsen er dårlig. D-kanalen på GSM har 2,4 kbps til rådighed ud af et samlet ”timeslot” på 14,4 kbps. D-kanalen benyttes bl.a. til SMS – derfor kan du modtage en SMS mens du snakker i telefonen.
Undervejs i transporten mellem samtaleparterne kan der opstå behov for at skifte mellem forskellige systemer og komprimeringsgrader – f.eks. fra en IP telefon på kontoret til en ISDN forbindelse i omstillingsanlægget til en GSM forbindelse hos modtager. Hvert skifte håndteres af en Digital Signal Processor (DSP) – en lille elektronisk hardware enhed eller af en stump software. For hvert skifte er der risiko for at lydkvaliteten forringes – især hvis der benyttes forskellige codecs.
Komprimeringen indebærer forsinkelse (delay). Først skal man jo vente 20 millisekunder på at opsamle data, derefter skal de bearbejdes, inden de i komprimeret form kan sendes afsted. Modtageren skal pakke data ud og afspille lyden forfra. Ved at øge indholdet af hver pakke til f.eks. 30 millisekunder, begrænser man antallet af pakker, men samtidig øger man forsinkelsen så meget, at er på grænsen til at være generende.
Med komprimeringen er det muligt at sende mange flere kanaler gennem en TDM forbindelse, men det er også muligt at putte hver pakke i en lille ”konvolut” med modtager og afsender adresser og sende dem gennem et IP data netværk. ”Konvolutterne” fylder også, så hvis IP nettet skal transportere 64 kbps lyddata, bliver belastningen godt 80 kbps. Ved komprimering bliver hver pakke mindre, men der skal stadig sendes en pakke for hver 20 millisekunder, så ”konvolutterne” tager en forholdsvis større andel af pladsen (overhead). Datanetværket fungerer lidt ligesom en motorvej: store og små datapakker transporteres mellem hinanden og skal flette ind og ud ved hvert motorvejskryds. Der kan opstå kø med forsinkelser, og pakkerne kan vælge forskellige veje frem til målet. Der er ikke længere en direkte og dedikeret forbindelse mellem parterne, trafikken sendes blot ud i netværket og må så på bedste beskub finde vej frem til modtageren.
Nogen gange ”kører en pakke galt”, så den slet ikke når frem til modtager (pakketab). Normalt bliver afsender blot bedt om at sende pakken igen, så den samlede datamængde kan opbygges uden fejl og mangler (TCP Transmission Control Protocol), men det giver ikke mening i en transport af lyd. Hvis en lydstump ikke er nået frem, når den skal bruges, kan den ikke bruges overhovedet. IP telefoni benytter som regel UDP (User Datagram Protocol) til transport af lyden. UDP er hurtigere, men kontrollerer ikke om data faktisk når frem. Derimod er det altid vigtigt at signaleringsdata når frem til modtager uanset om den skulle blive forsinket undervejs. Signalering benytter normalt TCP.
Pakketab fører til hakkende lyd. Telefonsystemerne bygges med en buffer på fx 20 millisekunder til at kompensere for den naturlige variation (jitter) i leveringstiden for de enkelte pakker. Med større buffer øges chancen for at alle pakker når frem i tide, men den samlede forsinkelse kan blive så stor, at det er generende. Gode systemer er i stand til at kompensere for manglende lydpakker ved kunstigt at danne en passende lyd ud fra lydbilledet i pakken før og efter hullet. Hvis der mangler mange pakker efter hinanden, bliver lyden uforståelig.
Når en samtalepartner ikke siger noget, bliver der ikke sendt lydpakker gennem systemet. Modtager oplever det som komplet stilhed, hvor der normalt ville være en smule baggrundsstøj. Gode systemer danner en kunstig baggrundsstøj hos modtager for at give denne en fornemmelse af, at der stadig er forbindelse til afsender. Hvis afsender befinder sig i et miljø med tydelig baggrundsstøj fra f.eks. en trafikeret vej, kan skiftet mellem den virkelige og den kunstige baggrundsstøj være meget generende.
I belastede datanetværk opstår der ofte kødannelser, så lydkvaliteten i IP telefoni kan blive uacceptabel. Det afbøder man ved at udstyre lydpakkerne med ”blå blink”, så de får lov til at komme hurtigt igennem systemerne. Det kalder man Quality of Service (QoS). Der er 2 måder at gøre det på: DiffServ og 802.1p. Forskellen ligger alene i, om det ”blå blink” bliver placeret i pakkens adressefelt eller lidt længere inde i pakken. Producenterne kan ikke enes om at benytte en af de to metoder, så det er vigtigt at alt netværksudstyr er i stand til at håndtere begge metoder! Systemet virker ved at dele trafikken op i 2, 4 eller 8 forskellige prioriterede køer (”vognbaner”) ved knudepunkterne. Datapakker med høj prioritet (”blå blink”) får lov til at komme hurtigt igennem knudepunktet. Ældre switche og routere og udstyr beregnet til privat brug kan normalt ikke håndtere QoS. Nyere udstyr til erhvervsmæssig brug har som regel funktionen indbygget som standard.
Den samlede lydoplevelse afhænger altså af en række faktorer: Der skal være tilstrækkelig plads (båndbredde) i netværket, der skal så vidt muligt benyttes samme komprimering (codec) hele vejen gennem systemet, pakketab bør ikke forekomme og skal være under 1 – 2%, den samlede forsinkelse (delay) skal være under 150 millisekunder, og forsinkelsen må ikke variere (jitter) mere end 20 millisekunder.
Det er relativt simpelt at kopiere en strøm af lydpakker, og det er relativt simpelt at danne falsk signalering. IP telefoni indebærer (ligesom alle andre telefonsystemer) en risiko for aflytning og risiko for at nogen giver sig ud for at være en anden. Derfor benyttes kryptering af lydpakkerne i gode systemer. De bedste benytter også kryptering og signering af de datapakker, der benyttes til signalering, for at sikre at et apparat eller en bruger faktisk er den, vedkommende giver sig ud for at være.
Lyddelen af IP telefoni behøver i modsætning til andre telefoniløsninger ikke passere gennem omstillingsanlægget. Den kan sagtens gå direkte fra telefonapparat til telefonapparat, når først de relevante apparater har fundet hinanden v.h.a. signalering. Kun når samtalen skal konverteres til en anden transportform end IP, er det nødvendigt at komme gennem omstillingsanlægget eller en gateway, som har de fornødne DSP ressourcer til omsætte trafikken og de nødvendige kabelforbindelser til modtageren. Omstillingsanlægget behøver derfor ikke være placeret samme sted som apparaterne, men kan placeres centralt på et hovedkontor eller for den sags skyld på et Hostingcenter. Det kan være en fordel at placere en lokal gateway på lokationer med et vist antal apparater og hvor det er livsvigtigt at forbindelsen altid virker. Gode gateways har indbygget en backup funktion, så de kan køre telefonien videre i nøddrift, selvom forbindelsen til omstillinganlægget falder ud. Hvis der lokalt er brug for at koble et enkelt eller få analoge apparater på en IP løsning, kan man benytte en Analog Terminal Adapter (ATA). De har dog begrænset funktionalitet og kan nogen gange skabe udfordringer i anvendelsen af f.eks. analoge faxmaskiner og modemer.
Signalering i forbindelse med IP telefoni kan bruge forskellige koder. Fra start udviklede mange producenter hver deres kodesystem. Derfor kunne telefonapparater fra en producent ikke fungere sammen med et omstillingsanlæg fra en anden producent. Efterhånden har man dog fået øjnene op for fordelene ved en standardisering, og SIP (Session Initiation Protokol) er ved at blive en de facto standard for signalering. Men selv om forskellige producenter benytter SIP, er det ingen garanti for, at alle funktioner virker på tværs af anlæggene. SIP er nemlig kun standardiseret for en række grundlæggende funktioner. Hver enkelt producent kan frit bygge sine egne avancerede funktioner ovenpå SIP uden at aftale definitionerne med de øvrige producenter. Standardens omfang udvides dog løbende, så med tiden bliver flere funktioner omfattet, og samspillet mellem udstyr fra forskellige producenter bliver bedre.
Analoge, TDM og ISDN telefonapparater får strøm gennem telefonledningen. Det er som udgangspunkt ikke muligt på et datanetværk, så IP telefoner skal normalt have strøm fra en særskilt omformer, der bliver tilkoblet lysnettet. Det er ikke så praktisk. Derfor har man udviklet Power over Ethernet (PoE). Særligt udformet netværksudstyr (PoE switche) sender strøm ud i netværkskablerne, hvis der bliver tilkoblet en PoE telefon (eller andet PoE udstyr) i den anden ende.
Nyere IP telefonapparater har indbygget en 3 ports switch, så man kan føre netværksforbindelsen videre fra telefonapparatet til f.eks. en PC. Hver person kan dermed nøjes med et enkelt stik i væggen. Kun det første apparat i kæden får strøm fra PoE, så telefonapparatet skal altid kobles først på linien. I visse IP apparater kan den indbyggede switch ikke håndtere QoS. Trafikken fra den tilkoblede PC vil i så fald kunne forstyrre lyden.
August 2009
Karl Lausten