La voix sur IP : Introduction  
 

 

I. Introduction

Lorsque nous appelons à l’étranger ou à l’autre bout de la France, les communication téléphoniques restent toujours trop chères à notre goût. Pourquoi ne pas les réduire considérablement en adoptant Internet pour téléphoner directement à nos correspondants ?

Bien que l’Internet se développe rapidement, le téléphone reste encore le favoris du public en matière de communication. Plus convivial car le contact est presque réel, il reste en plus simple d'utilisation. Pourtant, il fusionne de plus en plus avec le matériel informatique.

Les utilisateurs du téléphone ont depuis toujours été habitués à payer leurs communications en fonction de la distance et de la durée de celles-ci, mais depuis l'émergence et l'extraordinaire développement de l'Internet, les mentalités changent et on s'habitue au principe de réseau informatique et de son accès forfaitaire. On peut ainsi communiquer, par écran interposé, n'importe où dans le monde sans aucune considération financière puisque le prix est toujours celui d'une communication locale. C'est évidemment cet aspect financier qui est à l'origine de la téléphonie sur IP. Car c'est une révolution au niveau des tarifs qui s'annoncent démesurément bas.

Déjà opérationnelle, la téléphonie sur Internet est d'une qualité médiocre, mais les prix et les perspectives d’amélioration sont là pour masquer les faiblesses, ainsi une communication Paris - New York coûterait moins de 1F/Minute, chose inconcevable en France sur le réseau classique.

II. Généralités

A. Service rendu

Le véritable enjeu de la voie sur IP dépasse le cadre de la téléphonie bon marché sur l’Internet. En effet, la possibilité de combiner voix, données et vidéo sur le même réseau de transport permet d’imaginer de nouvelles applications. Par exemple la vidéo conférence sur Internet. D’autres applications sont en gestation, telle la messagerie unifiée pour envoyer indifféremment des messages voix sur IP, électroniques ou télécopie via l’Internet.

La voix sur IP permet d’enrichir le travail coopératif. Celui-ci mêlant la voix aux données sur IP affranchit les utilisateurs des contraintes liées à l’éloignement. Après le groupware de données, voici le temps du groupware multimédia; Avec ces applications coopératives, les utilisateurs peuvent dialoguer avec un correspondant, tout en consultant simultanément les mêmes données sur leur ordinateur, grâce aux infrastructures Internet. Le développement actuel des technologies IP devrait faciliter le travail de coopération multimédia.

La voix sur IP : mythe ou réalité ?

Les premiers logiciels de téléphonie apparaissent en 1995, avec pour publicité la possibilité de téléphoner à l’autre bout du monde, grâce à Internet, pour le prix d’une conversation locale. Les grands opérateurs du moment sourient, dénoncent la qualité de service qui pourrait être associée à un réseau dont le leitmotiv est le: «best effort» et accusent ce moyen de communication émergeant d’accaparer la bande passante du réseau des réseaux.

Le «best effort» :

Aujourd’hui le réflexe est à la modération, en effet les opérateurs téléphoniques se penchent fortement sur le sujet car les technologies et protocoles évoluant, les remarques vindicatives précédentes non plus lieu d’être.

La voix: Pourquoi?

La volonté de transporter de la voix sur un support idéal pour les données est une première étape vers l’objectif d‘avoir un réseau unique permettant l’interconnexion de tous les supports et acceptant les contraintes temps réel des données multimédias.

Outre la notion de coût de communication associé à ce moyen de transport, c’est plutôt l’aspect homogénéisation des réseaux qui est à mettre en avant. En effet les opérateurs, voyant la téléphonie sur Internet se développer, ont mis en place des offres plus que concurrentielles ayant l’avantage non négligeable d’assurer une qualité de service de 99.999% (avec Internet ce n’est pas encore le cas).

B. Les grandes structures de normalisation

Avant 1996, les solutions de voix sur IP reposaient sur des architectures propriétaires. Ces solutions présentaient des défauts parmi lesquels :
- le manque d'interopérabilité des équipements ;
- l'impossibilité de raccordement au réseau public (seuls les ordinateurs pouvaient communiquer entre eux) ;
- l'absence d'architecture générale pour la connexion de n'importe quel type de terminal. Chaque architecture était définie pour deux équipements d'extrémité spécifiques et ne pouvait pas interopérer avec d'autres équipements.

De nombreuses organisations ont alors pris part à l'élaboration d'un standard suffisamment général pour décrire toutes les possibilités de service de voix sur IP. Ils se sont regroupés au sein d'un groupe de travail de l'UIT.

Les organismes de normalisation impliqués dans la définition de standards pour la voix sur IP sont :
- UIT-T (Union Internationale des Télécommunications, secteur Télécoms) ;
- IETF (Internet Engineering Task Force) ;
- IMTC (International Multimedia Teleconferencing Consortium) ;
- ECTF (Entreprise Computer Telephony Forum) ;
- ETSI (European Telecommunication Standards Institute) ;
- International Teleconferencing Association ;
- International Multimedia Association.

Ces organismes ont participé à l'élaboration de la norme H.323 dont le respect permet de garantir l'interopérabilité des équipements et la qualité de service. La norme H.323 traite des systèmes de communication multimédia en mode paquet, et normalise la transmission de la voix, de la vidéo, des conférences audio ou vidéo sur IP. Les principaux apports de H.323 sont les suivants :

- Définition des normes de compression des flux audio et vidéo que les équipements doivent nécessairement supporter ;
- Définition des protocoles de signalisation pour l'interopérabilité des équipements ;
- Limitation de la bande passante réservée pour chaque type de communication ;
- Indépendance vis-à-vis des applications et systèmes d'exploitation ;
- Indépendance vis-à-vis du réseau physique supportant la communication.

D'autres normes existent, telles que SIP (Session Invitation Protocol) adoptée par l'IETF, ou en cours d'élaboration GLP (Gateway Location Protocol) pour déterminer les passerelles les plus proches d'un correspondant. Mais la large majorité de l’industrie et les solutions actuelles ont misé sur H.323.
Architecture H.323

III. La voix

A. La voix : caractéristiques

1. Domaine spectral

Le système vocal est complexe et basé sur des ondes sonores de fréquences différentes. Le spectre des fréquences perçues par l’oreille humaine s’étale de 100 Hz à 20 kHz. Cette fourchette est, cependant, à réduire si l’on veut distinguer les fréquences utiles des fréquences audibles. En effet, la quasi-totalité d’un message sonore est compréhensible dans la fourchette 300-3400 Hz. Cette dernière correspond, d’ailleurs, à celle utilisée par le téléphone standard.

2. Un sens délicat

Contrairement à la vue, l’ouie est plus exigeante. En effet, un film dont le rafraîchissement serait de 25 images/sec, ne troublerait pas une personne française, habituée à 30 images/sec. Entre parenthèse, 25 img/s correspond au débit des formats télévisuels américains. De même, la qualité d’une image photographique argentique comparée à celle d’un appareil numérique, bien que différente pour les puristes, ne choque pas un être humain normal.
Si l'on se recentre sur l’aspect conversation orale, on remarque, d’après différentes études, que la marge de manœuvre est beaucoup plus réduite. C’est l’effet inverse de la dégradation de la vidéo, depuis l’avènement de la radio grandes ondes, l’audio n’a cessé d’être améliorée. On est passé à la FM stéréo, la hi-fi de salon est aujourd’hui haute définition et les CD offrent une qualité sonore quasi parfaite.

B. La conversation orale : une exigence d’interactivité

Une conversation entre deux personnes respecte deux principes : intelligibilité et interactivité. Couper la parole à quelqu’un ne se fait pas, mais c’est un gage d’interactivité et de dialogue. En terme de transmission numérique, cela se traduit par le terme duplex. Une conversation full duplex assure cette interactivité car chaque locuteur peut parler en même temps, ce qui arrive quand deux personnes parlent de leur propre expérience sans s’écouter... Un mode half duplex induit une conversation unidirectionnelle du style CB (Citizen Band) : quel est ton QRZ, à toi ! je viens de Moselle, à toi !

Cette interactivité implique des notions de délais dans le transport de la voix (avec le téléphone, par exemple). Les mesures effectuées montrent qu’un temps de transit inférieur à 150 ms garantit un dialogue actif. Jusqu’à 400 ms (limite supérieure) le dialogue reste tout de même assez réactif. Au-delà de cette limite le contradicteur aura l’impression de parler dans le vide.

 

-= From guill.net =-