Plusieurs paramètres influent sur la qualité de la voix :
- Le traitement de la voix (qualité de codage ou de compression),
- Le délai de transmission
- La gigue
- Le phénomène d'écho
I. Quelques indicateurs permettant de mesurer la qualité de service
La qualité du codeur
A l'émission, la voix est codée et compressée avant d'être encapsulée dans les paquets IP. La taille du paquet est un compromis entre la nécessité de réduire le délai de transmission et l’optimisation de la bande passante.
Les codeurs rencontrés dans les applications de voix sur IP se sont développés dans des axes très variés. On distingue trois grandes catégories :
- Les techniques temporelles (avec des débits compris entre 16 et 64 kbits/s) ;
- Les techniques paramétriques (avec des débits compris entre 2,4 et 4,8 kbits/s) ;
- Les techniques par analyse et synthèse (avec des débits entre 5 et 16 kbits/s).
En général, les techniques de codage offrant des faibles débits exigent des temps de traitement plus long, augmentant ainsi le délai de transit. Un critère de notation est établi en standard pour caractériser la qualité du codeur. C'est la note moyenne d'opinion MOS (Mean Opinion Score) qui classe les codeurs en cinq grandes classes :
1 = Mauvais,
2 = Médiocre,
3 = Moyen assez bon,
4 = Bon,
5 = Excellent.
Le délai de transmission
Le délai est le temps écoulé entre l'émission de la parole et sa restitution à l'arrivée. Pour permettre un échange interactif, la voix doit être transmise avec des contraintes de délai. Les chiffres suivants (tirés de la recommandation UIT-T G114) sont donnés à titre indicatif pour préciser les classes de qualité et d'interactivité en fonction du délai de transmission dans une conversation téléphonique.
Classe n°
Délai par sens
Commentaires
1
0 à 150 ms
Acceptable pour la plupart des conversations.
2
150 à 300 ms
Acceptable pour des communications faiblement interactives (voir satellite 250 ms par bond)
3
300 à 700 ms
Devient pratiquement une communication half duplex
4
Au-delà de 700 ms
Inutilisable sans une bonne pratique de la conversation half duplex (militaire)
On peut compléter les chiffres du tableau ci-dessus par un indice de difficulté de communication en fonction du retard par sens :
Délai par sens
Difficulté de communication
200 ms
28%
450 ms
35%
700 ms
46%
Les causes de délai sont nombreuses :
- retard dû au codage, au décodage et à la mise en paquets de la voix,
- retard dû à la sérialisation
- retard dans les files d'attente des routeurs
- retard de propagation
- retard dû à la compensation de gigue.
La gigue de transmission
La gigue est la variation du délai de transmission. Le protocole utilisé pour transporter les paquets voix sur un réseau IP est UDP (User Datagram Protocol). La signalisation utilise la couche de TCP (Transmission Control Protocol). Le protocole UDP fonctionne en mode non connecté : les paquets n'empruntent pas forcement le même chemin, d'où une variation du délai de transit. Une autre cause de la variation du délai de transit dépend du nombre de routeurs traversés et de la charge de chaque routeur traversé. Pour restituer un flux synchrone à l'arrivée, on installe des buffers de compensation de gigue; mais ce stockage allonge encore le délai de transmission. La gigue doit rester inférieure à 100 ms pour garder une qualité acceptable.
Le taux de perte des paquets
Le protocole UDP ne garantit pas que les paquets arriveront à destination. Une erreur sur l'en-tête du paquet peut entraîner sa perte ou l'envoi vers une mauvaise destination. D'autre part, lorsque les routeurs IP sont congestionnés, ils libèrent automatiquement de la bande passante en détruisant une certaine proportion des paquets entrants en fonction de seuils prédéfinis. Le taux de perte des paquets dépendra de la qualité des lignes empruntées et du dimensionnement du réseau. Pour avoir une qualité de parole acceptable, le taux de perte de paquet doit rester inférieur à 20%.
L'écho
L'écho est le délai entre l'émission d'un signal et la réception de ce même signal réverbéré. Ce problème se pose généralement dans les communications PC à Téléphone, Téléphone à PC ou Téléphone à Téléphone. Il est causé par les composantes électroniques des parties analogiques du système qui renvoient une partie du signal traité. Un écho inférieur à 50 ms n'est pas perceptible.
Au-delà, l'interlocuteur s'entend parler avec un retard. Pour pouvoir offrir un service de téléphonie sur IP, les passerelles doivent traiter l'écho électrique généré par le passage de 2 fils à 4 fils. Si ce traitement n'est pas effectué, le service ne sera pas utilisable avec des postes analogiques classiques. En France, 50% des lignes analogiques induisent un signal d'écho affaibli de 15 dB seulement par rapport au signal d’origine. Avec un tel affaiblissement, la qualité de la communication devient inacceptable si le délai de transmission et de commutation excède 25 ms par sens. Pour résoudre ce problème, on introduit dans le réseau des annulateurs d'écho.
II. La qualité actuelle des offres existantes et leurs évolutions
On admet actuellement que le temps de traitement (compression, décompression et mise en paquets) de la voix introduit un délai d'environ 50 ms pour une extrémité ; que la transmission des paquets prend entre 50 et 100 ms (propagation et compensation de la gigue).
Les routeurs introduisent un délai d'environ 50 ms dans le cas d'un Intranet ou d'un Extranet, davantage et parfois un temps indéterminé (aux heures de pointe) dans le cas de l'Internet. Le délai total induit se situe donc entre 200 et 250 ms de bout en bout avec un réseau IP bien contrôlé (Intranet ou équivalent).
Une première conclusion s’impose : la technologie Voix sur IP a atteint les niveaux de qualité permettant son acceptation par les utilisateurs.
Il reste cependant le problème de la qualité des réseaux IP eux-mêmes. Dans l’Internet lui-même, ou dans un Intranet avec des points de congestion, les délais évoqués ci-dessus peuvent être beaucoup plus élevés.
Dans un Intranet ou Extranet, un bon dimensionnement du réseau et une bonne gestion permettent dans certains cas de maîtriser ces paramètres, contrairement à l'Internet dont le mode de fonctionnement ne permet pas un contrôle de tout le réseau. Il est même possible dans le cas d'un réseau dédié de faire un débordement sur le RTC en cas d'indisponibilité du réseau ou de qualité de service insuffisante à un moment donné.
Le vrai problème est ailleurs : il se situe essentiellement dans les routeurs IP actuels, qui n’ont pas été conçus pour acheminer du trafic dans le respect de caractéristiques telles que délai, ou gigue, ou perte de paquet. C’est le système dit du " best effort ", le réseau fait son possible pour acheminer les flux, mais les congestions, les lignes à faible vitesse, etc. peuvent dégrader rapidement la qualité de transmission. Les applications non temps réel qui utilisent IP ont trouvé des moyens de correction (telle la couche de transport TCP) ou de contournement (SNMP est rarement utilisée pour la configuration) de ces non-qualités. C’est plus difficile pour les applications temps réel que sont la voix, le son ou la vidéo.
Un dernier volet de la qualité de service concerne la numérotation, et plus généralement les services offerts par les réseaux téléphoniques actuels. Dans le cas des communications PC à PC sur Internet, les utilisateurs se connectant en mode dial-up IP n'ont pas une adresse IP permanente ; l'adresse IP est dynamique et change à chaque connexion. Il faut consulter l'annuaire en ligne chaque fois qu'on veut établir une communication.
C’est une régression nette par rapport au service de téléphone actuel. En dehors de la numérotation, nous sommes habitués en tant qu’utilisateur à des services environnant la communication téléphonique elle-même (messagerie vocale, renvoi d’appel, appels d’urgence, etc.).
Il est certain que pour atteindre un marché de masse (type seconde ligne téléphonique sur câble, par exemple), les solutions de voix sur IP devront intégrer ces services (ou un ensemble minimum de services
En résumé, la qualité de la voix atteinte aujourd’hui franchit les seuils d’acceptabilité par les utilisateurs et ouvre le champ à de nouvelles applications. L’évolution de ces marchés n’est cependant pas indépendante de la qualité des réseaux IP, qui est de manière générale insuffisante actuellement.
L’introduction des architecture permettant le support des services offerts par les réseaux téléphoniques actuels achève de poser les bases sur lesquelles se construisent les applications du futur, qui s’orientent résolument vers la valeur ajoutée en terme d’usage fournie à l’utilisateur final et aux acteurs économiques.
III. La numérotation
Une numérotation spécifique du type E.164 dans le plan national n'est pas indispensable pour un service de téléphonie sur Internet (exemple des communications PC à PC). Mais une telle numérotation peut permettre d'améliorer la qualité de service, en simplifiant la procédure d'établissement d'une communication, et en permettant de localiser la passerelle la plus proche de l'appelé.
Prenons par exemple le cas où un téléphone sur le réseau public appelle un PC sur un LAN. Chaque terminal sur le LAN aura une adresse téléphonique et une adresse IP. La passerelle se comportera comme un PABX avec une branche de numéros SDA. L'appelant composera le numéro de téléphone du PC, et grâce à ce numéro, le portier retrouvera l'adresse IP. La norme H.323 fourni des éléments de réponse concernant la numérotation dans un service de téléphonie sur Internet.
Chaque entité H.323 (terminal, passerelle, portier) doit avoir au moins une adresse réseau. Cette adresse identifie spécifiquement l'entité H.323 du réseau. Certaines entités peuvent partager une adresse de réseau. L'adresse est propre à l'environnement de réseau dans lequel le point d'extrémité est situé. Des environnements de réseaux différents peuvent avoir des formats d'adresse de réseaux différents. Un point d'extrémité peut utiliser différentes adresses de réseau pour les différentes voies participant à la même communication.
Un point d'extrémité peut aussi avoir une ou plusieurs adresses pseudonymes qui lui sont associées. Les adresses pseudonymes constituent une autre méthode d'adressage du point d'extrémité. Ces adresses recouvrent les adresses E.164 ou de type " party number " (numéro d'accès au réseau, numéro de téléphone, etc.) , les identificateurs H.323 (chaînes alphanumériques représentant des noms, des adresses de type messagerie électronique, etc.) et toutes les autres adresses définies dans la recommandation H.225.0.
Les adresses pseudonymes doivent être uniques à l'intérieur d'une zone. Les portiers ne doivent pas avoir d'adresses pseudonymes.
Lorsque le système ne comporte pas de portier, le point d'extrémité appelant doit joindre le point d'extrémité appelé directement à l'adresse de transport de la voie de signalisation d'appel de celui-ci. Dans le cas d'un système avec portier, le point d'extrémité appelant peut joindre le point d'extrémité appelé à l'adresse de transport de la voie de signalisation d'appel ou à l'adresse pseudonyme de celui-ci. Le portier doit convertir l'adresse pseudonyme en une adresse de transport de la voie de signalisation d'appel.
L'adresse E.164 du point d'extrémité appelé peut consister en un code d'accès facultatif suivi de l'adresse E164. Le code d'accès est constitué de n chiffres de 0 à 9, *, et #. Le nombre de chiffres et leur signification sont laissés à l'appréciation des constructeurs. Un tel code d'accès pourrait servir à demander à accéder à une passerelle. Le portier peut modifier cette adresse avant de l'envoyer vers sa destination.
L'identificateur H.323 consiste en une suite de caractères ISO/CEI 10646-1 comme cela est défini dans la recommandation H.225.0 Il peut s'agir d'un nom d'usager, d'un nom de messagerie électronique ou un autre identificateur. Un point d'extrémité peut avoir plusieurs adresses pseudonymes (dont plusieurs du même type) converties dans la même adresse de transport. Les adresses pseudonymes du point d'extrémité doivent être uniques à l'intérieur d'une zone.