Making of an (audio)book, partie 3 : La maquette audio

Making of an (audio)book, partie 3 : La maquette audio

Making of an (audio)book, partie 3 : La maquette audio

Dans cette triple série d’articles, Making of a bookCréer un livre électronique au format ePub3, et Making of an (audio)book, je vous propose le résultat de mes recherches, de mes essais et de mes explorations diverses et variées sur la façon de produire un livre, respectivement en format papier, en format électronique, et en format audio. Ces articles ont vocation à évoluer dans le temps, aussi n’hésitez pas à vous inscrire à la Newsletter d’écaille & de plume qui vous avertira de toute mise à jour.

Il ne suffit pas d’avoir enregistré sa voix pour publier un audiobook, tout comme il ne suffit pas d’avoir écrit un texte, aussi poignant soit-il, pour le publier tel quel. Un livre, sonore, numérique ou papier, a besoin d’une mise en page pour devenir présentable. De même, comme un livre papier et comme un livre numérique, un livre audio doit avoir une maquette, c’est-à-dire l’équivalent d’un découpage. Les différents chapitres, bien entendu, mais aussi une « page » de titre, des « pages » de crédits, etc.

Si nous continuons sur la métaphore du livre papier, il s’agira de faire attention à l’orthographe (nous allons donc vérifier votre diction, mais aussi la façon dont les mots sonnent à l’oreille), à la typographie (le style de vos paroles, qui peut changer en fonction du personnage qui va parler, du narrateur), aux signes de ponctuation (des bruitages qui vont indiquer à votre auditoire que l’on change de lieu ou d’ambiance), aux marges et aux blancs (les temps de silence, le rythme de votre élocution).

Tout cela, nous sommes habitués à le faire sur un logiciel de traitement de texte ou un studio d’écriture (comme Scrivener) pour un livre papier.

Pour un audiobook, nous allons devoir nous servir d’un éditeur de son, et apprendre beaucoup de choses inhabituelles pour des gens d’écriture.

Pourtant, fondamentalement, ce sera la même chose qu’avec un texte écrit, et nous n’aurons pas besoin de devenir des musiciens professionnels ou des ingénieurs du son pour obtenir un résultat correct, voire d’allure professionnelle, comme nous l’avons déjà fait avec les versions papier et numérique de nos textes.

Alors, donnez-moi votre main… nous commençons tout de suite !

Les outils

Je vous ai parlé des éditeurs de son un peu plus haut, et je vous ai même cité deux logiciels dans la première partie de cette série sur la fabrication d’un livre audio : Audacity et GarageBand.

On peut très bien s’en sortir avec eux, comme on peut très bien écrire un bon roman avec Word ou LibreOffice Writer.

Pourtant, comme le fait Scrivener pour l’écrit, il existe des logiciels plus puissants, au départ conçus pour créer ou arranger de la musique, mais qui sont parfaits pour traiter toutes sortes de sons… comme de la parole. J’ai ainsi découvert que GarageBand avait un grand frère, nommé Logic Pro. J’en ai fait l’essai lorsque j’ai commencé à monter la première saison des Consultations extraordinaires de Belladone Mercier, psychologue des dieux, et j’ai été convaincu. Le maniement est légèrement plus complexe, mais certains outils, comme le vocal transformer me sont devenus si indispensables, que j’ai fini par acheter une licence. Certaines astuces que je vous livrerai donc dans ce tutoriel nécessitent un tel logiciel, mais je le signalerai à chaque fois. De même, Logic Pro est disponible uniquement sur Mac ou iOS, mais il existe des équivalents sur Windows : je ne citerai que Cubase, Audition d’Adobe et Reaper, qui font référence dans le domaine.

Cependant, encore une fois, il est possible de faire du travail correct en se contentant d’Audacity ou de GarageBand.

De même, il existe des plugins, c’est-à-dire des modules additionnels, qui sont la plupart du temps vendus par des éditeurs tiers pour s’interfacer avec Logic Pro ou Audacity, afin de multiplier les possibilités. À mon avis, sauf si vous faites de la musique de façon professionnelle, vous n’avez pas besoin de casser votre tirelire pour vous les offrir. Pour réaliser un audiobook, hormis dans des projets qui demandent beaucoup de travail sur le son, mais dont je ne peux même pas imaginer un exemple, vous pourrez vous dispenser de telles dépenses et vous pourriez investir à la place dans un bon micro pour que vos enregistrements soient les plus propres possibles.

Ceci étant posé, commençons par le commencement…

La structure d’un livre audio

Reprenons notre analogie avec le livre papier.

Dans tout livre, il n’y a pas seulement le corps du texte.

Il existe aussi ce que l’on appelle les pages liminaires. Elles regroupent ces pages qui tournent autour du texte principal, mais n’en font pas partie à proprement parler. Un index, une table des matières, mais aussi la page de titre, celle de dédicace, les remerciements, voire une bibliographie ou une page de présentation de l’auteur ou de l’autrice sont des pages liminaires.

Dans un livre papier, la convention veut que chaque page liminaire (chaque type de page liminaire pour être plus précis) soit traitée comme un chapitre à part entière dans le flux du livre, c’est-à-dire dans la présentation et l’ordre des pages.

Ainsi, toujours dans un livre papier, comme nous l’avons vu dans l’article À livre ouvert, chaque page liminaire doit commencer sur une page de droite du livre, et doit suivre un ordre précis. Typiquement : page de garde, page de faux-titre, page de titre, colophon, dédicace, table des matières, bibliographie de l’auteur ou de l’autrice. Puis le corps du texte lui-même, dans lequel chaque partie, comme chaque chapitre, commence sur une page de droite. On a parfois même des pages post-liminaires, comme une présentation de l’auteur ou de l’autrice, des remerciements, etc.

Le même principe se transpose dans un livre audio avec une base simple :

Chaque partie importante est un fichier audio séparé.

Sauf… si vous créez un fichier M4B. Mais nous en parlerons plus tard

Ainsi, dans l’ordre, on devra trouver plusieurs fichiers, que vous regrouperez dans un même dossier et que vous aurez soin de numéroter pour en garder l’ordre de lecture :

  • Les crédits d’ouverture, c’est-à-dire le titre du livre, le nom de l’auteur ou de l’autrice (en toute logique : vous-même) et le nom de narrateur ou de la narratrice (là encore, vous-même) ainsi que des autres personnes qui interviennent dans la lecture, si vous avez fait ce choix-là à la conception de votre audiobook.
  • La dédicace, si vous en avez une.
  • L’avant-propos ou la préface, si elles existent.
  • Chaque chapitre.
  • Les remerciements éventuels.
  • La postface éventuelle.
  • Tout ce qui est appendices, notes, etc. doit faire l’objet de fichiers séparés, placés ensuite.
  • Enfin, les crédits de clôture, qui permettent de bien comprendre que la narration est terminée, et peuvent contenir les crédits des personnes qui ont contribué au livre, les crédits des sons additionnels, des images de la couverture, ou d’autres choses encore que vous auriez mis dans le texte éditorial du livre.

Par convention, chaque fichier ne doit pas avoir une durée plus longue que 120 minutes. Si vous avez des chapitres si longs qu’ils dépassent cette durée de lecture, alors il est conseillé de les scinder en plusieurs parties, à des endroits qui ne gênent pas la compréhension (entre deux paragraphes, mais pas en plein milieu d’une action non plus), en indiquant dans le nom du fichier de quelle partie du chapitre il s’agit.

De même, chaque fichier commence par une indication verbale de son statut et de son titre éventuel. Par exemple, au début du premier chapitre, vous devrez insérer une indication vocale du genre « Chapitre un, Le mystère de l’audiobook », ou simplement « Chapitre un » si vos chapitres n’ont pas de titre. Les remerciements commenceront de même par « Remerciements ».

Enfin, par convention également, chaque fichier, avant même la première voix, le premier son, commence par un « bruit de fond silencieux » de la pièce dans laquelle vous enregistrez, d’environ 0,5 à 1 seconde. Chaque fichier se termine par 3 à 5 secondes de ce même bruit de fond.

Concrètement, pour l’audiobook de Poker d’Étoiles, le dossier informatique contient les fichiers suivants (notez l’importance du 0 des dizaines pour les neuf premiers chapitres, ils sont là pour vous assurer que l’appareil qui va lire les chapitres ne se trompe pas dans l’ordre de lecture ; et si vous avez plus de 99 chapitres, n’hésitez pas à faire la même chose pour les centaines et donc de numéroter votre premier fichier 001) :

01— Crédits d’ouverture.mp 3

02-Dédicace.mp 3

03-Les cartes.mp 3 (le titre de mon premier chapitre)

04-Premier Jeu.mp 3

05-Deuxième Jeu.mp 3

06-Troisième Jeu.mp 3

07-Coupe.mp 3

08-Quatrième Jeu.mp 3

09-Cinquième Jeu.mp 3

10-Sixième Jeu.mp 3

11-Septième Jeu.mp 3

12-Huitième Jeu.mp 3

13-Neuvième Jeu.mp 3

14-Dixième Jeu.mp 3

15-Onzième Jeu.mp 3

16-Douzième Jeu.mp 3

17-Remerciements.mp 3

18-Crédits de fermeture.mp 3

De même, chaque fichier ressemble à cela :

Nettoyer la voix

Tout comme nous vérifions toujours que notre texte ne soit pas encombré de fautes de frappe, de coquilles ou autres fautes disgracieuses, nous devons nous assurer que la voix que nous avons enregistrée soit « propre », c’est-à-dire sans bruit de fond, sans parasite, bien intelligible.

Cela demande, dans le logiciel d’édition audio, de lire le fichier, de couper la partie gênante, puis de recoller les morceaux restants pour « effacer » la faute comme pour un texte avec la touche ou la touche . Et de recommencer à chaque fois que l’on repère une coquille sonore.

C’est fastidieux, comme dirait le Merlin de Kaamelott.

Mais cela garantit une certaine qualité à notre ouvrage audio.

Pourtant, cela peut ne pas suffire.

En effet, si vous n’avez pas pu suivre tous mes conseils d’enregistrement (et même si vous les avez suivis, il se peut toujours que des accidents se soient produits, qui vous aient échappé sur le moment), votre voix est peut-être parasitée par un bruit de fond constant et très ennuyeux. Là, pas moyen de couper/coller car le bruit se superpose à votre voix, sans interruption.

Dans ce cas, vous avez trois solutions :

  • Recommencer l’enregistrement de cette partie-là. C’est le plus sûr, mais attention, c’est assez risqué, car il y a de fortes chances pour que la différence de prise sonore entre votre « original » et cette « rustine » s’entende beaucoup ensuite, en donnant une impression désagréable. En effet, les conditions seront forcément différentes de votre première prise (le micro peut être placé un poil plus près ou plus loin, le temps au-dehors pas le même, etc., etc.
  • Recommencer l’enregistrement de tout le chapitre pour garder une unité sonore. Outre que cela peut être long si vous avez un chapitre d’une heure et demie, c’est un peu rageant de devoir tout recommencer pour seulement deux minutes où on entend cet avion dans le ciel alors que vous installez une ambiance médiévale…
  • Vous servir des outils d’I.A. analytique (et attention c’est très différent d’une I.A. générative, qui, de mon point de vue, n’est pas éthique, mais nous en discuterons une autre fois) pour analyser le passage en question et le débarrasser par traitement informatique des fréquences spécifiques du bruit parasite. L’inconvénient est surtout financier, car tous ces programmes sont payants à des degrés divers.

Il existe plusieurs outils de ce type. J’ai pour ma part opté pour lalala.ia lorsque j’ai dû nettoyer des voix enregistrées pour ma podfiction Les consultations extraordinaires de Belladone Mercier, psychologue des dieux. J’ai décidé d’utiliser l’I.A. dans ce cas-là, car la voix était celle d’un comédien, parasitée par un écho qui montrait tout de suite que l’enregistrement avait eu lieu dans un autre espace, et que je ne pouvais pas le faire tourner à nouveau. Si le problème avait été localisé sur ma propre voix, j’aurais plutôt opté pour un enregistrement en rustine. Mais chaque problème est unique, et il vous sera peut-être impossible de vous passer de l’I.A. Dans ce cas, je ne saurais trop vous conseiller de bien choisir le service que vous utiliserez, afin de garder les droits sur votre fichier audio et de vérifier qu’il ne sera pas utilisé autrement que pour l’apprentissage de l’I.A.

Les Styles de texte en audio

Bon, vous avez vos fichiers, ils sont tous nommés comme il faut, ils ont tous une seconde de silence au début et trois à la fin, ils commencent tous par une annonce vocale de leur statut et de leur titre… mais si vous pensez que c’est déjà fini… vous allez être déçus. Car le principal n’a pas encore commencé.

De la même façon que nous avons appris à nous servir des Styles de texte dans la mise en page papier et dans la mise en page numérique, nous allons devoir apprendre à créer des Styles de voix pour la version audio.

Pour bien comprendre ce concept, je vous propose de tenter de définir ce qu’est un Style de texte et à quoi il sert, en réalité.

De mon point de vue, un Style de texte a pour principal rôle de donner une indication métatextuelle au lecteur, lui permettant de comprendre très rapidement qu’une rupture de lieu, d’action, de temps ou de personnage vient d’avoir lieu, et d’identifier précisément à quoi cette rupture se rapporte.

C’est une partie des conventions qui régissent la compréhension de la façon de raconter l’histoire, une convention de narration, donc, au même titre que la typographie dont elle peut se servir, mais qui ne lui est pas confondue. Car on peut utiliser une typographie seule, sous forme de symboles, comme le fait Alain Damasio dans La Horde du contrevent et dans Les furtifs pour signifier un personnage ou un concept, sans forcément user d’un Style de texte à proprement parler. Les tirets cadratins ou semi cadratins (les — ou les —), associés aux guillemets, que l’on inscrit au début des répliques des personnages dans les dialogues, servent justement à déterminer que :

  1. Nous sommes dans un dialogue
  2. Un nouveau personnage commence à prendre la parole.

Mais ces deux codes, car il s’agit bien de cela, participent de la même grammaire narrative.

Cette grammaire doit donc être transposée à l’écoute pour que l’histoire puisse se dérouler en toute compréhension, et que l’expérience de l’auditoire soit au moins aussi agréable que celle du lectorat. Même si ces deux expériences seront différentes.

La création des Styles de voix aura donc pour objectifs de :

  • Poser l’ambiance
  • Différencier les personnages
  • Différencier les lieux
  • Différencier les temps de la narration (un flashback, un flashforward)

Pour y parvenir, je vous propose de suivre quelques règles simples, sur lesquelles vous allez ensuite laisser libre cours à votre sensibilité artistique et aux choix qui, selon vous, serviront le mieux votre projet.

À chaque voix sa piste

Un roman, ou tout autre texte de fiction, font presque toujours intervenir plusieurs personnages. Que vous ayez choisi d’interpréter avec votre seule voix chacun de ces protagonistes, ou que vous ayez demandé à des comédiens et des comédiennes de vous prêter voix forte, il est nécessaire de différencier chaque personnage pour l’auditoire. Vous l’avez peut-être fait en variant légèrement votre accent, par des différences subtiles, mais vous aurez probablement besoin d’accentuer ces légers réglages. Et pour cela, le plus simple est de vous constituer un ensemble de pistes vocales.

Chaque voix, au sens large, devra avoir sa piste dans le logiciel de montage audio.

Lorsque je dis « au sens large », je fais référence aussi à la voix du ou des narrateurs.

Par exemple, voici ce que cela donne pour le quatrième chapitre de Poker d’Étoiles :

  • La piste des musiques éventuelles
  • La piste des jingles sonores
  • La piste du texte éditorial (titre du chapitre)
  • La piste du narrateur, Sean, qui raconte l’histoire
  • La piste des dialogues de Sean dans l’action
  • La piste du personnage d’Eddy dans l’action
  • La piste du personnage de Dom dans l’action
  • La piste du personnage de Démosthène dans l’action

Les captures d’écran qui suivent vous montrent également la façon dont j’ai découpé l’enregistrement pour que chaque voix prenne sa place sur la piste qui lui est dédiée. Vous remarquerez également que je fais se chevaucher les voix, pour éviter qu’il y ait un « vide », c’est-à-dire un silence sans l’ambiance de la pièce. C’est un principe de montage sonore que je vous conseille d’adopter, car il évite de sortir l’auditoire de l’ambiance particulière de la scène.

De plus, j’ai fait parfois en sorte de rapprocher les interventions de personnages qui se répondent lorsqu’ils s’interrompent les uns les autres, ou dans une discussion animée.

La variation du rythme de la voix, mais aussi des interventions de chaque protagoniste, est une astuce très puissante pour installer une atmosphère. Si vous avez suivi mes conseils lors de l’enregistrement, vous avez bien fait attention à ne pas parler trop vite, à ne pas vous précipiter, mais également à habiter votre texte, pour le rendre plus vivant. Normalement, cela a dû créer un rythme naturel dans la narration, un rythme qu’il vous faudra respecter le plus possible au montage. Veillez cependant à ne pas trop accélérer le rythme ni à trop l’étirer. Dans le premier cas, vous pourriez surcharger votre auditoire d’informations qu’il n’aurait pas le temps d’intégrer, et, dans le deuxième, vous pourriez l’ennuyer. Trouver le bon rythme de narration est une affaire d’habitude, d’expérience. N’hésitez pas à réécouter plusieurs fois pour vous faire une idée, et même, si vous voulez mon secret ultime, essayez de le faire en fermant les yeux, pour vous concentrer uniquement sur ce que vous écoutez. Vous verrez que, rapidement, vous sentirez si le rythme est bon ou s’il faut le changer légèrement.

À chaque voix ses effets

Pourquoi séparer les voix des différents protagonistes dans des pistes différentes ?

Parce que cela sera plus facile ensuite pour leur assigner des effets sonores distincts.

Si nous reprenons l’exemple du quatrième chapitre de Poker d’Étoiles, mon premier roman, il fait intervenir un personnage, Démosthène, qui est une Intelligence Artificielle. Une véritable I.A., pas les algorithmes idiots qu’on nous vend actuellement comme étant « intelligents » alors qu’ils ne sont que statistiques. Non, une véritable I.A., consciente d’elle-même et des autres. Cette I.A. pourrait avoir une voix légèrement synthétique, si j’en avais fait le choix. Et dans ce cas, il aurait été simple d’assigner à la piste sonore qui lui est dévolue un effet de synthèse vocale, déformant ma voix, déjà un peu changée par le ton que j’ai pris à l’enregistrement pour incarner ce personnage en particulier. Il se trouve que je n’ai pas fait ce choix-là, et que j’ai préféré garder à Démosthène une voix humaine, certes avec un ton un peu pompeux et sentencieux, rappelant le Higgins de la série Magnum PI, avec Tom Selleck, qui était joué par l’inimitable John Hillerman. J’ai préféré utiliser dans ce cas un EQ ou Égaliseur en bon français, dont nous parlerons juste après.

Pourtant, d’autres effets peuvent parfois être utiles pour caractériser une voix différente, et nous les verrons dans un autre article, tout comme nous pourrons aussi détailler comment les paramétrer techniquement parlant. Ce qui suit n’est que la philosophie générale de leur utilisation.

Retenez pour l’instant que chaque personnage doit avoir sa propre voix, donc sa propre piste, pour posséder ses propres réglages sonores, dont font partie les effets sonores.

Spectre des fréquences de l'égaliseur, voix du personnage Démosthène dans Poker d’Étoiles

À chaque voix son spectre de fréquences

Parmi ces effets sonores, le plus utile est ce fameux Égaliseur (ou EQ en anglais).

Pour comprendre ce qu’est un Égaliseur, il nous faut faire un tout petit peu de théorie du son. Rassurez-vous, ce sera simple, et cela nous servira aussi pour comprendre d’autres étapes essentielles de la production, comme les effets globaux, le mixage, et quelques notions sur le mastering.

Les caractéristiques de l’onde sonore

Ce que nous appelons un son est l’effet du déplacement des molécules de l’air selon une onde dont le point d’origine est ce que nous pourrons convenir de nommer un émetteur. Ce déplacement de molécules a un effet physique inéluctable : il vient immanquablement frapper une membrane chez tous les animaux qui en sont pourvus, le tympan, dont la vibration sous l’impact informe un nerf dit auditif, lui-même produisant en réponse un signal électrique qui est interprété par le cerveau.

Lorsque nous entendons un son, c’est donc que notre cerveau a traduit la réponse électrique de la vibration de notre tympan sous l’effet de l’onde sonore.

Comme tout phénomène ondulatoire, un son possède deux caractéristiques essentielles : une intensité et une fréquence.

L’intensité est la notion la plus complexe à comprendre, car sa mesure peut se faire de différentes manières, qui pourtant sont toutes notées avec la même échelle, le décibel (dB). Je vais simplifier à l’extrême (et il est possible d’aller plus loin en lisant deux ou trois choses ici, , ou encore par là) en disant que l’intensité est la mesure de la puissance du son qui parvient à nos oreilles. Cette intensité est en gros la hauteur qu’atteint la crête de l’onde sonore, la quantité de matière aérienne que l’onde est capable de déplacer. On comprend vite que plus l’onde est puissante, plus elle déplace de matière, plus son pic sera haut, et plus sa mesure en dB sera forte (donc plus son impact sur notre tympan sera puissant, plus le niveau sonore sera élevé). Ainsi, cette intensité est plutôt une puissance. Il est aussi important de savoir que plus la source du son est éloignée, plus l’onde s’atténue (comme dans une étendue d’eau) et plus son intensité sera atténuée, d’un facteur non pas linéaire, mais logarithmique (c’est-à-dire que l’atténuation d’un son de 3 dB équivaut à une division de son intensité par 2). Et si vous vous demandez pourquoi nous parlerons ensuite presque toujours de dB négatifs, c’est parce que, contrairement à l’échelle des décibels comme bruit (où le plus petit son perçu par l’oreille humaine est noté 0 dB et un avion 130 dB), les professionnels du son travaillent avec des mesures d’atténuation, où le 0 dB équivaut à un son non atténué, et un son de -3 dB est un son dont l’intensité est divisée par 2, comme un son de -6 dB a une intensité/puissance divisée par 4.

Quant à la fréquence, il s’agit du nombre de fois que les crêtes et les creux de l’onde se répètent par seconde (et cela se mesure en Hertz ou Hz). Une fréquence de 6 000 Hz équivaut donc à une onde dont les crêtes se propagent à la fréquence de 6 000 fois par seconde. La fréquence mesure donc aussi ce que l’on appelle la longueur d’onde et une autre façon de la représenter pour bien comprendre son rôle dans notre montage d’audiobook (parce que c’est bien pour cela que nous allons l’utiliser) est de la définir comme le nombre de fois en une seconde que l’onde sonore va venir frapper notre tympan. Si la fréquence est élevée, le son sera aigu. Si la fréquence est basse, le son sera grave.

Les fréquences audibles par l’oreille humaine

Parce que oui, notre ouïe n’est pas sensible à toutes les fréquences sonores (j’ai essayé de la faire avec un « non », mais ça marchait moins bien). En gros, et en moyenne, un être humain peut percevoir les sons dans une gamme de fréquences allant de 20 Hz à 20 000 Hz, ce qui nous fait tout de même une grande diversité. En dessous, on parle d’infra-sons, au-dessus, d’ultra-sons.

Il faut cependant savoir que notre oreille est la plus sensible aux fréquences comprises entre 2 000 Hz et 5 000 Hz.

L’égaliseur & le spectre de fréquences

La voix d’une personne est composée de sons divers (les syllabes qui forment les mots) émis selon des fréquences qui varient légèrement d’un individu à l’autre. On parle de timbre de la voix pour désigner toutes les petites particularités d’une voix singulière. On parle de tessiture en chant pour catégoriser la plage de fréquence qui est la plus naturelle à une personne donnée. Par exemple, les voix qui sont plus naturellement graves sont dites des voix de baryton.

C’est que chaque voix a un spectre de fréquences qui représente la répartition des fréquences et leur volume sonore, leur intensité, dans la production des sons. En ce sens, on peut presque superposer le spectre et le timbre d’une voix.

Et c’est là que cela devient important pour notre travail de styles vocaux : si vous voulez différencier les voix de vos personnages, y compris si vous les interprétez toutes vous-mêmes, il peut être utile de légèrement modifier leur spectre de fréquences… en vous servant d’un égaliseur !

Cet effet sonore a le pouvoir de modifier l’intensité du signal émis sur une fréquence ou une plage de fréquences données, et donc d’altérer la perception d’une voix enregistrée. Votre voix pourra paraître plus aiguë ou plus grave, ou vous pourrez gommer certaines fréquences, en accentuer d’autres… jusqu’à parfois complètement dénaturer le matériau de départ, c’est-à-dire votre propre voix.

Si vous couplez une utilisation subtile mais systématique de l’égaliseur avec une interprétation solide de vos personnages (en variant un peu la façon dont ils parlent lors de l’enregistrement), vous obtiendrez des résultats qui pourront être surprenants. Mais le mot important ici est subtile. Vous verrez, si vous jouez avec les réglages, qu’un égaliseur peut renforcer l’impression que vous voulez que la voix dégage, ou la ruiner totalement. Il vous faut donc agir de manière prudente, mais ne pas hésiter à faire des essais. Les logiciels d’édition audio permettent tous d’appliquer des réglages de façon non destructive, et vous pourrez donc revenir en arrière facilement.

Cerise sur le gâteau, la plupart des logiciels d’édition audio possèdent aussi des presets ou réglages prédéterminés qui appliquent des courbes de spectres de fréquences conçues pour divers effets. Par exemple, un effet de « conversation téléphonique » est souvent obtenu avec un spectre de fréquence dit « compressé », qui éteint les basses fréquences et éteint également les hautes fréquences de la voix.

Pourtant, je vous conseille de trouver le réglage qui ira le mieux à votre propre voix de narrateur ou narratrice, en fonction des caractéristiques que vous voudrez lui donner. Une bonne base est de partir de presets, mais de les modifier. Dans mon cas, je voulais accentuer un peu l’effet « enveloppant » de ma voix, privilégier les graves, et cette courbe donne ceci.

Comparons-la à celle que j’ai choisie pour caractériser Eddy dans Poker d’Étoiles, et vous verrez que, alors même que j’ai dit ses répliques avec une voix légèrement plus aiguë et enjouée, il m’a fallu travailler les fréquences différemment pour obtenir ce que je cherchais.

Bref, vous le comprenez, c’est un domaine où votre créativité va pouvoir s’exprimer pleinement.

Et, si vous voulez mon avis, cela force également à se poser les bonnes questions sur vos personnages, car les interpréter va vous les faire réellement voir sous un angle plus concret.

Les effets de Space Design

J’utilise à dessein (dessin ?) l’expression anglaise, car je la trouve plus parlante que son équivalent français de « conception d’espace ». Ces effets sonores sont très utiles, car ils permettent de donner l’illusion d’un lieu particulier. Cela peut être une caverne, un vaisseau spatial, une chambre à coucher ou une salle de concert. Tous ces lieux ont en commun deux caractéristiques paramétrables :

Une réverbération (effet reverb en anglais), c’est-à-dire une façon de simuler le rebond des ondes sonores sur les parois du lieu (un écho, si vous préférez).

Un délai (effet delay dans la langue de Shakespeare), c’est-à-dire le temps de latence de ce rebond sonore.

Grâce à eux, vous serez en mesure de suggérer un changement d’espace ou de temps dans votre narration, voire une asymétrie (un de vos personnages est dans un lieu, tandis qu’un autre est ailleurs).

Nous verrons dans le chapitre sur le mixage comment concrètement s’en servir.

Les marques de rupture de séquence

Comme nous l’avons dit au début, chaque chapitre doit posséder son propre espace, donc son propre fichier son.

Mais dans certains ouvrages, il existe des subdivisions dans chaque chapitre. Faute de mieux, et parce que je suis familier du vocabulaire du cinéma, je nomme ces divisions des séquences.

En littérature, la convention est de marquer ces divisions par un signe typographique appelé un astérisme, noté ⁂, c’est-à-dire trois astérisques placés en triangle. On peut également trouver d’autres signes avec la même signification. Pour Poker d’Étoiles, j’ai utilisé un symbole de carte à jouer, à savoir un as de pique.

Mais dans un audiobook, il faut trouver autre chose.

Pourquoi pas un jingle sonore ? Toujours le même, pour que votre auditoire comprenne vite la convention que vous lui proposez.

Les petits fichiers modèles

Me pardonnerez-vous ce jeu de mots faisant référence à une autrice française célèbre du XIXe siècle ?

Quelle que soit votre réponse, cela pourra peut-être vous permettre de gagner du temps.

Car, vous l’aurez compris, maintenant que vous avez vos pistes et vos réglages sonores en tête, vous allez devoir les répéter à chaque fichier que va comprendre votre audiobook. Cela peut se faire facilement et rapidement si votre livre comporte quinze ou vingt chapitres avec quatre ou cinq pages liminaires, mais ce sera beaucoup plus long et fastidieux s’il compte cent chapitres et dix pages liminaires !

Je vous conseille donc de construire un fichier modèle (ou template ou encore layout en anglais) qui vous servira de base pour tous les chapitres de votre livre audio. Que votre logiciel de montage (comme c’est le cas pour Logic Pro) vous le permette facilement ou non (comme c’est hélas le cas pour GarageBand), un fichier modèle que vous n’aurez qu’à copier-coller en changeant simplement son titre sera un gain de temps appréciable.

Il devra comporter les pistes dont vous aurez toujours besoin (musique, bruitages, une piste par personnage principal du livre, une ou deux pistes pour les personnages silhouettes, c’est-à-dire les figurants), avec pour chacune d’entre elles les réglages que vous aurez décidés (effets sonores, égaliseurs, etc.).

Je vous livre dans l’image suivante la capture d’écran de mon propre fichier modèle pour l’audiobook de Poker d’Étoiles, mon premier roman. Vous pourrez constater que j’ai même reproduit les tranches de console de mixage (que nous verrons plus tard) avec leurs réglages de base.

Construisez-vous donc un fichier modèle pour chaque projet de livre audio, et ce, dès le début de votre enregistrement si vous le pouvez.

Le rythme

Je l’ai déjà évoqué plus haut, le rythme de votre narration est essentiel. Il doit être pensé pour servir au mieux votre projet, et notamment pour rendre au mieux l’ambiance de chaque scène, voire de chaque séquence, ou de chaque plan. Vous pouvez vous référer à ce que j’en disais dans l’article de cette série dédié à l’enregistrement, mais je vais reprendre quelques éléments ici, car le montage est une sorte de recréation de votre audio.

En effet, il est fort probable que vous ayez fait des pauses un peu plus longues que nécessaire à chaque fois que vous avez changé un peu votre voix dans un dialogue entre plusieurs personnages, le temps de changer votre voix pour l’adapter à chaque protagoniste. De mon côté, j’ai même poussé le vice jusqu’à couper l’enregistrement entre chaque réplique de personnages différents, afin de me mettre quelques secondes dans la peau de chacun d’entre eux.

Le résultat en est souvent que des temps de silence inopportuns se sont glissés dans votre enregistrement brut (nous appellerons cela des rushes, comme au cinéma).

Vous devrez donc, lors du montage, non seulement dispatcher des bouts d’enregistrement entre les différentes pistes selon leur appartenance à l’un ou l’autre des protagonistes du récit, mais aussi revoir un peu le rythme de l’enchaînement des répliques ou des blocs de paragraphes.

Par exemple, il se peut qu’un personnage en interrompe un autre. Comme il est peu probable que vous ayez pu le jouer réellement lors de l’enregistrement, vous devrez le recréer lors du montage.

Bref, vous allez devoir réécouter tous vos rushes, et reconstituer le texte. C’est, de mon point de vue, l’une des étapes les plus satisfaisantes, car vous allez voir l’histoire se dérouler sous vos yeux, et vous allez pouvoir la sculpter.

Les bruitages

Vous pourrez d’ailleurs, si cela vous paraît judicieux, enrichir cette histoire et votre narration avec des bruitages.

J’ai déjà parlé des jingles sonores qui serviront d’astérisme pour marquer les changements de séquence à l’intérieur des chapitres.

Mais il est aussi possible de souligner certains passages de votre fiction avec des bruitages qui auront un rôle plus narratif que typographique.

Mon avis là-dessus est cependant assez prudent. Un livre audio n’est pas un podcast. Généralement, il n’a pas été pensé dès l’écriture pour le format audio, et la preuve en est qu’il est plus probable que vous en soyez la seule voix. De même, le texte sera littéraire, pas théâtral ou cinématographique. Il y aura certainement beaucoup de passages « contés » par un narrateur, et beaucoup moins de dialogues que dans une podfiction. Les bruitages ont donc moins leur place, car ils seront comme intégrés aux mots eux-mêmes, et ils feraient double emploi si vous les rajoutiez. Ils pourraient même noyer votre texte et sa beauté dans une forme de surenchère inutile, voire contre-productive.

D’un autre côté, il serait dommage de vous priver des avantages que le média audio pourrait apporter à l’immersion de votre auditoire dans votre histoire. Peut-être que certains bruitages, bien dosés, placés à des endroits stratégiques, pourraient bénéficier à votre texte. Vous en serez seuls juges.

Mais je vous engage vraiment à réfléchir à chaque bruitage, à son utilité, à ce qu’il va produire comme effet, et à être conscients de ce que cela va entraîner comme distorsion dans la réception de votre texte. Car, encore une fois, nous sommes dans le cadre d’un livre audio, donc de la lecture d’une histoire écrite au départ pour être lue silencieusement, pas forcément « dite ».

La musique

C’est un peu la même chose pour la musique.

Si l’on peut facilement imaginer une sorte de mini-générique pour introduire chaque chapitre (comme un « gros » astérisme), il est plus délicat d’insérer des nappes sonores musicales à l’intérieur même de la narration.

Sauf.

Sauf si, par exemple, la scène décrite est censée se dérouler dans une ambiance musicale et que vous puissiez insérer ladite ambiance dans le montage, c’est-à-dire que vous en possédiez à la fois le fichier son et les droits de reproduction. Mais il faut absolument, je crois, éviter là encore de surcharger votre texte. C’est-à-dire que, si les mots lus décrivent déjà la musique en détail, au lieu de simplement nommer le morceau, il me semble contre-productif de plaquer par-dessus la musique elle-même. D’abord parce que vous allez introduire une confusion dans l’esprit de votre auditoire, qui ne va pas pouvoir se concentrer à la fois sur la musique et sur vos mots décrivant la musique (car, doit-on le rappeler, le cerveau humain, même celui des femmes, est incapable de faire correctement deux choses en même temps). Ensuite, parce que ce que votre texte va dire de la musique est votre propre interprétation de ressentis lors de l’écoute, et que ladite écoute pourrait très bien ne pas du tout évoquer les mêmes choses à votre auditoire. Dans ce cas, vous allez sortir votre auditoire de l’histoire, le sortir en tous les cas de la transe hypnotique consentie, du pacte de lecture noué entre vous, qui implique que votre lectorat accepte ce que vous lui suggérez. La dissonance (mot bien choisi) entre votre interprétation par les mots et ce que le cerveau de votre auditoire va interpréter de la musique elle-même va totalement détacher votre public de ce que vous voudriez lui faire ressentir.

Il est donc, je crois, très délicat d’utiliser de la musique dans ce cas.

Sauf si cela est mûrement pensé et réfléchi.

Après tout, en art, les règles sont faites pour être brisées.

Le tout est de le faire en connaissance de cause et donc en pleine conscience.

L’ours

Il ne s’agit pas d’aller chasser un plantigrade qui aurait mauvais caractère.

Un ours est le nom que l’on donne au cinéma au premier montage, brut, des images tournées, avant l’application des effets spéciaux, des ajustements de couleur, etc.

C’est l’histoire racontée sans raffinements, sans les artifices.

Pour un livre audio, c’est votre voix, brute, avec peut-être simplement les effets les plus simples.

Mais ce n’est pas encore une histoire « publiable », parce qu’elle n’a pas encore totalement été mise en page.

Vous allez pour cela devoir encore passer deux étapes, dont la plus importante est le mixage, qui va s’assurer que les différents morceaux s’harmonisent correctement les uns avec les autres sur le plan sonore.

Le mixage

L’étape du mixage consiste à s’assurer que les sons ne vont pas agresser votre auditoire (rien ne sera trop fort), ne vont pas non plus l’empêcher de faire le voyage avec vous lors de la narration (rien ne sera trop faible pour être entendu et compris), et ne vont pas se « marcher sur les pieds » (rien ne gênera la compréhension d’autre chose). Bref, que tout sera correctement agencé en un tout harmonieux.

C’est un processus un peu technique et relativement complexe, mais je vais tâcher de vous indiquer ce que j’en ai retenu, ainsi que mes propres « recettes », tout en précisant que je ne suis pas ingénieur du son, et que, bien entendu, je n’ai pas les compétences qui permettraient de me considérer comme une référence dans le domaine. C’est donc bien plus un petit mémo à mon attention personnelle, que je partage avec vous parce que c’est en fait le but premier de ce site depuis sa création : être un peu mon « carnet de notes de voyage personnel, mais partagé » dans mes pérégrinations artistiques.

Mais commençons par quelques petites notions d’acoustique (rien de plus complexe que ce que nous avons vu précédemment, je vous rassure).

Les pics et les crêtes

Lorsque vous regardez la forme des ondes de votre enregistrement, vous voyez bien que les oscillations ont des intensités différentes (des pics, qui sont plutôt dénommés « crêtes » en mixage audio, peut-être en référence à celles des punks ? Non, je ne pense pas). Vous remarquerez que certaines pistes ont des crêtes plus hautes que les autres, au point qu’elles se rapprochent peut-être dangereusement du « zéro » dB et qu’elles entrent dans la zone rouge de l’oscilloscope.

Cette zone rouge correspond à une sensation désagréable de « saturation » du son, et bien mixer votre enregistrement va surtout consister en premier à éviter d’atteindre cette zone rouge.

La première des choses à faire est donc de jouer dans la table de mixage (appelée avec la touche X de votre clavier dans Logic Pro), sur les potentiomètres des différentes pistes pour régler leurs niveaux sonores respectifs, afin d’éviter la zone rouge, ou mieux, de rester dans la zone verte, qui correspond à un traitement acceptable du signal.

De la même façon, vous allez devoir régler le niveau de chacune des pistes afin d’obtenir une harmonie dans les différentes voix, et d’obtenir les focalisations d’attention voulues de la part de votre auditoire. Par exemple, si une voix doit être plus lointaine que les autres, ou une autre plus présente, ou si vous désirez mettre l’emphase sur un moment en particulier, c’est là qu’il faut commencer à le faire (même si, bien entendu, vous avez pu déjà prévoir cela à l’enregistrement).

Le niveau moyen

Pour calculer le niveau sonore moyen de votre mix (votre mélange de sons), on peut utiliser un concept appelé RMS pour Root Mean Square (ou racine carrée moyenne), qui mesure l’intensité sonore moyenne sur un intervalle de 300 millisecondes.

Certains logiciels n’offrent pas cette mesure, mais utilisent la LUFS (ou Loudness Unit Full Scale), qui mesure plutôt l’intensité sonore perçue par l’auditoire, de façon globale, mais instantanée. La différence est donc subtile entre le niveau des crêtes (on peut avoir un niveau sonore moyen faible avec parfois des pics d’intensité sonore très forts) et le niveau moyen, et d’un autre côté, la perception d’intensité sonore.

Le seuil de bruit

C’est le seuil à partir duquel on entend quelque chose dans le « silence » de votre pièce d’enregistrement. Car le silence n’existe jamais vraiment dans une pièce normale. Et il peut y avoir eu des bruits « parasites » enregistrés avec votre voix.

Grouper les pistes par Bus

Alors non, il n’est pas question d’envoyer vos pistes audio faire un voyage en autocar…

Un bus est une tranche de la console de mixage qui regroupe d’autres tranches (donc d’autres pistes) afin de leur appliquer certains réglages en une seule fois (des effets, des modulations, etc.).

  • Les voix dans le Bus 1, que l’on peut renommer « Voix ».
  • Les effets sonores et bruitages dans le Bus 2, intitulé « Bruitages » (je suis d’une originalité folle, vous ne trouvez pas ?).
  • Les musiques dans le Bus 3, que l’on nommera… « Musique ».

Il sera intéressant de faire sortir ces trois Bus vers un quatrième (Bus 4, donc), nommé « Sub-Mix », lui-même branché sur la sortie finale (« Output Stereo » dans mon cas).

Ensuite, il peut être utile de créer des Bus d’entrée depuis chaque piste de voix. Un Bus 5 pour les effets de Reverb, un Bus 6 pour les effets de Delay. Tous les deux iront en sortie vers le Bus 4, le « Sub-Mix ».

Pourquoi créer des bus ?

Parce qu’il vous sera plus simple de faire certains réglages une fois pour toutes les pistes d’une même catégorie, comme de monter le niveau de toutes les voix par rapport à celui des bruitages.

Une fois que c’est fait, vous devriez également avoir une meilleure vision de l’organisation de votre mixage. Pour vous en montrer un exemple, j’ai décidé, dans la version audio de Poker d’Étoiles, d’appliquer une ambiance d’écho particulière lorsque mes personnages évoluent dans ce que j’ai nommé « la Toile », une sorte d’internet interstellaire. J’ai donc regroupé les voix des personnages lors des moments de l’histoire où ils s’y rendent dans un bus dédié, ce qui m’a permis de régler finement le niveau sonore une fois l’effet de Space Design appliqué.

D’ailleurs, dans Logic Pro, j’ai réglé le niveau du potentiomètre rond du bus de Space Design pour déterminer l’intensité de cet effet afin de créer une Toile qui me satisfasse.

Tout cela vous permet de réellement construire un ensemble cohérent avec le minimum de réglages nécessaires.

Les tranches et les effets sonores

Puis, piste par piste, vous pouvez commencer à appliquer quelques autres paramètres pour améliorer la qualité sonore de chacune. Vous remarquerez que chaque piste possède des emplacements, disposés de façon verticale, pour accueillir des effets sonores variés.

Il est important de comprendre que ces emplacements fonctionnent comme une chaîne de traitements appliqués au signal de la piste. Et donc, que leur ordre est fondamental, puisque le premier de la liste sera appliqué en… premier, et que le deuxième sera appliqué sur le résultat qui sortira de ce premier effet. Il n’y aura donc pas le même résultat si vous appliquez d’abord un effet de gain, puis un effet de noise gate, ou au contraire, d’abord l’effet de noise gate puis seulement celui de gain.

Gain

Pour schématiser, le gain est le volume du signal d’une source sonore à l’entrée d’un circuit de traitement du son. Il est très différent du volume simple, qui est le niveau sonore à la sortie.

Si c’est l’effet sonore que je vous recommande d’utiliser en premier, c’est bien qu’il permet d’amplifier le signal de chacune des pistes de voix de manière à avoir de la matière pour les autres effets ensuite. Et bien évidemment, je ne vous conseille d’appliquer cet effet que sur les voix. En général, la musique et les bruitages sont enregistrés de façon calibrée et avec un gain naturel assez conséquent. De plus, vous voudrez plutôt amplifier les voix, puisque ce sont elles qui sont fondamentales dans un livre audio, non ?

Mon réglage personnel est d’appliquer un gain de +2 dB sur chaque piste de voix.

Noise gate

Là encore, à n’appliquer que sur les voix, pour « nettoyer » votre enregistrement des bruits parasites qui auraient pu s’y glisser. Le noise gate est, comme son nom l’indique, un portail qui laisse entrer ou pas un son en fonction de son intensité (pas de sa fréquence… ça, ce sera le boulot de l’EQ).

En gros, cet effet vous permet de déterminer un seuil d’intensité en dB en deçà duquel tous les signaux sonores seront supprimés. Il faut bien le régler, parce que, si vous allez trop bas, vous allez laisser passer le petit ronflement du ventilateur qui se faisait entendre dans la pièce à côté quand vous enregistriez, mais si vous le paramétrez trop haut, vous allez aussi manger les sons qui dans votre voix sont naturellement plus bas en intensité… et ça risque de devenir vraiment moche pour la compréhension.

Mon réglage personnel est d’appliquer un noise gate de -50 dB sur toutes les pistes de voix. C’est-à-dire que, sur chacune, les sons qui seront inférieurs à -50 dB seront simplement supprimés.

On voit bien l’intérêt d’avoir d’abord appliqué un gain à la piste : ainsi, vous allez « attraper » beaucoup plus de bruits parasites, puisque vous avez augmenté leur volume précédemment.

Compresseur

Ensuite vient donc le temps de la compression audio. C’est une opération qui consiste à amplifier de façon variable le signal qui y entre, de manière à en diminuer l’intensité s’il dépasse un certain seuil. C’est en quelque sorte le « miroir » du noise gate, mais dans les hautes intensités. Un miroir qui, de plus, est déformant, car il ne va pas supprimer les sons, mais en diminuer l’intensité lorsqu’ils dépassent le seuil, et plus ils dépasseront, plus ils seront diminués.

Un compresseur a pour effet d’augmenter le niveau sonore moyen de la piste, tout en en limitant les crêtes.

J’applique cet effet aux seules pistes vocales.

Mon réglage personnel est un seuil (threshold) à -27,5 dB avec un ratio de 1,8:1 et un knee (en français, cela équivaut à une pente de courbe) à 0,7 et une attaque (attack) à 23 ms.

EQ

Enfin, pour chaque piste vocale, un effet d’égaliseur ou EQ.

Un EQ est un réglage qui permet de faire varier le gain de certaines fréquences d’une piste sonore. En clair : vous allez pouvoir faire varier l’intensité des graves et des aigus, donc contrôler le timbre de la voix. Cela implique que vous allez aussi pouvoir faire varier les caractéristiques de la voix enregistrée sur une piste en particulier, donc, dans votre livre audio, cela va renforcer l’illusion d’avoir affaire avec plusieurs personnages différents, éventuellement d’un genre différent du vôtre.

Je vous encourage donc fortement à trouver un réglage d’EQ différent pour chaque personnage, et un réglage bien différent pour la voix de narration. C’est un énorme travail, mais cela sera vraiment payant.

Le « sub-mix »

Une fois que tout cela est fait, vous pouvez vous occuper du « sous-mixage ». C’est une étape où vous allez contrôler le signal sortant, avant son envoi à la tranche de mastering. À ce stade-là, votre mixage est presque terminé. Presque. Il ne vous reste qu’à appliquer un compresseur un peu particulier, que l’on appelle :

Le « limiter »

Pour s’assurer que votre mixage ne dépasse jamais le niveau maximum et ne soit jamais « écrêté », c’est-à-dire que les niveaux excédant 0 dB ne soient coupés brutalement par le haut-parleur qui diffusera votre livre audio, faisant ainsi perdre des informations sonores en plus de produire une désagréable impression de saturation à l’oreille, vous allez de voir prendre les devants. Un limiter, ou limiteur en français, va agir comme un compresseur qui va diminuer le gain des plus hautes intensités de votre « sous-mixage » en les supprimant purement et simplement.

Mon réglage personnel, sur ce limiteur général (car il se situe à la fin de toutes les pistes et les affectera donc toutes en même temps) est le suivant : Gain +3 dB, Release 20,0 ms, Oupout level -3,1 dB, Lookahead 2,0 ms.

Utiliser le Multimètre pour les pics et le RMS

Juste après, dans la même tranche de « sous-mixage », j’ai activé un Multimètre, une console de visualisation des crêtes (peaks en anglais) et du RMS. Cela me permet de réécouter le mixage (ou du moins des morceaux « critiques » de ce mixage) en surveillant les niveaux que je me suis fixés comme cible. Et en fonction, j’interviens à un endroit ou à un autre de la chaîne précédente des effets et des réglages. Ce seuil, dans mon cas, était de -3,1 dB.

Puis, quand je suis assez satisfait, je passe à la dernière étape, qui est la plus complexe à comprendre (en tous les cas pour moi).

Le mastering

La notion de mastering est un peu difficile à appréhender, en effet. Il s’agit, une fois le mixage effectué, de préparer le résultat à une diffusion en faisant en sorte que tous les appareils possibles puissent le lire avec un maximum de fidélité et d’efficacité.

Ce processus est complexe et fait intervenir des notions que je maîtrise peu, mais qui affinent les pics et le RMS, via un EQ global.

Ça tombe bien, Logic Pro possède un module qui automatise ce processus pour moi.

Il suffit que je me fixe une limite de peak, c’est-à-dire de hauteur de crête maximale, et que je joue avec les réglages du module, pour obtenir ce que je désire. Dans mon cas, en me basant sur les exigences de la plateforme Findaway Voices, dont nous parlerons dans le prochain épisode de cette série d’articles, je me suis fixé une limite de crête à -3,1 dB.

Il me semble plus simple de vous livrer une vidéo en français qui détaille un peu l’utilisation de ce module automatique.

Si vous travaillez avec un autre logiciel de montage audio, par contre, je n’ai pas vraiment de trucs ou astuces à vous donner, car, encore une fois, je ne suis pas ingénieur du son. D’autres ressources en ligne vous aideront sans doute.

Choix du papier, choix du format audio

Lorsque tous les réglages sont faits, vous avez accompli le plus difficile : l’équivalent de la mise en page pour un livre papier. Mais tout n’est pas fini, car une fois votre maquette obtenue, et pour continuer sur la métaphore du livre papier, il vous reste à choisir la qualité du papier et le type de reliure que vous voulez pour votre livre audio.

Et comme nous l’avons vu pour ses équivalents imprimé et numérique, vous pouvez aussi choisir plusieurs finitions pour un même texte.

Un livre audio est avant tout un ensemble de données numériques, à notre époque, puisqu’on ne peut pas le faire tenir sur un disque vinyle ou même un CD classique, sauf pour un texte très très très court.

Le choix va donc porter, comme pour du papier, sur la qualité de votre support, cette fois-ci numérique. Voulez-vous un papier haut de gamme avec une belle reliure, et donc un format de fichier qui préserve le plus la qualité audio, mais avec un poids de fichier beaucoup plus important, donc un besoin de stockage fort et un appareil peut-être plus puissant pour le lire ? Ou bien voulez-vous quelque chose de plus abordable, mais avec une qualité audio plus faible, donc comme un papier meilleur marché et une reliure brochée simple ?

Nous allons passer en revue les formats informatiques que vous pouvez choisir en fonction de ces contraintes : qualité de la restitution audio et, corollaire négatif, poids du fichier et nécessité d’un appareil perfectionné pour le lire.

Première possibilité, les formats non compressés, comme l’ALAC (Apple Lossless Audio Codec) et sa version libre, le FLAC (Free Lossless Audio Codec). Ils ont la qualité la plus haute, mais avec un poids de fichier effrayant, de plusieurs giga-octets (Go) par heure d’audio, presque aussi haut qu’une vidéo. Très honnêtement, ils ne sont utiles que pour constituer un master, c’est-à-dire une matrice à partir de laquelle produire les fichiers destinés à la diffusion, une matrice que vous garderez comme archive, bien au chaud. Car un livre audio ne nécessite pas une qualité sonore aussi importante qu’un morceau de musique. Sa dynamique sonore n’est pas énorme, et les fréquences sont moins variées. Une compression informatique avec perte d’information ne lui sera absolument pas préjudiciable. D’autant plus que c’est déjà le cas pour la musique elle-même, alors qu’elle demande une plus grande fidélité.

Deuxième possibilité, à l’autre bout du spectre, le format audio de compression avec perte d’information le plus populaire, le MP3. Sa compression est très forte, et sa diffusion très large vous garantit que votre auditoire sera toujours capable de lire votre livre audio avec la plus grande facilité et la plus grande accessibilité. Il a la qualité audio la moins forte, mais encore une fois, même la musique se sert du MP3. Il suffit, pour que la qualité soit professionnelle et le confort d’écoute maximal, que vous preniez bien soin de choisir un débit qui sera au moins de 192 kbit/s (ou kilobits par seconde) lors de l’encodage.

Il existe cependant une option intermédiaire, le M4A, qui est un format audio basé sur le MPEG4 ou MP4, successeur du MP3 avec un algorithme d’encodage beaucoup plus performant. Il permet d’obtenir une perte d’information moindre pour le même taux de compression. Autrement dit : pour le même poids de fichier, vous aurez une meilleure qualité, ou pour une même qualité, un fichier de plus petite taille. L’inconvénient de ce format : il ne peut être lu que par des appareils assez récents, et beaucoup de vos auditrices & auditeurs risquent de ne pas pouvoir entendre votre histoire.

Enfin, un format très particulier a été créé par Apple il y a des années, spécialement pour le livre audio, le M4B. Comme vous pouvez vous en douter, c’est une variante du M4A dont le B signifie book, pour livre. Son avantage : alors que tous les autres formats vous obligent à créer un fichier par chapitre et à les regrouper dans un dossier pour naviguer facilement de l’un à l’autre en fonction de votre lecture, le M4B rassemble tous vos chapitres en un seul fichier avec des marqueurs permettant à votre auditoire de trouver un chapitre en particulier, et même, comme dans un véritable livre papier ou numérique, de mettre des marque-pages pour ne pas perdre l’endroit précis où il a arrêté d’écouter l’histoire. C’est le format le plus abouti… mais également le moins répandu, car il n’est lisible que par certaines applications très limitées… Le plus compliqué est encore de créer un fichier M4B correct. Pour cela, personnellement, je me sers de Audiobook Builder.

À vous de faire un choix.

Pour ma part, j’ai longuement hésité, et j’ai tranché : j’encode mon master en ALAC, et je diffuse mes livres audio sous deux formats différents, une archive ZIP contenant les fichiers MP3, et un fichier M4B. Ainsi, mon auditoire peut choisir entre un format populaire d’assez bonne qualité (le MP3 encodé en 192 kbit/s) et un format plus pratique et plus « livresque », mais qui ne peut pas être lu avec toutes les applications.

Un livre, pas juste des fichiers

Pourtant, même lorsque vous avez obtenu vos fichiers encodés dans le bon format, celui que vous avez choisi, vous n’avez pas encore fabriqué un véritable livre audio. Parce qu’un véritable livre audio c’est avant tout un livre. Et pour que vos fichiers deviennent un livre, il leur manque deux choses importantes : une couverture, et des métadonnées. Les deux sont d’ailleurs liées (ou reliées…) puisque la couverture est une des métadonnées de vos fichiers.

Mais que sont ces fameuses métadonnées ?

Nous en avons un peu parlé lorsque nous avons vu les étapes de publication des livres papier et des livres numériques.

Les métadonnées sont l’ensemble des informations qui permettent de classer votre livre : le nom de l’auteur ou de l’autrice (dont… votre nom), le titre du livre, le nom de l’éditeur, le numéro du tome dans la série s’il y a lieu, la couverture…

Ce sont des informations qui ne sont pas réellement une partie de l’histoire, mais qui forment l’enveloppe de votre livre. C’est pourquoi j’ai l’habitude de dire que c’est son corps, son identité. Si le livre audio avait existé il y a cinquante ans, ces métadonnées auraient été inscrites sur la pochette du vinyle, ou sur le boîtier du CD, dans la jaquette, ou au dos. Comme un livre audio est immatériel, de nos jours, ces informations sont codées dans le fichier lui-même, et apparaissent dans l’application de lecture.

Mais pour les y intégrer, vous devrez utiliser soit les facultés d’édition de votre logiciel audio (Logic Pro le fait pour le format MP3, dont les métadonnées sont intégrées dans ce que l’on appelle des balises ID3), soit une application spécialisée. Pour ma part, je me sers d’un logiciel pour Mac appelé sobrement Meta, de Nightbirdsevolve, mais qui n’a rien à voir avec le réseau dyssocial du même nom. Il est très simple et vous permet d’éditer facilement toutes les métadonnées imaginables sur tous les fichiers audio imaginables.

Les métadonnées

Les métadonnées essentielles que vous devez encoder dans vos fichiers sont les suivantes : Artiste, Titre, Album, Année, Numéro de la piste, Nombre de pistes, Genre, Langue, Date de publication, Durée, Éditeur, Copyright, Crédits, Site web, DRM (s’il y a lieu, mais je vous conseille de ne pas implémenter de DRM dans vos livres audio), Licence DRM.

Et bien évidemment :

La couverture

Vous avez déjà créé une couverture pour votre livre au format papier et au format numérique EPUB. Il est désormais temps d’adapter cette couverture pour le format audio. Par convention venant du monde du podcast, la couverture d’u livre audio est basée sur une image carrée. Cela vient-il de la pochette des CD et, avant elle, de celle des vinyles ? C’est mon hypothèse.

Quoi qu’il en soit, ce changement de ratio dans l’image va peut-être vous demander une petite adaptation du design que vous aviez créé pour les autres formes de votre ouvrage.

Pour l’exemple, voici les différentes couvertures de Poker d’Étoiles.

Il ne reste plus qu’à écouter… puis à diffuser !

Oui, parce que, maintenant que vous avez enfin terminé la forme audio de votre livre, il faut que votre lectorat… votre auditoire… puisse le trouver et l’acquérir.

Ce sera la dernière étape de notre voyage.

Dans la mémoire du Serpent à Plumes

Filtrer par
Exact matches only
Contenu
Type de Contenu
Tout sélectionner
Articles
Pages
Projets
Téléchargements
Filtre par Catégorie
Tout sélectionner
Chimères Animées
Chimères Partagées
Devine qui vient écrire
L'encre & la plume
Le Serpent à Plumes
Le Serpent d'Hippocrate
Les Feux de la Rampe
Les Pixe-Ailes du Phœnix
Musique des Sphères
Vers l'Infini et Au-delà
Filtre par Catégories De Projets
Tout sélectionner
Films
Jeu de Rôle