Vidéo IA26 février 2026· 13 min de lecture

Automatiser la création de B-Rolls : Connecter un modèle de langage à une API vidéo

Générer des plans de coupe (B-Rolls) à la volée à partir d'un script ou d'une voix off avec un LLM et une API de génération vidéo IA. Workflow, limites et exemples concrets.

Note

4,9 / 5

Automatiser la création de B-Rolls : Connecter un modèle de langage à une API vidéo

Tu as une voix off ou un script. Il te manque des plans de coupe pour illustrer les moments clés : un produit, un lieu, une action. Tourner ou chercher des stocks prend du temps. La génération vidéo IA peut produire des B-Rolls à partir d'un prompt texte. En connectant un modèle de langage (LLM) à une API vidéo (Runway, Kling, Luma, Veo, etc.), tu peux automatiser une partie du flux : le LLM lit le script ou la transcription, détermine quels moments ont besoin d'un B-Roll et génère les prompts vidéo ; un script ou un outil d'automatisation appelle l'API pour produire les clips ; tu les récupères et tu les montes. Pas encore magique (qualité, cohérence, coût), mais déjà exploitable pour des formats courts ou des premières versions. Voici comment mettre en place ce pipeline et ce que les débutants se trompent.

Pourquoi automatiser les B-Rolls avec un LLM et une API

Un B-Roll sert à illustrer ce qui est dit ou à aérer le plan principal. Idéalement, chaque idée forte ou chaque transition a son plan de coupe. Faire ça à la main : relire le script, noter « ici il faut un plan de X », écrire un prompt pour chaque plan, lancer la génération, télécharger, importer dans le montage. Répétitif. Un LLM peut : analyser le script (ou la transcription avec timecodes), proposer une liste de B-Rolls (moment, description visuelle, durée suggérée), et générer les prompts adaptés à l'API vidéo que tu utilises. Un script (Python, Make, n8n) peut ensuite enchaîner les appels API, récupérer les clips et les ranger. Tu gagnes du temps sur la phase « idée → prompt → fichier ». La qualité et la cohérence restent à surveiller ; pour des rendus plus contrôlés, le B-Roll cinématique avec Veo 3.1 et les meilleurs générateurs vidéo IA 2026 détaillent les réglages par outil. Le LLM ne remplace pas ton œil ; il produit des candidats que tu valides et montes.

Ce que le LLM fait (et ce que l'API fait)

LLM : Lit le script ou la transcription. Identifie les moments où un B-Roll est pertinent (changement de sujet, illustration d'un concept, transition). Pour chaque moment, produit une description visuelle courte et un prompt formaté pour l'API (souvent une phrase en anglais, avec des mots-clés style « cinematic », « 35mm », etc.). API vidéo : Reçoit le prompt, génère un clip (quelques secondes), renvoie une URL de téléchargement ou un fichier. Tu enchaînes : script → LLM → liste de prompts → appels API → fichiers. Pour que les prompts soient exploitables, la structuration des prompts comme directeur artistique et les prompts éclairage cinématographique donnent une base que tu peux intégrer dans les instructions du LLM.

Scénario 1 : Script court, 5 B-Rolls

Marie a un script de 1 minute pour une vidéo produit. Voix off + plans produit en alternance. Elle veut 5 B-Rolls générés par IA pour illustrer « fabrication », « matière », « détail », « usage », « packaging ».

Étape 1 : Préparer le script pour le LLM. Elle colle le script dans ChatGPT ou Claude. Prompt : « Voici le script d'une vidéo produit [coller]. Identifie 5 moments où un plan de coupe (B-Roll) serait utile. Pour chaque moment, donne : le timecode approximatif (ou la phrase concernée), une description visuelle en 1 ligne, et un prompt de génération vidéo IA (anglais, style cinematic stills, 5 secondes, pas de personnage identifiable). Format : Moment 1 | TC | Description | Prompt. »

Étape 2 : Récupérer les prompts. Le LLM renvoie une table ou une liste. Marie copie les 5 prompts. Elle peut les ajuster à la main (ajouter « product photography », « soft light », etc.) selon la charte de la marque.

Étape 3 : Générer les clips. Elle lance chaque prompt dans son outil vidéo IA (Runway, Kling, Luma, Veo) un par un, ou elle utilise un script qui appelle l'API (voir plus bas). Elle télécharge les 5 clips et les importe dans son logiciel de montage. Elle place chaque B-Roll au bon timecode. Pour un workflow complet voix + visuels, la voix off réaliste sans micro et le montage vidéo automatique complètent l'enchaînement.

Scénario 2 : Transcription avec timecodes, pipeline semi-automatisé

Thomas a une voix off déjà enregistrée. Il a exporté la transcription avec timecodes (outil de sous-titrage ou reconnaissance vocale). Il veut que le LLM propose des B-Rolls pour chaque segment de 15–20 secondes, et que les prompts soient envoyés à une API vidéo sans tout faire à la main.

Étape 1 : Envoyer la transcription au LLM. Format : [00:00–00:18] « Texte… » [00:18–00:35] « Texte… » etc. Prompt : « Pour chaque segment, propose un B-Roll : timecode de début et fin du segment, description visuelle, prompt pour génération vidéo IA (anglais, 5 s, cinematic). Sortie en JSON, par exemple : »

[{"segment_start": "00:00", "segment_end": "00:18", "description": "...", "prompt": "..."}]

Étape 2 : Parser la sortie. Thomas récupère le JSON. Il peut l'utiliser dans un script Python ou dans Make/n8n : pour chaque objet, appeler l'API vidéo avec le champ "prompt", attendre le rendu, télécharger le fichier, le nommer avec le timecode (ex. broll_00_00.mp4).

Étape 3 : Importer dans le montage. Tous les clips sont dans un dossier, nommés par segment. Thomas les place sur la piste B-Roll aux timecodes indiqués. Il peut supprimer ou remplacer certains plans selon le rendu. Pour des B-Rolls plus cinématographiques et cohérents, le guide profondeur de champ et bokeh dans les prompts vidéo et le workflow préproduction storyboards aident à affiner les descriptions que le LLM génère.

Scénario 3 : Chaîne YouTube, volume important

Léa publie 2 vidéos par semaine. Chaque vidéo fait 8–12 minutes avec beaucoup de B-Rolls. Elle ne peut pas tout générer à la main. Elle met en place un pipeline : script ou transcription → LLM (batch de prompts) → file d'attente API → téléchargement automatique dans un dossier par projet.

Architecture. Un outil d'automatisation (Make, n8n, ou script Python) : déclencheur = nouveau fichier « script_final.txt » ou nouvelle ligne dans une feuille avec transcription. Module LLM (OpenAI, Claude API) : entrée = script/transcription, prompt système = « Tu génères une liste de B-Rolls en JSON (segment_start, segment_end, description, prompt vidéo IA). Max 1 B-Roll toutes les 20 secondes. Prompts en anglais, cinematic, 5 s. » Sortie = JSON. Boucle : pour chaque item du JSON, appel à l'API vidéo (Runway, Kling, etc.), récupération de l'URL ou du fichier, téléchargement dans le dossier du projet. Léa n'a plus qu'à ouvrir le dossier et monter. Pour gérer les quotas et les coûts, le workflow vidéo IA gratuit et budget et le pipeline tool-agnostic aident à rester résilient quand une API change ou atteint ses limites.

Workflow pas à pas : de la phrase au clip

1. Choisir l'API vidéo

Runway, Kling, Luma, Veo (Google), ou autre. Vérifie : format du prompt attendu, durée max par clip, résolution, coût par seconde, délai de rendu. Certaines APIs sont asynchrones (tu envoies, tu récupères plus tard). Documente-toi sur les comparatifs générateurs vidéo IA.

2. Définir le prompt système pour le LLM

« Tu analyses un script ou une transcription. Tu produis une liste de B-Rolls : pour chaque segment pertinent, tu donnes le timecode (ou la phrase), une description visuelle, et un prompt pour génération vidéo IA. Le prompt doit être en anglais, style cinematic stills, 5 secondes, pas de personnage identifiable sauf si le script l'exige. Format de sortie : [JSON ou tableau]. » Adapte selon la longueur des segments et le style (pub, tuto, doc).

3. Préparer l'entrée

Script brut ou transcription avec timecodes. Plus c'est structuré, plus le LLM peut cibler les bons moments. Si tu n'as pas de timecodes, le LLM peut proposer des segments par phrase ou par paragraphe.

4. Appeler l'API vidéo

À la main : copier chaque prompt dans l'interface de l'outil. En automatique : script (Python avec requests ou SDK officiel) ou Make/n8n avec le module HTTP ou le connecteur dédié. Gère les erreurs (quota, timeout) et les délais de rendu (polling ou webhook si l'API le permet).

5. Contrôle qualité et montage

Les clips générés ne sont pas toujours exploitables (artefacts, hors sujet). Prévois une étape de validation : tu parcours les fichiers, tu supprimes ou tu refais les plans ratés. Puis tu montes comme d'habitude. Pour limiter les mauvais rendus, donne au LLM des contraintes strictes (pas de visage, pas de texte à l'écran, même style pour toute la vidéo) et réutilise une image ou un prompt de référence si l'API le supporte.

Ce que les débutants se trompent (tranchée)

Erreur 1 : Prompts trop vagues

« Plan de coupe pour le produit » donne des résultats aléatoires. Le LLM doit générer des prompts précis : type de plan (close-up, 3/4, flat lay), lumière (soft, key light), décor (fond noir, surface bois), durée. Intègre ces contraintes dans les instructions du LLM.

Erreur 2 : Pas de cohérence entre les B-Rolls

Si chaque prompt est indépendant, les clips auront des styles différents (lumière, couleur, grain). Donne au LLM une charte : « Tous les B-Rolls : même style (cinematic stills, 35mm, fond sombre, soft light). Varie uniquement le sujet et le cadrage. » Répète cette base dans chaque prompt généré.

Erreur 3 : Oublier les limites de l'API

Durée max (souvent 5 ou 10 s), résolution, format (16:9, 9:16). Si le LLM suggère des plans de 15 s ou du 2:1, l'API peut refuser. Indique dans le prompt système les contraintes techniques de ton API.

Erreur 4 : Tout automatiser sans validation

Les premiers rendus peuvent être inutilisables. Garde une étape humaine : revoir les clips avant de les monter, refaire les plans problématiques. L'automatisation réduit la charge, elle ne supprime pas le contrôle qualité.

Erreur 5 : Coût non maîtrisé

Générer 20 clips à 0,50 €/clip fait 10 € par vidéo. Si tu publies souvent, ça monte vite. Limite le nombre de B-Rolls par script (ex. max 1 toutes les 20 s), ou utilise des plans réutilisables (bibliothèque de B-Rolls générés une fois et réutilisés). Pour des alternatives à bas coût, le workflow vidéo IA gratuit donne des pistes.

Problème	Piste de solution
Rendu incohérent	Charte visuelle dans le prompt système du LLM, même base dans chaque prompt généré
API trop lente ou en erreur	File d'attente, réessais, ou bascule sur une autre API (pipeline tool-agnostic)
Trop de B-Rolls générés	Limiter dans le prompt LLM (« max 1 B-Roll toutes les 20 s » ou « max 10 B-Rolls par vidéo »)
Script pas aligné avec les timecodes	Utiliser une transcription avec timecodes réels (sous-titres) plutôt que le script seul

Pro Tip. Construis une bibliothèque de « prompts types » (produit, lieu, action, transition) que le LLM peut réutiliser en adaptant juste le sujet. Tu gagnes en cohérence et en rapidité.

Image corps – Script et clips B-Roll

Intégration avec ta chaîne de production

Les B-Rolls générés par LLM + API s'insèrent entre l'écriture (ou l'enregistrement de la voix) et le montage final. En amont : script, voix off, transcription. En aval : montage, sound design. Pour voir des exemples de génération vidéo IA et de placement de B-Rolls, la vidéo

🎧 Sons & SFX Gratuits avec l’IA : Ne Payez Plus Jamais pour Vos Effets Sonores !

présente un outil souvent utilisé pour des plans courts de type B-Roll ; tu peux t'en inspirer pour les paramètres à passer dans tes prompts LLM.

Ressource externe : Runway API (documentation).

Foire aux questions

Quelle API vidéo choisir pour les B-Rolls ?

Cela dépend du budget, de la qualité attendue et des quotas. Runway et Kling sont souvent utilisés pour des plans courts. Veo (Google) et Luma offrent des alternatives. Compare durée max, résolution et coût par seconde. Pour un comparatif à jour, voir Runway, Kling, Pika et meilleurs générateurs vidéo IA 2026.

Le LLM peut-il générer des prompts pour n'importe quelle API ?

Oui, en adaptant les instructions. Chaque API a des conventions (mots-clés, longueur max du prompt). Donne au LLM la doc ou une liste de contraintes pour l'API que tu utilises, et demande-lui de formater la sortie en conséquence.

Comment gérer les délais de rendu (par ex. 2 min par clip) ?

En asynchrone : tu envoies toutes les requêtes, l'API renvoie des job IDs, tu fais du polling ou tu reçois un webhook quand le clip est prêt, puis tu télécharges. En synchrone : tu enchaînes les appels un par un avec une attente entre chaque. Pour un gros volume, un script ou Make avec gestion de file d'attente évite de tout lancer en parallèle (risque de dépasser les quotas).

Puis-je réutiliser les mêmes B-Rolls pour plusieurs vidéos ?

Oui. Si ton contenu est répétitif (même type de produit, même charte), tu peux générer une bibliothèque de B-Rolls une fois et les réutiliser. Le LLM peut alors servir à sélectionner dans la bibliothèque (« pour ce segment, utilise le clip "produit main" ») au lieu de générer à chaque fois.

Comment assurer la cohérence des visages si j'ai besoin d'un personnage ?

Les APIs vidéo IA gèrent encore mal la cohérence d'un même visage sur plusieurs plans. Pour des B-Rolls sans personnage identifiable (mains, silhouette, dos), la cohérence est plus facile. Si tu dois avoir un personnage récurrent, envisage du tournage réel ou des avatars dédiés (HeyGen, etc.) et réserve l'IA pour les plans de coupe sans visage. Pour la cohérence visuelle en image, le seed et style reference Midjourney et la cohérence visuelle avec LoRA donnent des idées ; en vidéo les outils évoluent vite.

Image corps – Pipeline LLM et API

Prompt: Cinematic stills, cinema photography, medium shot of a monitor displaying a workflow diagram linking script to video clips, soft screen glow, 35mm lens, natural film grain, --ar 16:9

Votre avis

Chargement…