" Le réglage fin des grands modèles de langage (LLM) est essentiel pour les aligner sur les besoins spécifiques de l'entreprise, améliorer la précision et optimiser les performances. Dans le monde actuel axé sur l'IA, les organisations s'appuient sur des modèles génératifs affinés pour générer des perspectives précises et exploitables qui favorisent l'innovation et l'efficacité. Ce cours équipe les aspirants ingénieurs en IA générative avec les compétences en demande que les employeurs recherchent activement. Vous explorerez des techniques avancées de réglage fin pour les LLM causaux, y compris le réglage des instructions, la modélisation des récompenses et l'optimisation des préférences directes. Apprenez comment les LLM agissent comme des politiques probabilistes pour générer des réponses et comment les aligner sur les préférences humaines à l'aide d'outils tels que Hugging Face. Vous plongerez dans le calcul des récompenses, l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO), l'entraîneur PPO et les stratégies optimales pour l'optimisation directe des préférences (DPO). Les laboratoires pratiques du cours vous fourniront une expérience réelle avec le réglage des instructions, la modélisation des récompenses, le PPO et le DPO, vous donnant les outils pour affiner en toute confiance les LLM pour des applications à fort impact. Développez des compétences en IA générative prêtes à l'emploi en seulement deux semaines ! Inscrivez-vous dès aujourd'hui et faites progresser votre carrière dans l'IA !"



L'IA générative fait progresser la mise au point des LLM
Ce cours fait partie de plusieurs programmes.
Enseigné en Français (doublage IA)



Instructeurs : Joseph Santarcangelo
7 545 déjà inscrits
Inclus avec
(76 avis)
Expérience recommandée
Ce que vous apprendrez
Compétences en ingénierie de l'IA générative en demande dans les LLM de mise au point que les employeurs recherchent activement
Réglage des instructions et modélisation des récompenses à l'aide de Hugging Face, ainsi que compréhension des LLM en tant que politiques et application des techniques RLHF
Optimisation directe des préférences (DPO) avec fonction de partition et Hugging Face, y compris la manière de définir les solutions optimales aux problèmes de DPO
Utilisation de l'optimisation proximale des politiques (PPO) avec Hugging Face pour construire des fonctions d'évaluation et tokeniser des ensembles de données pour un réglage fin
Compétences que vous acquerrez
- Catégorie : IA générative
- Catégorie : Optimisation des performances
- Catégorie : Prompt engineering
- Catégorie : Apprentissage par renforcement
- Catégorie : Grand modèle de langage (LLM)
- Catégorie : Traitement du langage naturel (NLP)
Détails à connaître

Ajouter à votre profil LinkedIn
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours
Dans ce module, vous commencerez par définir le réglage des instructions et son processus. Vous apprendrez également à charger un ensemble de données, à générer des pipelines de texte et des arguments d'entraînement. En outre, vous vous plongerez dans la modélisation de la récompense, où vous prétraiterez l'ensemble de données et appliquerez la configuration de l'adaptation à faible rang (LoRA). Vous apprendrez également à quantifier les réponses de qualité, à guider l'optimisation du modèle et à intégrer les préférences en matière de récompenses. Vous décrirez également le formateur de récompense, une technique de formation avancée pour former un modèle, et la perte de modèle de récompense à l'aide de Hugging Face. Les travaux pratiques, dans ce module, permettront de s'exercer sur les modèles d'instruction-tuning et de récompense.
Inclus
6 vidéos4 lectures2 devoirs2 éléments d'application3 plugins
Dans ce module, vous décrirez les applications des grands modèles de langage (LLM) pour générer des règles d'application et des probabilités pour générer des réponses sur la base du texte d'entrée. Vous aurez également un aperçu de la relation entre la politique et le modèle génératif de langage en tant que fonction d'oméga pour générer des réponses possibles. En outre, ce module montrera comment calculer les récompenses en utilisant le feedback humain incorporant la fonction de récompense, former des échantillons de réponses et évaluer la performance de l'agent. Vous définirez également la fonction de notation pour l'Analyse des sentiments en utilisant PPO avec Hugging Face. Vous expliquerez également la classe de configuration PPO pour des modèles spécifiques et le taux d'apprentissage pour la formation PPO et comment le formateur PPO traite les échantillons de requêtes pour optimiser les politiques du chatbot afin d'obtenir des réponses de haute qualité. Ce module approfondit les concepts d'optimisation directe des préférences (DPO) afin de fournir des solutions optimales pour les requêtes générées basées sur les préférences humaines de manière plus directe et plus efficace en utilisant Hugging Face. Les travaux pratiques de ce module permettent de s'exercer sur le retour d'information humain et la DPO. Les méthodes telles que l'apprentissage par renforcement et le PPO sont assez complexes et pourraient être considérées comme des sujets d'étude à part entière. Bien que nous ayons fourni quelques références pour ceux qui sont intéressés, on ne s'attend pas à ce que vous les compreniez en profondeur dans le cadre de ce cours
Inclus
10 vidéos5 lectures3 devoirs2 éléments d'application4 plugins
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeurs

Offert par
En savoir plus sur Apprentissage automatique
- Statut : Essai gratuit
- Statut : Essai gratuit
- Statut : Essai gratuit
- Statut : Gratuit
DeepLearning.AI
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?




Avis des étudiants
76 avis
- 5 stars
71,42 %
- 4 stars
9,09 %
- 3 stars
5,19 %
- 2 stars
5,19 %
- 1 star
9,09 %
Affichage de 3 sur 76
Révisé le 10 mars 2025
The course gave me a good understanding of fine-tuning LLMs. It made complex topics easy to learn.
Révisé le 10 mars 2025
Very Informative – Covers advanced fine-tuning techniques in a clear and structured way
Révisé le 10 mars 2025
Great course, love the deep-rooted content. All my concepts are so clear now. Kudos!!

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Il faut environ 3 à 5 heures pour suivre ce cours, ce qui vous permet d'acquérir les compétences professionnelles nécessaires pour impressionner un employeur en seulement deux semaines !
Ce cours est de niveau intermédiaire, donc pour tirer le meilleur parti de votre apprentissage, vous devez avoir des connaissances de base de Python, des grands modèles de langage (LLM), de l'apprentissage par renforcement et de l'ajustement des instructions. Vous devriez également être familier avec l'apprentissage automatique et les concepts de réseaux neurones.
Ce cours fait partie de la spécialisation en ingénierie de l'IA générative avec les LLM. Lorsque vous terminez la spécialisation, vous aurez les compétences et la confiance nécessaires pour assumer des rôles professionnels tels que l'ingénieur IA, le scientifique des données, l'ingénieur en apprentissage automatique, l'ingénieur en apprentissage profond, l'ingénieur en IA et les développeurs cherchant à travailler avec des LLM.
Plus de questions
Aide financière disponible,