class: center, middle, inverse, title-slide # Coupe du monde 2018 : Paul the 🐙 is back ### Ewen Gallic
Aix-Marseille Université, Aix-Marseille School of Economics
Travail co-réalisé avec Enora Belz, Romain Gaté, Vincent Malardé, Jimmy Merlet, et Arthur Charpentier
### 15/11/2018
Meetup Machine Learning Aix-Marseille S04E02 --- ### Une courte page de publicité <div class="row"> <div class="column"> <img src="figs/logo_amu.png" alt="Logo Aix-Marseille Université" style="width:100%"> </div> <div class="column"> <img src="figs/logo_feg.png" alt="Logo Faculté d'économie et de Gestion" style="width:100%"> </div> <div class="column"> <img src="figs/logo_amse.png" alt="Logo Aix-Marseille School of Economics" style="width:100%"> </div> </div> <!-- <img class="center" src="figs/logo_amu.png" height="75px"/> --> <!-- <img class="center" src="figs/logo_feg.png" height="75px"/> --> <!-- <img class="center" src="figs/logo_amse.png" height="75px"/> --> - En 2015, AMSE est devenue une grande école d'économie dans l'Université. Elle a obtenu le label d'« Académie d'Excellence » de la fondation A*Midex. Ce label lui a été accordé en raison de l'originalité de son programme de formation, de la qualité du cursus et de son caractère bilingue. - En 2017, l'AMSE est labellisée « Ecole Universitaire de Recherche » pour un projet d’excellence dans lequel AMSE regroupe : - la recherche - l'enseignement - valorisation. --- - **ADÉQUATION DYNAMIQUE AU MÉTIER D'ÉCONOMISTE** - Formation aux outils de l'analyse économique, de la statistique et au traitement des Big Data ; - **INTERNATIONAL AU COEUR DU PROGRAMME** - Cursus bilingue, Semestre à l'étranger en 2e année (M1), Entraînement à la prise de parole en anglais ; - **OUVERTURE À L'ENTREPRISE** - Pédagogie en interaction avec des professionnels, 3 stages en 3 ans, Projets de fin d'études en data-science - **MÉTIERS EXERCÉS** - Analyste économique, Assistant de recherches, Analyste financier, Business analyst, Consultant, Chargé d'études et d'évaluation, Chargé d'études actuarielles, Chef de projet en économie, Conseiller Gestion Actions, Data analyst, Data scientist, Economètre-Statisticien, Economiste, Postes économiques dans les ONG/Think Tanks/ambassades/consulats, ... Contacts : - infoecole@amse-aix-marseille.fr - https://amse-feg.univ-amu.fr/fr --- class: center, middle ![Statistiques descriptives sur l'audimat des précédentes coupes du monde](figs/audience_fifa.jpg) Source : Felix Richter, (2018). [*The Biggest Game on Earth?*](https://www.statista.com/chart/14646/fifa-world-cup-final-tv-viewership/) Statista. --- ## Un sport difficile à prévoir... Un des intérêts du beau jeu est l'**imprévisibilité apparente** des résultats des matchs. -- Ce qui attire à la fois les **spectateurs** et les acteurs de l'industrie des **paris sportifs**. -- <blockquote> Est-il possible de déterminer <em>a priori</em> le résultat final du match sur la base de l'observation des caractéristiques de l'équipe ainsi que de l'historique des matchs ? </blockquote> -- Dans la littérature, une des deux approches suivantes est généralement retenue : 1. estimation des **scores** (à l'aide de processus de Poisson) 2. estimation des **issues des rencontres** (problème de classification) --- ## ... donnant lieu à de nombreuses prévisions Chez **Goldman Sachs** une équipe d'économistes s'est essayée à la prévision du **déroulement de la Coupe** du monde de football 2018 en s'appuyant sur des techniques d'**apprentissage automatique** (forêts aléatoires, régression Ridge, régression Lasso, *gradient boosting*). <img class = "center" src="figs/goldman_sachs.png" height = "300px" alt="Tableau de rencontres probables selon Goldman Sachs"/> Source : Stehn, Sven Jari *et al*. (2018). *[The World Cup and Economics 2018](https://www.goldmansachs.com/insights/pages/world-cup-2018/multimedia/report.pdf)*. Global Macro Research Team, Goldman Sachs. --- En utilisant FIFA 18 et les données individuelles des joueurs, **EA Sports** a également proposé une simulation de la compétition. <img src="figs/fifa_prev.png" width = "250px" alt="Prédictions de EA Sports"/> <blockquote> Sans surprise, la finale s'annonçait serrée : la machine allemande n'est pas pervenue à prendre l'avantage face à la France au terme de la prolongation. Les deux équipes se séparaient sur le score de 1-1, et il a fallu recourir à la séance de tirs au but. Dans cet exercice, les deux équipes ont fait parler leur talent et leur expérience et c'est au bout du suspense que Les Bleus ont remporté la victoire finale sur le score de 4-3. </blockquote> Source : https://www.ea.com/fr-fr/games/fifa/fifa-19/news/ea-sports-predicts-world-cup-fifa-18 --- ## Nous avons tenté notre chance - **Classification** des issues des rencontres : **victoire, nul, défaite**; -- - Utilisation de **données** de compétitions internationales de football depuis 1993 comme base d'apprentissage ; -- - Estimation de **8 modèles d'apprentissage supervisé** (+*stacking*) ; -- - **Simulations** de la compétition (50 000) ; -- - Nouvelles simulations en **changeant la composition des groupes** pour estimer l'effet induit sur la probabilité de remporter la coupe. --- ## Résultats - Prévisions **meilleures que le hasard** ; -- - Vainqueur du tournoi : - Le **Brésil** était favori (19% de simulations le donnaient vainqueur), - La **France** venait en 5e position (9,7% des simulations) ; -- - **Influence des tirages** de composition des groupes initiaux : - quelques grosses équipes n'ont pas eu de "chance" au tirage initial : Belgique, Espagne et Suisse. --- class: inverse, center, middle # Les données --- ## Rencontres passées - La Fédération Internationale de Football Association (FIFA) publie des données sur les **rencontres passées** : - le lieu, la date, les équipes qui s’affrontent, le type de match (amical, coupes diverses) et le résultat final. -- - Nous collectons les résultats des **matchs masculins d'août 1993 à avril 2018** : - matchs de **compétition** : phases de qualification et phases finales, - matchs **amicaux** : uniquement pour calculer un indicateur de forme ; --- ## Rencontres passées - 205 équipes, - 11 584 matchs de compétition (6479 en coupes intercont./5105 en coupes mondiales).
Nombre de rencontres par année par type de compétition. --- ## Classement FIFA - Nous utilisons également les informations sur le **rang des équipes** au classement FIFA (depuis 1993) -- ## Forme des équipes - indicateurs de l'**issue des trois dernières rencontres** (victoire, nul ou défaite) ; - **forme offensive/défensive** : moyenne pondérée du nombre de buts inscrits/concédés (pondération accordant plus d'importance aux matchs récents). --- ## Indicateurs pour les matchs - Type de rencontre : mondiale/intercontinentale ; - Phase de la compétition : préliminaire/finale ; - Année ; - Mois. ## Indicateurs pour les équipes - Date de création ; - Continent ; - Variable indicatrice pour chacune des 20 meilleures équipes au dernier classement FIFA. --- class: small ## Données : récapitulatif | Variable | Description | | :-------------------- | ----------------------------------------: | | `issue_rencontre` | Issue de la rencontre (victoire équipe 1, nul, victoire équipe 2) | | `rank_home` | Rang de l'équipe 1 au classement FIFA | | `rank_difference` | Différence de classement entre les deux équipes au classement FIFA | | `issue_home_l1` / `issue_away_l1` | Issue de la rencontre précédente de l'équipe 1 / 2 | | `issue_home_l2` / `issue_away_l2` | Issue de la rencontre `\(n-2\)` de l'équipe 1 / 2 | | `issue_home_l3` / `issue_away_l3` | ssue de la rencontre `\(n-3\)` de l'équipe 1 / 2 | | `forme_home_offensive` / `forme_away_offensive` | Moyenne pondérée du nombre de buts marqués lors des 3 dernières rencontres | | `forme_home_defensive` / `forme_away_defensive` | Moyenne pondérée du nombre de buts encaissés lors des 3 dernières rencontres | | `type_rencontre` | Type rencontre (mondiale, continentale) | | `phase` | Phase de la compétition (préliminaire, finale) | | `annee` | Année de la rencontre | | `mois` | Mois de la rencontre | | `founded_home` / `founded_away` | Date de fondation de l'équipe 1 / 2 | | `continent_home` / `continent_away` | Continent de l'équipe 1 / 2 | | `classe_home` / `classe_away` | Indicatrice du pays pour les 20 premiers au classement FIFA | --- class: inverse, center, middle # Les Modèles --- ## Huit modèles d'apprentissage supervisé Nous avons estimé **8 modèles d'apprentissage supervisé** pour notre problème de **classification** (victoire, nul, défaite) : - deux modèles simples : - k plus proches voisins, - classification naïve bayésienne ; - des arbres de classification : - *bagged* CART, - forêts aléatoires ; - gradient boosting stochastique ; - régression logistique par boosting ; - machines à vecteurs de support ; - réseaux de neurones. --- class: inverse, center, middle # Les prévisions sont-elles meilleures que celles d'un poulpe ? --- ## Estimations Les estimations pour chaque modèle ont été réalisées par **validation croisée**. -- L'échantillon total est **séparé en deux parties** : 80% d'observations d'un côté et 20% de l'autre (échantillon de validation). -- Les différents paramètres des modèles sont estimés par validation croisée de type **k-fold** sur le sous-échantillon contenant 80% d'observations. -- Pour un modèle donné, les paramètres menant aux "meilleurs résultats" de classification au regard d'un critère (Log-Loss) sont ceux retenus pour ce modèle. --- ## Estimations - `Accuracy` : pourcentage de bonnes classifications - `Kappa de Cohen` : compare la prévision à une prévision aléatoire. Plus la valeur de Kappa est élevée, meilleure la classification est, relativement à une classification aléatoire. <img src="egallic_meetup_files/figure-html/results_metrics-1.png" style="display: block; margin: auto;" /> Comparaison des résultats des modèles. --- ## Estimations sur l'échantillon de validation
Comparaison des taux de bonnes détections. --- ## *Stacking* Nous procédons ensuite à du *stacking* : - estimation de l'issue des rencontres sur l'échantillon de test à l'aide d'une combinaison des modèles précédents ; - par *gradient boosting*. Une fois ce neuvième modèle estimé, les prévisions sur l'échantillon test (les 20% d'observations restantes) donnent des **pourcentages de bonnes prévisions** suivants : - 85.8% des victoires de l’équipe 1 ; - seulement 0.6% des matchs nuls ; - 62.3% des victoires de l’équipe 2. --- class: inverse, center, middle # Simulations (a priori) de la Coupe du monde de football 2018 --- ## Méthodologie Nous utilisons les modèles estimés pour prévoir l'**avancement de la coupe du monde**, **match par match**, pour 50 000 simulations différentes. -- Les données sur la forme des équipes et les résultats des matchs précédents sont **mises à jour à chaque tour**. -- Pour chaque rencontre, les prévisions indiquent une **probabilité** d'appartenance à l'une des trois classes (victoire de l'équipe 1, match nul, ou victoire de l'équipe 2). -- Nous utilisons ces probabilités pour **tirer aléatoirement l'issue de la rencontre**, en faisant correspondre à chaque événement possible un poids reflétant la probabilité d'occurrence telle que retournée par les modèles. --- ## Prévisions des probabilités de gagner la Coupe du Monde 2018
Résultats de chaque rencontre de groupe, pour chaque modèle. --- ## Probabilité de gagner la Coupe du Monde 2018 pour chaque équipe
Estimation de la probabilité de remporter la Coupe du Monde 2018. --- ## Parcours les plus probables <iframe src="collapsibleTree/arbre_France.html" height="500px" width="100%" style="border: none;"></iframe> --- class: inverse, center, middle # Effets de la composition initiale des groupes sur la probabilité de remporter le tournoi --- ## Tirages des huit groupes La **composition des 8 groupes initiaux** comportant chaque équipe est **tirée au sort**. -- Le tirage au sort n'est **pas totalement aléatoire**, il prend en compte le classement des équipes pour éviter de faire se rencontrer dès les phases les équipes les plus fortes. -- <blockquote> Quelle est l'incidence sur la probabilité de remporter la coupe ? </blockquote> --- ## De nouvelles simulations <img class="center" src="figs/graph_resume_tirages.png" height="400px"> Procédure de simulations. --- ## Influence des tirages : équipes "lésées" <img src="egallic_meetup_files/figure-html/p_tirages_cdm-1.png" style="display: block; margin: auto;" /> Distribution des probabilités de gagner le tournoi conditionnellement à la composition initiale des groupes --- ## Influence des tirages : équipes "avantagées" <img src="egallic_meetup_files/figure-html/p_tirages_cdm_2-1.png" style="display: block; margin: auto;" /> Distribution des probabilités de gagner le tournoi conditionnellement à la composition initiale des groupes --- class: center, middle Ewen Gallic [(@3wen)](https://twitter.com/3wen) Pour plus de détails sur notre projet : http://egallic.fr/Recherche/Worldcup_2018/worldcup.html