Qu'est ce que le machine learning (partie 1) ?

En voilà une bonne question n’est ce pas ? Qu’est ce que le machine learning… Hé bien on va essayer de donner une réponse, sans mathématique, sans terme scientifique barbare et avec un exemple et des dessins.
Moi j’aime bien les dessins… 🙂

Problématique

Imaginons que nous sommes des agents immobilier. Notre travail consiste entre à estimer le prix d’un bien. Bien évidemment, cela ne se fait pas au doigt mouillé et il faut être au prix du marché. Si tu es trop haut, tu ne vends rien, si tu es trop bas, ton client ne voudra pas brader son bien.

Ce qu’on va faire donc c’est de regarder ce qu’on a déjà vendu à l’agence, voir aussi un peu ce qui traine dans les petites annonces et avec tout ça se faire une idée. Alors c’est parti.

Récupération des données

Bon, on a fait notre travail et on a mis le résultat dans un tableau :

Nombre de pièces	Prix du bien
1	100 000€
2	200 000€
5	510 000€
3	290 000€
1	105 000€
3	310 000€
5	485 000€

Estimation d’un bien

Voilà notre futur client. Il nous demande d’évaluer son bien qui a 4 pièces. Si on regarde dans notre tableau, aïe, on constate qu’on en a pas. Aidons-nous d’un petit dessin pour voir si ça ne peut pas nous aider.

En ayant mis les points sur un graphique avec en bas le nombre de pièces et à gauche le prix, on peut constater qu’il y a un schéma qui se dégage. On dirait qu’il y a une droite qui part d’en bas et qui passe presque à côté de tous les points. Du coup, pour notre 4 pièces, il est légitime de se dire que le prix devrait être au niveau de notre cercle rouge, soit à peu près 400 000€

Résultat

Tu vas me dire, c’était facile d’estimer la valeur du bien, pas besoin d’une intelligence artificielle pour faire ça. Alors certes, mais imaginons maintenant que nos données contiennent un peu plus d’informations…

récupération de plus de données

Voici plus d’informations sur notre nouveau bien. C’est un appartement de 4 pièces de 100m² au 4eme étage et qui se situe à 900m du centre-ville.

Voici notre nouveau tableau :

Nombre de pièces	superficie	type	distance	jardin	Prix
1	15	appart	500	oui	135 000,00 €
2	30	appart	1300	non	175 000,00 €
5	110	appart	800	non	485 000,00 €
3	80	maison	3200	oui	315 000,00 €
1	25	appart	200	non	105 000,00 €
3	65	appart	1300	non	285 000,00 €
5	155	maison	2500	oui	525 000,00 €

Ok, faisons comme tout à l’heure, des beaux dessins :

Si on regarde plus près le premier graphique “Prix en fonction du nombre de pièces”, on se rend compte que pour un bien de 4 pièces, le prix peut varier de 385 000€ à 435 000€ environ… La fourchette est grande…

Si on regarde le graphique en haut à droite “prix en fonction de la distance du centre-ville”, il est difficile de lire quoique ce soit.

Et si on regarde le graphique en bas à gauche, pour un bien de 100m², le prix peut varier de 340 000€ à 440 000€.

Alors, on dit quoi à notre client ?

Encore plus près de la réalité

L’exemple ci-dessus est encore très très simple. Car tu t’en doutes, le nombre de caractéristiques à prendre en compte dans la vente d’un bien est encore plus important. Par exemple : L’âge du bien, les équipements, le quartier, les commerces à proximité, les transports en commun, les éventuels travaux etc.
Et si en plus, on avait à gérer 30 ou 40 communes et que nous n’avions pas 7 maisons dans notre base de données mais 500… Là, ça commence à devenir compliquer pour un être humain.

Comment évaluer correctement le prix ? A quel niveau le fait d’avoir un jardin donne de la valeur au bien ? A quel niveau le fait de s’éloigner du centre-ville fait baisser le prix du bien ? Dans quelle proportion l’âge du bien fait baisser le prix de la maison ?

Et le machine learning dans tout ça ?

Hé bien c’est là que le machine learning va venir nous aider. En fait, on va lui donner à manger notre tableau et il va s’entrainer à prédire un prix. Ce qui est même plus fort, c’est qu’on va absolument rien lui dire sur ce qui est important ou non comme le jardin ou la distance par rapport au centre-ville. Rien, que dalle, nada.
On lui donne le tableau et il va se débrouiller tout seul pour savoir si telle ou telle caractéristique est importante ou non.
Bon on s’en doute, il lui faudra un peu plus que quelques dizaines de lignes pour faire des prédictions correctes. Plus il y en aura, mieux ce sera.

En résumé

Tu viens donc d’appréhender ce qu’on pouvait faire avec le machine learning. Alors c’est sûr que l’exemple pris était un peu simpliste mais c’était surtout pour te donner une idée. Le machine learning est utilisé dans la robotique, le médical et tout un tas d’autres domaines encore.

De façon plus générale, le machine learning consiste à donner à manger une certaine quantité d’informations à un ordinateur qui va s’entrainer encore et encore pour être de plus en plus précis dans ses prédictions. Il est évident que plus il y aura d’information, meilleur sera le résultat. Encore faut-il que ces informations soient fiables.

De plus, le programmeur ne donnera aucune indication à l’ordinateur sur quelles caractéristiques s’appuyer. Bon, j’avoue, le programmeur mettra quand même notre intelligence artificielle sur la piste du type de formule mathématique à utiliser, mais c’est tout. C’est pour ça qu’on parle “d’apprentissage automatique”.

Voilà pour cette première approche. J’espère que cela va te donner d’aller lire les prochains articles !

Coxprod DIY

Bidouilles et découvertes et pis c'est tout :)

Qu’est ce que le machine learning (partie 1) ?