Objectifs

Ce chapitre présente les fondamentaux du logiciels R. L’objectif est d’être en mesure de démarrer un projet data science qui s’articule autour des étapes suivantes.

Etapes d’un projet data science

  1. Import (importer): Charger un fichier de données (.txt, .csv, …) stocker sur votre disque dur ou accessible en ligne pour en faire un data frame exploitable avec R.
  2. Tidy (ranger): Donner un structure cohérente aux données. Cad une colonne correspond à une variable et une ligne correspond à une observation.
  3. Transform (transformer): Modifier les données par exemple
    1. Sélectionner des observations (les habitants d’une ville donnée, les observations associées à une année)
    2. Créer de nouvelles variables par opérations sur des variables existantes. Opération arithmétiques mais aussi changer le format des données.
    3. Calculer des statistiques descriptives en agrégeant les observations par groupes définis sur la base de critères (avoir 20 ans, être une fille ou un garçon, CSP)
  4. Visualisation: Produire des graphiques
  5. Model (modéliser): Faire une série d’hypothèse au sujet des données et des relations entre les variables. Procéder à une vérification.
  6. Communicate: Produire un document ou une présentation fain de rendre justice à vos résultats. Un exemple est le présent fichier qui est un R notebook utilisant Markdown.

Installation de R

R

Rendez-vous sur R project, télécharger et suivez les instructions.

R Studio

Il s’agit d’une interface pour faciliter l’usage de R. Rendez-vous sur R Studio. Il permet notament d’ouvrir le code source du présent fichier. En ouvrant R studio, vous verrez deux régions d’importance