Objectifs
Ce chapitre présente les fondamentaux du logiciels R. L’objectif est d’être en mesure de démarrer un projet data science qui s’articule autour des étapes suivantes.
- Import (importer): Charger un fichier de données (.txt, .csv, …) stocker sur votre disque dur ou accessible en ligne pour en faire un data frame exploitable avec R.
- Tidy (ranger): Donner un structure cohérente aux données. Cad une colonne correspond à une variable et une ligne correspond à une observation.
- Transform (transformer): Modifier les données par exemple
- Sélectionner des observations (les habitants d’une ville donnée, les observations associées à une année)
- Créer de nouvelles variables par opérations sur des variables existantes. Opération arithmétiques mais aussi changer le format des données.
- Calculer des statistiques descriptives en agrégeant les observations par groupes définis sur la base de critères (avoir 20 ans, être une fille ou un garçon, CSP)
- Visualisation: Produire des graphiques
- Model (modéliser): Faire une série d’hypothèse au sujet des données et des relations entre les variables. Procéder à une vérification.
- Communicate: Produire un document ou une présentation fain de rendre justice à vos résultats. Un exemple est le présent fichier qui est un R notebook utilisant Markdown.
Installation de R
R
Rendez-vous sur R project, télécharger et suivez les instructions.
R Studio
Il s’agit d’une interface pour faciliter l’usage de R. Rendez-vous sur R Studio. Il permet notament d’ouvrir le code source du présent fichier. En ouvrant R studio, vous verrez deux régions d’importance
