Information détaillée concernant le cours
Titre | PySHS Python pour les SHS |
Dates | 05.04; 12.04; 19.04; 26.04; 03.05; 17.05 |
Organisateur(s)/trice(s) | |
Intervenant-e-s | Dr Emilien Schultz, Université de Paris Dr Matthias Bussonier, Quansight, USA |
Description | Présentation générale Cette formation propose une initiation à la programmation Python pour des doctorants•es en sciences humaines et sociales (SHS), pensée pour les usages en SHS. Python est un langage de programmation simple, libre, multi-plateforme, pédagogique, bénéficiant d'une communauté d'utilisateurs•rices croissante tant dans le domaine universitaire que le secteur privé. Avec la multiplication des données numériques dans les sciences humaines et sociales (SHS), le traitement des données devient incontournable tant pour la collecte, la mise en forme, ou la production de résultats. Si une partie de ces traitements sont intégrés dans des logiciels dédiés, la programmation scientifique en général et le langage Python en particulier permet d'introduire de la souplesse, de l'adaptation et de la créativité dans le traitement des données tout en permettant d'intégrer les nombreuses solutions existantes développées par les communautés scientifiques. Concrètement, la programmation scientifique permet ainsi à la fois de réaliser les traitements statistiques habituels des SHS tout en ouvrant aux nouveaux usages liés à l'automatisation des tâches informatiques, le traitement des grands corpus des humanités numériques ou encore la collecte de données sur les réseaux sociaux. Cette formation insiste sur l'usage du langage Python comme un outil pour le script scientifique. En effet, il permet facilement de jouer une fonction de « liant » (ou de « colle ») pour traiter les données et faire le lien entre des logiciels déjà existants. D'ailleurs, plusieurs logiciels (QGIS, SPSS, …) permettent d'introduire du script Python dans les traitements pour compléter les opérations. Par ailleurs, l'apprentissage des bases de Python permet non seulement de renforcer sa culture informatique, ouvrant ce faisant la voie à de nouvelles stratégies d'analyses, mais aussi d'envisager différemment le rapport aux données, la conceptualisation mais aussi la collaboration avec le partage du code et les enjeux de reproductibilité des analyses. Python participe, aux côtés d'autres logiciels et langages, à la construction du code libre et d'une recherche ouverte et reproductible.
Objectifs de la formation - Comprendre les forces de Python pour le script scientifique en SHS - Maîtriser les bases du langage Python et la présentation du Notebook Jupyter - Acquérir les bonnes pratiques du traitement de données (format de fichier, etc.) - Connecter les traitements avec des sources de données externes (API) et des logiciels. - Produire des documents finalisés : visualisations, tableaux, etc. - Manipuler des formats de données différentes : textes, images, etc. - Identifier les usages avancés : apprentissage automatique, traitement lexicométrique, analyse de réseaux. - Développer l'autonomie dans l'apprentissage - Echanger sur les usages possibles pour des recherches en cours ou à venir
Public visé Cette formation est pensée pour des doctorants•es en SHS (sociologie, géographie, science politique, histoire, droit, etc.) n'ayant pas de notions de programmation et visant à comprendre à la fois la logique et les usages possibles d'un langage de programmation dans leur activité. Une attention particulière est portée sur le lien entre les problématiques SHS et le traitement de données. Trois publics en particulier sont identifiés : - Découverte de l'univers « Python », en particulier pour favoriser les échanges avec des praticiens dans des projets interdisciplinaires - Identification de nouvelles stratégies de recherche - Monter en compétence pour réaliser un traitement sur des données déjà existantes |
Programme | 05/04 - Pourquoi programmer en Python? Cette séance sera l'occasion de faire un petit tour du langage Python et de l'univers qui l'entoure, pour identifier les principaux usages en SHS. Langage Python – programmation scientifique – Notebook Jupyter - Exemples
12/04 - Les blocs de base du langage Cette séance présentera les principaux ingrédients du langage Python, sa syntaxe et les blocs qui constituent un script : boucle, condition, ouverture d'un fichier, etc. La question des bonnes pratiques de programmation seront abordées. Algorithme – Syntaxe - Fonctions – Bonnes pratiques
19/04 – Au-delà du langage : l'univers des bibliothèques et les communautés de pratiques Python désigne à la fois le langage et les outils développés à partir de celui-ci. Les bibliothèques regroupent des outils déjà constitués pour réaliser des traitements plus avancés. Nous verrons comment se repérer dans l'univers de l'open source, identifier une bibliothèque, l'installer et l'utiliser pour collecter des données. Bibliothèques – Scipy – Open source – Collecte de données
26/04 - Manipuler des tableaux de données avec Pandas Une bibliothèque s'est imposée pour le traitement des données sous forme de tableaux : Pandas. Entre Excel et une base de données, elle permet d'automatiser de nombreux traitements. Cela nous amènera à charger des fichiers, à manipuler les colonnes en recodant certaines informations et à calculer des statistiques descriptives. Pandas – tableaux – base de données – recodage
03/05 - Statistiques et visualisations Cette séance présente les traitements statistiques possibles sur les données ainsi que les usages en termes de visualisation, de vues exploratoires des données à la production de graphiques finalisés pour la publication. Un focus sera fait sur la visualisation de données géographiques Visualisation – Statistiques – Matplotlib - Cartes
10/05 – Traitements avancés – le cas de l'analyse lexicométrique Dans cette séance, nous aborderons à travers des exemples les usages plus avancés. Nous prendrons en particulier l'exemple des étapes nécessaires pour réaliser le traitement de données non structurées textuelles, allant des approches rapides à mettre en œuvre aux analyses plus spécifiques du langage. Usages avancés – analyse textuelle – données non structurées - automatisation |
Lieu |
en ligne |
Information | La formation consiste en 6 séances de 2h30 en visio le mardi de 10h à 12h30, avec 2h consacrées à une thématique et un espace d'échange sur les projets en cours. En fonction des centres d'intérêt des inscrit.e.s, certaines thématiques abordées pourront être modifiées.
Prérequis pour la première séance : installation du logiciel Anaconda qui installe les outils nécessaires (Python ainsi que les autres interfaces) : www.anaconda.com/products/individual Dépôt de la formation pour tous les documents : https://github.com/pyshs/CUSO-2022-printemps |
Places | 20 |
Délai d'inscription | 04.04.2022 |