Information détaillée concernant le cours

[ Retour ]
Titre

PySHS Python pour les SHS

Dates

30 mars, 06 avril, 13 avril, 20 avril, 27 avril et 04 mai 2023

Organisateur(s)/trice(s)

Prof. Béatrice Joyeux-Prunel

Intervenant-e-s

Emilien Schultz, chercheur postdoctorant en sociologie des sciences et de la santé, médialab/SESSTIM, http://eschultz.fr @emilienschultz

Mathieu Morey, chercheur et consultant senior à Datactivist

 

Description

 

Présentation générale

 

Cette formation à deux voix propose une initiation à la programmation scientifique Python pour des doctorants•es en sciences humaines et sociales (SHS), pensée pour les usages en SHS en vue de l'application.

 

Python est un langage de programmation simple, libre, multi-plateforme, pédagogique, bénéficiant d'une communauté d'utilisateurs•rices croissante tant dans le domaine universitaire que le secteur privé, notamment sur les usages d'apprentissage autonomatique et de science de la donnée.

 

Avec la multiplication des données numériques dans les sciences humaines et sociales (SHS), la programmation scientifique est un atout fort pour la collecte de données, leur mise en forme, et la production de résultats. La maîtrise d'un langage comme Python permet d'introduire de la souplesse, de l'adaptation et de la créativité dans le traitement des données tout en permettant d'intégrer les nombreuses solutions existantes développées par les communautés scientifiques.

 

Cette formation insiste sur l'usage du langage Python comme un outil pour le script scientifique. En effet, il permet facilement de jouer une fonction de « liant » (ou de « colle ») pour traiter les données et faire le lien entre des logiciels déjà existants.

 

L'apprentissage des bases de Python permet non seulement de renforcer sa culture informatique, ouvrant ce faisant la voie à de nouvelles stratégies d'analyses, mais aussi d'envisager différemment le rapport aux données, la conceptualisation mais aussi la collaboration avec le partage du code et les enjeux de reproductibilité des analyses. Même en dehors d'application directe, cette formation permet de se familiariser avec de nombreuses notions liées au traitement des données numériques. En effet, Python participe, aux côtés d'autres logiciels et langages, à la construction du code libre et d'une recherche ouverte et reproductible.

 

Objectifs de la formation

 

· Comprendre les forces de Python pour le script scientifique en SHS

 

· Maîtriser les bases du langage Python et la présentation du Notebook Jupyter

 

· Acquérir les bonnes pratiques du traitement de données (format de fichier, etc.)

 

· Connecter les traitements avec des sources de données externes (API) et des logiciels.

 

· Produire des documents finalisés : visualisations, tableaux, etc.

 

· Manipuler des formats de données différentes : textes, images, etc.

 

· Identifier les usages avancés : apprentissage automatique, traitement lexicométrique, analyse de réseaux.

 

· Développer l'autonomie dans l'apprentissage

 

· Echanger sur les usages possibles pour des recherches en cours ou à venir

 

· Appliquer à ses données

 

Public visé

 

Cette formation est pensée pour des doctorants•es en SHS (sociologie, géographie, science politique, histoire, droit, etc.) n'ayant pas de notions de programmation et visant à comprendre à la fois la logique et les usages possibles d'un langage de programmation dans leur activité. Une attention particulière est portée sur le lien entre les problématiques SHS et le traitement de données.

 

Trois publics en particulier sont identifiés :

 

- Découverte de l'univers « Python », en particulier pour favoriser les échanges avec des praticiens dans des projets interdisciplinaires

 

- Identification de nouvelles stratégies de recherche

 

- Monter en compétence pour réaliser un traitement sur des données déjà existantes, avec la possibilité de réfléchir à un projet personnel tout du long de la formation.

 

Programme

 

Déroulement

 

La formation consiste en 6 séances de 2h30 en visio le jeudi de 10h à 10h30, avec 2h consacrées à une thématique et un espace d'échange sur les projets en cours. Des exercices seront proposés entre les séances pour permettre des applications.

 

La dernière séance un peu décalée permettra d'avancer dans un projet personnel.

 

Prérequis pour la première séance : installation du logiciel Anaconda qui installe les outils nécessaires (Python ainsi que les autres interfaces) : www.anaconda.com/products/individual

 

 

 

Liste des séances

 

30/03 - Pourquoi programmer en Python?

 

Cette séance sera l'occasion de faire un petit tour du langage Python et de l'univers qui l'entoure, pour identifier les principaux usages en SHS.

 

Langage Python – programmation scientifique – Notebook Jupyter - Exemples

 

06/04 - Les blocs de base du langage

 

Cette séance présentera les principaux ingrédients du langage Python, sa syntaxe et les blocs qui constituent un script : boucle, condition, ouverture d'un fichier, etc. La question des bonnes pratiques de programmation seront abordées.

 

Algorithme – Syntaxe - Fonctions – Bonnes pratiques

 

13/04 – Au-delà du langage : l'univers des bibliothèques et les communautés de pratiques

 

Python désigne à la fois le langage et les outils développés à partir de celui-ci. Les bibliothèques regroupent des outils déjà constitués pour réaliser des traitements plus avancés. Nous verrons comment se repérer dans l'univers de l'open source, identifier une bibliothèque, l'installer et l'utiliser pour collecter des données.

 

Bibliothèques – Scipy – Open source – Collecte de données

 

20/04 - Manipuler des tableaux de données avec Pandas

 

Une bibliothèque s'est imposée pour le traitement des données sous forme de tableaux : Pandas. Entre Excel et une base de données, elle permet d'automatiser de nombreux traitements. Cela nous amènera à charger des fichiers, à manipuler les colonnes en recodant certaines informations et à calculer des statistiques descriptives.

 

Pandas – tableaux – base de données – recodage

 

27/04 - Statistiques et visualisations

 

Cette séance présente les traitements statistiques possibles sur les données ainsi que les usages en termes de visualisation, de vues exploratoires des données à la production de graphiques finalisés pour la publication.

 

Visualisation – Statistiques – Matplotlib - Cartes

 

[Période pour avancer un projet personnel si souhaité]

 

04/05 – Traitements avancés & point projets

 

Dans cette séance, nous aborderons à travers des exemples les usages plus avancés. Nous prendrons en particulier l'exemple des étapes nécessaires pour réaliser le traitement de données non structurées textuelles, allant des approches rapides à mettre en œuvre aux analyses plus spécifiques du langage mobilisant la bibliothèque de TAL SpaCy. Nous prendrons aussi un temps pour échanger sur les applications que vous auriez pu développer sur vos données.

 

Usages avancés – analyse textuelle – données non structurées

 

 

 

 

 

Lieu

en ligne

Information
Places

15

Délai d'inscription 29.03.2023
short-url short URL

short-url URL onepage