Information détaillée concernant le cours

[ Retour ]
Titre

PySHS Python pour les SHS

Dates

05.04; 12.04; 19.04; 26.04; 03.05; 17.05

Organisateur(s)/trice(s)
Intervenant-e-s

Dr Emilien Schultz, Université de Paris

Dr Matthias Bussonier, Quansight, USA

Description

Présentation générale

Cette formation propose une initiation à la programmation Python pour des doctorants•es en

sciences humaines et sociales (SHS), pensée pour les usages en SHS.

Python est un langage de programmation simple, libre, multi-plateforme, pédagogique, bénéficiant

d'une communauté d'utilisateurs•rices croissante tant dans le domaine universitaire que le secteur

privé.

Avec la multiplication des données numériques dans les sciences humaines et sociales (SHS), le

traitement des données devient incontournable tant pour la collecte, la mise en forme, ou la

production de résultats. Si une partie de ces traitements sont intégrés dans des logiciels dédiés, la

programmation scientifique en général et le langage Python en particulier permet d'introduire de la

souplesse, de l'adaptation et de la créativité dans le traitement des données tout en permettant

d'intégrer les nombreuses solutions existantes développées par les communautés scientifiques.

Concrètement, la programmation scientifique permet ainsi à la fois de réaliser les traitements

statistiques habituels des SHS tout en ouvrant aux nouveaux usages liés à l'automatisation des tâches

informatiques, le traitement des grands corpus des humanités numériques ou encore la collecte de

données sur les réseaux sociaux.

Cette formation insiste sur l'usage du langage Python comme un outil pour le script scientifique. En

effet, il permet facilement de jouer une fonction de « liant » (ou de « colle ») pour traiter les données

et faire le lien entre des logiciels déjà existants. D'ailleurs, plusieurs logiciels (QGIS, SPSS, …)

permettent d'introduire du script Python dans les traitements pour compléter les opérations.

Par ailleurs, l'apprentissage des bases de Python permet non seulement de renforcer sa culture

informatique, ouvrant ce faisant la voie à de nouvelles stratégies d'analyses, mais aussi d'envisager

différemment le rapport aux données, la conceptualisation mais aussi la collaboration avec le partage

du code et les enjeux de reproductibilité des analyses. Python participe, aux côtés d'autres logiciels

et langages, à la construction du code libre et d'une recherche ouverte et reproductible.

 

Objectifs de la formation

- Comprendre les forces de Python pour le script scientifique en SHS

- Maîtriser les bases du langage Python et la présentation du Notebook Jupyter

- Acquérir les bonnes pratiques du traitement de données (format de fichier, etc.)

- Connecter les traitements avec des sources de données externes (API) et des logiciels.

- Produire des documents finalisés : visualisations, tableaux, etc.

- Manipuler des formats de données différentes : textes, images, etc.

- Identifier les usages avancés : apprentissage automatique, traitement lexicométrique,

analyse de réseaux.

- Développer l'autonomie dans l'apprentissage

- Echanger sur les usages possibles pour des recherches en cours ou à venir

 

Public visé

Cette formation est pensée pour des doctorants•es en SHS (sociologie, géographie, science politique,

histoire, droit, etc.) n'ayant pas de notions de programmation et visant à comprendre à la fois la

logique et les usages possibles d'un langage de programmation dans leur activité. Une attention

particulière est portée sur le lien entre les problématiques SHS et le traitement de données.

Trois publics en particulier sont identifiés :

- Découverte de l'univers « Python », en particulier pour favoriser les échanges avec des

praticiens dans des projets interdisciplinaires

- Identification de nouvelles stratégies de recherche

- Monter en compétence pour réaliser un traitement sur des données déjà existantes

Programme

05/04 - Pourquoi programmer en Python?

Cette séance sera l'occasion de faire un petit tour du langage Python et de l'univers qui l'entoure,

pour identifier les principaux usages en SHS.

Langage Python – programmation scientifique – Notebook Jupyter - Exemples

 

12/04 - Les blocs de base du langage

Cette séance présentera les principaux ingrédients du langage Python, sa syntaxe et les blocs qui

constituent un script : boucle, condition, ouverture d'un fichier, etc. La question des bonnes

pratiques de programmation seront abordées.

Algorithme – Syntaxe - Fonctions – Bonnes pratiques

 

19/04 – Au-delà du langage : l'univers des bibliothèques et les communautés de pratiques

Python désigne à la fois le langage et les outils développés à partir de celui-ci. Les bibliothèques

regroupent des outils déjà constitués pour réaliser des traitements plus avancés. Nous verrons

comment se repérer dans l'univers de l'open source, identifier une bibliothèque, l'installer et l'utiliser

pour collecter des données.

Bibliothèques – Scipy – Open source – Collecte de données

 

26/04 - Manipuler des tableaux de données avec Pandas

Une bibliothèque s'est imposée pour le traitement des données sous forme de tableaux : Pandas.

Entre Excel et une base de données, elle permet d'automatiser de nombreux traitements. Cela nous

amènera à charger des fichiers, à manipuler les colonnes en recodant certaines informations et à

calculer des statistiques descriptives.

Pandas – tableaux – base de données – recodage

 

03/05 - Statistiques et visualisations

Cette séance présente les traitements statistiques possibles sur les données ainsi que les usages en

termes de visualisation, de vues exploratoires des données à la production de graphiques finalisés

pour la publication. Un focus sera fait sur la visualisation de données géographiques

Visualisation – Statistiques – Matplotlib - Cartes

 

10/05 – Traitements avancés – le cas de l'analyse lexicométrique

Dans cette séance, nous aborderons à travers des exemples les usages plus avancés. Nous prendrons

en particulier l'exemple des étapes nécessaires pour réaliser le traitement de données non

structurées textuelles, allant des approches rapides à mettre en œuvre aux analyses plus spécifiques

du langage.

Usages avancés – analyse textuelle – données non structurées - automatisation

Lieu

en ligne

Information

La formation consiste en 6 séances de 2h30 en visio le mardi de 10h à 12h30,

avec 2h consacrées à une thématique et un espace d'échange sur les projets en cours.

En fonction des centres d'intérêt des inscrit.e.s, certaines thématiques abordées pourront être

modifiées.

 

Prérequis pour la première séance : installation du logiciel Anaconda qui installe les outils nécessaires

(Python ainsi que les autres interfaces) : www.anaconda.com/products/individual

Dépôt de la formation pour tous les documentshttps://github.com/pyshs/CUSO-2022-printemps

Places

20

Délai d'inscription 04.04.2022
short-url short URL

short-url URL onepage