La plateforme Estrades en partenariat avec la Plateforme Humanités de la MISHA et le Lab de la BNU propose 5 demi journées de formation autour de l'édition structurée de corpus textuels, du 14 au 16 juin à Strasbourg.
Ces demi-journées ont pour objectifs de montrer les principales étapes nécessaires à la production d'éditions critiques numériques depuis l'acquisition semi-automatisée d'un texte jusqu'à sa mise en forme pour le web, en passant par son enrichissement et son analyse.
Programme
14 juin matin : HTR et OCR
Formation initiale à l’utilisation du logiciel escriptorium développé à PSL qui permet de faciliter la transcription via la reconnaissance d'écritures manuscrites (HTR) ou de caractères imprimés (OCR).
14 juin après midi : expressions régulières et HTML
Une fois transcrit, le texte brut doit être structuré afin d'être correctement affiché sur un écran (titres, paragraphes, etc.). Nous découvrirons pour cela le langage HTML (HyperText Markup Langage), qui se cache derrière n'importe quelle page web, mais aussi les expressions régulières qui permettront de « baliser » plus rapidement le texte brut vers du HTML. Quelques exercices de niveau adaptatif seront proposés afin de structurer soi même pour la première fois (ou non) des données textuelles.
15 juin matin : TEI
L'expérience du HTML nous aura montré les limites de ce langage pour l'annotation fine à visée d'analyse. Cette matinée sera consacrée à la TEI (Text Encoding Initiative) qui est un vocabulaire XML à la croisée des besoins de la recherche en sciences humaines et de l'édition.
15 juin après midi : XSLT
A partir d'un document encodé en TEI, nous verrons comment basculer d'un format à un autre (XML TEI -> HTML, ou l'inverse) ou comment transformer son document en vue de son affichage en utilisant le langage de transformation XSLT (eXtensible Stylesheet Language).
16 juin matin : BaseX et XQuery
Enfin, la dernière matinée sera consacrée au langage XQuery qui permet d'interroger finement des document XML. Là encore, nous repartirons des fichiers TEI pour voir quelles exploitations nous pouvons en faire en plus des aspects éditoriaux et d'affichage.
Date et lieu
Strasbourg, 5 rue Maréchal Joffre (BNU - DataLab)
14-16 juin 2023
Matinées : 9h30-12h30
Après-midi : 14h-17h (sauf le 16/06, fin à 12h30)
Public
Ces journées sont ouvertes aux chercheur.euse.s, doctorant.e.s, ingénieur.e.s et étudiant.e.s.
Aucun niveau n’est demandé et les débutant.e.s sont les bienvenu.e.s ! (mais attendez vous quand même à faire un peu d’informatique ^_^)
Matériel
Il vous faudra venir avec un votre matériel (un ordinateur portable fonctionnant sous Windows, MacOS ou Linux – les tablettes ou les machines fonctionnant sous Android comme les ChromeBook ne seront pas suffisantes).
Inscription requise à cette adresse avant le 10 juin 2023
Attention :
- Le nombre d'inscriptions est limité à 15.
- Pour des questions d’organisation et de places, nous privilégierons les inscriptions pour l’ensemble des 5 demi-journées.
- Si vous souhaitez n’assister qu’à certains ateliers, merci de nous contacter par mail (gporte[at]unistra.fr) et nous essaierons de vous répondre au mieux en fonction des places disponibles.
Organisation et formateur.ice.s
Arthur Brody (BNU) arthur.brody[at]bnu.fr
Jeanne Flamant (BNU) jeanne.flamant[at]bnu.fr
Madeleine Hubert (BNU) madeleine.hubert[at]bnu.fr
Guillaume Porte (ARCHE UMR3400) gporte[at]unistra.fr
Elsa Van Kote (MISHA) elsa.van-kote[at]unistra.fr
Amélie Quilichini (BNU) quilichini.amelie[at]bnu.fr
Rosanne Wingert (BNU) rosanne.wingert[at]bnu.fr