SL0720X - Génération de pages HTML en Python et mise en forme automatique d'un texte étiqueté
Exercice à rendre pour le 20 mai au plus tard
Modalités
- Possibilité de travailler individuellement, en binôme ou trinôme
- Envoi par mail d'une archive contenant :
- votre fichier étiqueté
- votre programme python
- vos fichiers de sortie
- un document PDF avec vos commentaires qui comporte le(s) nom(s) du/des étudiant(s)
- J'accuserai la bonne réception de votre travail.
Si vous n'avez pas reçu d'email le 24 mai au soir, contactez-moi à nouveau.
- Parce qu'il n'est jamais trop tard : pas d'espace ni d'accent (ou autre diacritique) dans les noms de fichiers
Exercice
Le but de cet exercice est d'apprendre à générer une page HTML par programme (Python)
et à exploiter une sortie de TreeTagger pour la formater en HTML.
-
Écrivez un programme qui :
- ouvre en écriture un fichier (nommé, par exemple, "index.html")
- écrit dans ce fichier le code HTML minimal d'une page, avec un titre et un texte :
il s'agit d'écrire du texte et des balises HTML à l'aide de l'instruction print de Perl
- ferme le fichier
-
Observez :
- le code du fichier HTML produit dans un éditeur de texte
- le résultat dans un navigateur
-
En reprenant le programme précédent,
écrivez un programme qui lit un fichier étiqueté par TreeTagger et produit en sortie un document HTML dans lequel :
- Les noms communs sont écrits en vert et les verbes en rouge
- Les noms propres sont écrits en italique
- Les mots inconnus de TreeTagger sont en gras
- Un retour à la ligne entre les phrases (et seulement entre les phrases).
[ Exemple de résultat... ]
Testez ce programme sur un des textes étiquetés lors des séances précédentes (ou un nouveau texte de votre choix).
-
Pour aller plus loin :
reprenez ce programme et, sur chaque mot connu (de TreeTagger), ajoutez un lien vers son entrée dans le TLFi sur le site du CNRTL.
Par exemple, l'entrée balise du TLFi a pour adresse :
http://www.cnrtl.fr/definition/balise
Note : on suppose ici que la majorité des mots connus de TreeTagger sont dnas le TLFi.
Il peut arriver que certains en soient absents. Dans ce cas, le lien vers le site du CNRTL ne marchera pas.
[ Exemple de résultat... ]
[ Mention légale ]