AgoraClass & ITINERA ELECTRONICA
Les Approches statistiques hors ligne
1. Description:
Par Approches statistiques il y a lieu d'entendre des applications informatiques relevant de la statistique lexicale. Elles s'intéressent aux formes brutes d'un texte ou d'une oeuvre et ne reposent sur aucune analyse philologique ou linguistique préalable. Elles peuvent être mises en oeuvre tant pour des textes latins que pour des textes français voire pour tout texte utilisant l'alphabet occidental standard.
L'objectif poursuivi par ces applications est la détermination, touche après touche, du profil linguistique de l'auteur analysé. Les variables de ce profil sont ici: la composition et le choix des mots (formes) , les récurrences phoniques, les cooccurrences ou expressions, etc.
Ces applications sont présentées sur la Toile à l'adresse suivante:
http://pot-pourri.fltr.ucl.ac.be/itinera/ & bandeau bleu: "Approches statistiques"
et concernent les investigations suivantes:
- 1. La composition des formes:
il s'agit de traitements relatifs aux caractères (nombre, emplacements et assonances) qui sont les éléments constitutifs des formes
- 2. Les fréquences d'attestations:
les traitements sont relatifs aux attestations des formes (vocabulaire utilisé)
- 3. Les cooccurrences:
il s'agit de traitements relatifs aux attestations de formes examinées deux à deux en vue de la détection d'associations ou d'expressions typiques de l'auteur considéré.
- 4 . Les longueurs de phrases:
les traitements concernent le nombre de formes des différentes phrases et doivent aider à la détermination d'une (éventuelle) typologie.
- 5 . L'enrichissement du vocabulaire:
traitements relatifs à l'évolution linéaire du vocabulaire (apparition de termes non encore utilisés) en fonction d'une découpe en tranches de 100 formes.
- 6 . Mise en évidence d'un fait de langue:
traitements relatifs à des faits de langues isolés dans un ensemble textuel et enchâssés dans une description linguistique donnée.
Procédure particulière: après avoir placé l'extrait à analyser dans le cadre réservé à cet effet, la délimitation des faits de langue à prendre en considération se fait en insérant au début et à la fin de ce fait le signe $ (dollar); après la forme, objet du fait de langue, peuvent être insérés entre parenthèses des descriptifs tels qu'ils sont pratiqués au sein des ITINERA ELECTRONICA (Lexique de base et Précis grammatical). Exemple: fait de langue à oberver: les formes verbales; $ dicunt (V3) $; V3 = verbe de la 3ième conjugaison.
- 7. La comparaison de vocabulaires:
traitements relatifs au vocabulaire des formes de deux ensembles (2 oeuvres ou extraits d'oeuvres d'un même auteur ou 2 oeuvres / extraits de deux auteurs différents) en vue de la détermination des vocabulaires communs aux deux et propres à chacun d'eux.
Procédure particulière: via copier-coller placer les deux extraits (max. 500 lignes chacun) dans les cadres ad hoc. Délimiteurs: extrait 1: #; extrait 2: ##. Cliquer sur CALCULS. Deux tableaux seront produits. Le premier présente en 2 colonnes la liste des formes de chacun des extraits. Listes triées dans l'ordre alphabétique des formes; les formes sont pourvues de leur fréquence d'attestation. Le deuxième tableau est réservé à la juxtaposition des listes du vocabulaire commun aux 2 extraits, puis, de celui propre à chacun d'eux. Les formes sont triées dans l'ordre alphabétique et accompagnées de leurs fréquences d'attestations.
Ces applications existent (ou vont exister) sous deux modes: le mode en ligne et le mode hors ligne.
-
En ligne elles impliquent un accès ouvert aux réseaux de communication pendant la durée de leur mise en oeuvre. Cet accès à la Toile est souvent réalisé au travers d'une ligne téléphonique et d'un modem; liaison qui n'offre pas un débit suffisant pour garantir des délais de réponse les plus brefs possibles aux transactions interactives.
- Pour éviter toute pénalisation du fait d'une ligne de communication à débit lent, ces mêmes applications sont aussi mises à disposition hors ligne: l'utilisateur, après avoir téléchargé le dossier de l'application sur son poste de travail PC (sous Windows 95,98,NT ou 2000) et après avoir procédé à la décompression du dossier, a en mains l'applicatif dont la mise en oeuvre lui procure les statistiques désirées. Avec l'application sont aussi fournis des textes qui peuvent servir d'exempla pour la réalisation de ces statistiques; il s'agit des Sonnets pour Hélène de Ronsard (7 poèmes en français), des livres I à V des Commentaires de la Guerre des Gaules de César (en latin) ainsi que de quelques éditoriaux de magazines français (Le Point, Le Figaro Magazine, Le Nouvel Observateur) .
==> A la date du 12 juin 2001 l'approche Composition des formes est opérationnelle et téléchargeable (itinera_2000.zip - version 1.0 - 6,4 Mo). <==
|
==> A la date du 15 juin 2001 l'approche Fréquences d'attestation est opérationnelle et téléchargeable également (itinera_2000.zip - version 1.1 - 7,8 Mo) . <==
|
==> A la date du 3 août 2001 Toutes les approches (sauf une: "la mise en évidence d'un fait de langue") sont opérationnelles et téléchargeables (itinera_2000.zip - version 2.0 - 5,3 Mo) . <==
|
2. Téléchargement:
Adresse (URL): http://pot-pourri.fltr.ucl.ac.be/itinera/hors_ligne/itinera_2000.zip
Taille du dossier: 5,3 Méga-octets (Mo) [version 2.0].
Durée du téléchargement (via modem et ligne téléphonique): entre 20 et 25 min. (débit: 44 kbps ou +/- 5 Kilo-octets (Ko) / seconde).
3. Procédure d'installation:
- décompression du dossier au moyen, par exemple, du logiciel WINZIP (disponible sur le serveur FTP Pot-pourri);
- installation des contenus via le lancement du programme SETUP.EXE (déroulement en mode semi-automatique)
- Contenus qui seront installés::
a) l'application ITINERA.EXE
b) différentes librairies dynamiques (DLL)
c) textes (à titre d'exempla): 7 poèmes de Ronsard (Sonnets à Hélène), 5 livres d'une oeuvre de César (Commentaires de la Guerre des Gaules), des éditoriaux de magazines français (Le Point, Le Figaro Magazine, Le Nouvel Observateur)
- lancement de l'application ITINERA.EXE: via le menu DEMARRER (en bas du Bureau de travail, à gauche) - option PROGRAMMES - option ITINERA ELECTRONICA - application ITINERA ELECTRONICA. En mémoire vive l'application occupe env. 3 Mo au lancement et env. le double lors du traitement d'un fichier ne dépassant pas 64 Ko (taille max. pour l'affichage du texte).
4. L'application:
- choix du texte à examiner: Barre des menus - option FICHIER - option OUVRIR. Une fenêtre est affichée permettant soit de sélectionner un des textes d'exempla fournis soit d'aller chercher un autre fichier quelque part sur le disque dur du poste de l'utilisateur (via la rubrique LOOK IN) ou encore sur un espace partagé d'un serveur.
- lancement des statistiques: A titre d'exemple: Barre des menus - option STATISTIQUES - option COMPOSITION des FORMES - sélections possibles:
a) Dénombrement: Formes & caractères
b) Dénombrement: Caractères & lettres de l'alphabet
c) Répartition: Lettres de l'alphabet & début / fin des mots
d) Redoublement de lettres dans les mots
e) Récurrences phoniques
5. Interprétation d'un résultat (à titre d'exemple):
- texte choisi: Ronsard, poème Te regardant assise auprès de ta cousine,...
- statistique sélectionnée: Lettres de l'alphabet - répartition pour les débuts et fins de mots.
- résultat: la lettre t est la plus fréquente en début de mot; formes: t (1), ta (1), te (1), teint (1), toi (4), ton (2), tout (1), toute (1), tu (2)
- interprétation possible: c'est le seul poème des Sonnets à Hélène où Ronsard s'adresse à sa belle à la 2ième personne du singulier (TOI, TU, etc.); belle qui ne pense qu'à elle (Pensive toute à toi); le choix des mots semble dès lors être fonction de cette idée maîtresse du poème. Et une simple statistique des lettres en début et fin de mot peut y mener. C'est une touche possible, à confirmer par d'autres analyses.
6. Dépôts de textes (versions électroniques):