Projets ITINERA ELECTRONICA - HODOI ELEKTRONIKAI - HELIOS

Actu' ITINERA+ (Actualités - Nouvelles)


  Accueil     Liste des actualités     Recherche     Actualité     Administration  

Date :     07-07-2006

Sujets :
ITINERA - HODOI : un nouvel outil en ligne : la base de données Du français au latin / grec; Fiches de lecture : 18 ajouts; ITINERA - HODOI : CORPORA : deux nouvelles bases de données globales : HOMÈRE, L'Iliade et CLAUDIEN, Les Panégyriques; ITINERA - HODOI : nouveaux environnements hypertextes : Augustin, Claudien, Lactance - Dion Cassius, Strabon; Statistiques de consultation - juin 2006;

Notice :

1. ITINERA - HODOI : un nouvel outil en ligne :

==> la base de données Du français au latin / grec <==

  • Introduction :

    Les projets ITINERA ELECTRONICA et HODOI ELEKTRONIKAI regorgent de données textuelles (statistiques à la date du 30 juin 2006):

    - latin : 4.418.355 occurrences pour 235.523 formes différentes

    - grec : 2.767.782 occurrences pour 241.097 formes différentes.

    Ces données sont organisées en bases de données consultables

    a) par langue : latin ou grec
    b) par auteur, oeuvre (+ livre)

    parfois des bases de données globales existent : Virgile, Énéide, Sénèque, Tite-Live, Arrien, Hérodote, Homère, ...

    MAIS JAMAIS, lors de consultations, le critère de sélection ne peut être une forme française

    et JAMAIS l'interrogation ne peut porter A LA FOIS sur les données latines et les données grecques.

    De manière à faire aussi du français, attesté dans les traductions, un point d'entrée vers nos banques et bases de données textuelles, nous avons créé une nouvelle base de données :

    Du français au latin / grec

    Les enregistrements de cette base de données sont constitués par les traductions françaises auxquelles sont associées, sous forme de références, des informations relatives à la langue (latin ou grec), à l'auteur, à l'oeuvre, au livre à l'intérieur de l'oeuvre et, enfin, à l'environnement hypertexte.

    La nouvelle base de données repose donc sur ce qui existe déjà, à savoir, 555 bases de données pour le latin et 285 bases de données pour le grec.

    Les enregistrements sont organisés en blocs de données. Un bloc comporte ACTUELLEMENT, en règle générale, le contenu d'un chapitre pour les oeuvres en prose et de l'ordre de 50 vers pour les poèmes. Pour les premiers textes traités par nous les découpes portaient, pour les poèmes, soit sur le vers (Virgile, L'Énéide) soit sur des ensembles de 5 ou de 10 vers.

    L'extraction des traductions françaises a entraîné la création de 51.810 (blocs d') enregistrements dans la nouvelle base de données, arrêtée, pour les contenus, à la date du 30 juin 2006.

  • Consultation :

    Les recherches peuvent être effectuées sur la base de trois critères de sélection : la langue (3 choix possibles), l'auteur (choix via une liste déroulante), la forme (choix de plusieurs formes possible)

    C'est l'opérateur booléen ET qui est associé, par défaut, à ces trois critères. Pour les formes le choix est possible entre les opérateurs ET (associations) - OU (ensembles). La recherche se fait suivant la stratégie full text : la forme est considérée comme une chaîne de caractères qui est sélectionnée, telle quelle, dans toutes les formes où elle est trouvée : ainsi une recherche sur "lance" produit aussi, en résultat, outre "lance", "lances", "lancer", "lancers", "balancer", "relancer" etc. : ce "surplus" d'attestations est appelé, en langage technique, du bruit.

    Méthodologie de la recherche : pour éviter, tant soit peu, le bruit, il est recommandé de faire précéder la forme, qui est l'objet de la recherche, d'un caractère blanc; de la sorte, dans l'exemple donné ci-dessus, les réponses "balancer", "relancer", etc. seront évitées.

    Faire suivre la forme d'un autre caractère blanc peut parfois être judicieux également mais dans le cas ci-dessus "lance", le pluriel "lances" ne sera plus sélectionné.

    Introduire un critère de recherche "indéterminé" comme, par exemple, "bonté", "force", "amour", "malheur" produira des milliers de réponses qui ne pourront être exploitées facilement.

    Une recherche pertinente privilégiera les associations comme, par exemple, caractère blanc - oie ET Capitole; autre exemple : caractère blanc - oiseau ET Stymphale. ou encore : Alexandre ET Diogène. Ce type de recherhe est de nature à produire des résultats sans guère de bruit.

    En conclusion, l'outil, à disposition en libre accès sur la Toile, convient surtout pour des recherches "associatives" et des consultations de noms de personne.

    Présentation des réponses : les résultats d'une recherche sont présentés sous la forme d'un tableau accompagné d'une statistique d'attestation pour le critère de sélection choisi. Pour chaque résultat est indiqué un nombre pourvu d'un hyperlien conduisant à l'affichage, en juxtaposition, du "bloc" texte original - traduction française. Les flèches directionnelles, placées à chaque coin du cadre permettent d'avancer ou de reculer dans le texte pour assurer une meilleure compréhension de celui-ci, s'il échet.

    Pour certains auteurs et/ou oeuvres les chapitres peuvent être particulièrement longs rendant peu aisée la recherche du critère in situ. Pour éviter cet inconvénient, est à l'étude chez nous une procédure permettant d'afficher les critères des réponses en surbrillance dans le texte retenu.

  • Réserves :

    Volume de la littérature traitée: il faut garder à l'esprit qu'une petite partie seulement des littératures latines et grecques conservées ont pu être traitées par nous jusqu'à ce jour : les réponses fournies à une interrogation sont donc, nécessairement, loin d'être exhaustives. Par ailleurs, notre objectif ne vise pas un traitement de TOUTES les sources antiques.

    Synonymes : la langue française est riche en synonymes : pour "lance, à titre d'exemple, on trouve aussi dans nos bases de données les mots "pique", "javelot", "javeline", "dard", "sarisse", etc. Interroger un terme, sans tenir compte des synonymes possibles, ne peut donc produire que des résultats tronqués.

    Latinisations : au XIXe siècle, il était courant de latiniser dans les traductions les noms des divinités : ZEUS devenait JUPITER, POSEIDON devenait NEPTUNE, ATHENA s'appelait MINERVE, etc. L'utilisation de l'opérateur booléen OU permet de remédier (en partie)à cette situation.

    État de la langue : en principe, nous avons dû opter pour des traductions libres de droits; c'est ainsi que bien des traductions remontent aux XVIIIe et XIXe siècles et reflètent ainsi un état de langue aujourd'hui désuet : au lieu de "cheval", il n'est pas rare de rencontrer "coursier" ou "destrier"; l'orthographe est concernée aussi : exemples : "avoit" pour "avait", "isle" pour "île", "enfans" pour "enfants". Sauf oubli, cette orthographe, cependant, a été modernisée lors des traitements réalisés.

  • Apports pédagogiques :

    Pour la première fois, à notre connaissance, les littératures latine et grecque sont considérées et traitées sur la Toile comme un tout homogène : grâce à la traduction française, une recherche sur les oies du Capitole donnera en résultat des "références" à la fois latines et grecques; et les "références" conduiront à l'affichage des extraits originaux accompagnés de la traduction française.

    Les outils Lexique latin-français et Lexique grec-français, constitués par nous, ne comporent d'onomastique; la recherche de noms de personne est maintenant rendue possible via le nouvel outil qui comble de la sorte une lacune en entrées onomastiques, lacune que nos disponibilités réduites ne permettent pas de combler avant longtemps et les appels pour des collaborations à cette fin n'ont trouvé que peu d'échos.

    Le nouvel outil opère la jonction entre les données latines et grecques et constitue dorénavant un point d'entrée de même niveau, valeur et importance vis-à-vis des richesses textuelles "emmagasinées" et traitées dans les dépôts ITINERA et HODOI.

  • Ingénierie NTIC/TICE :

    C'est Boris MAROUTAEFF qui a réalisé l'ensemble de la programmation et des traitements aboutissant à la constitution du nouvel outil et aux possibilités de consultation.

    Une première mise à jour est prévue pour le mois de septembre. La procédure de "surlignement" des critères dans les réponses sera peut-être disponible à ce moment. Les bases de données des environnements hypertextes élaborés depuis la fin du mois de juin seront ajoutées.

    Les avis, souhaits et/ou suggestions des internautes intéressés par la nouvelle réalisation seront reçus avec intérêt et bienveillance.

    Une nouvelle étape est franchie : données latines, françaises et grecques constituent dorénavant un fonds linguistique commun pour les traitements et les outils mis à disposition des Projets ITINERA ELECTRONICA et HODOI ELEKTRONIKAI. A côté des ITINERA et des HODOI, la voie CHEMINS est désormais ouverte.


2. Fiches de lecture :

  • Adresse du site : Lectures (site arrêté à la date du 18 mai 2006)
  • Base de données : Fiches (depuis le 19 mai 2006)
  • Ajouts : ==> Nouveautés <==
Les Nouveautés concernent :

  • ==> LATIN :
  • AUGUSTIN, La cité de Dieu
  • LACTANCE, Des institutions divines
  • ==> GREC :
  • DION CASSIUS, L'Histoire romaine, LXX
  • FLAVIUS JOSÈPHE, La guerre des Juifs contre les Romains,
  • STRABON, Geographica, VIII


3. ITINERA - HODOI & CORPORA : deux nouvelles bases de données globales :

Christian Ruell nous gratifie de deux nouvelles bases de données globales :

  • CORPORA LATIN : Claudien, Les Panégyriques : 7 Éloges

    Statistiques : 7 panégyriques, 22.364 occurrences pour 10.370 formes différentes

  • CORPORA GREC : Homère, L'Iliade : 24 chants

    Statistiques : 24 chants, 111.922 occurrences pour 21.772 formes différentes


4. ITINERA - HODOI : nouveaux environnements hypertextes :

Christian Ruell a trouvé aussi le temps, cette semaine-ci- pour constituer 7 + 2 + 2 grecs = 11 environnements nouveaux :

Les textes bruts de ces oeuvres sont disponibles dans les Dépôts ITINERA et HODOI :


5. Statistiques de consultation - juin 2006 :

  • Site ITINERA ELECTRONICA:
    • sessions de travail ouvertes: 35.371
    • pages visitées: 64.627
    • pages les plus fréquemment demandées: Cours GLOR 2330 (Auteurs latins - P.-A. Deproost; 11.354 pages); Actualités : 8.318 pages ; Cours GLOR 2320 + GLOR 1140 (Monique Mund-Dopchie - Auteurs grecs) : 1.940 + 1.901 pages;

  • Site AGORACLASS - Environnements hypertextes (hors Corpora) :
    • sessions de travail ouvertes: 86.229 (robots d'indexation exclus)
    • pages visitées : 541.507
    • pages les plus visitées : Sénèque, De la tranquillité (7.026 pages); Érasme, Éloge de la folie + Enchiridion: 4.424 + 9.246 pages;

  • Site AGORACLASS (CORPORA):
    • sessions de travail ouvertes: 18.147
    • pages visitées: 880.567
    • bases de données les plus fréquemment consultées: ; Ammien Marcellin : 113.934 pages; Apulée : 67.771 pages; Sénèque (Lettres; 41.616 pages);

  • Site BCS (Bibliotheca Classica Selecta):
    • sessions de travail ouvertes: 132.476
    • pages visitées: 291.545
    • pages les plus fréquemment demandées: Folia Electronica Classica (58.543 pages); Suétone (30.914 pages); Virgile (20.863 pages); Précis grammatical (latin) : 9.852 pages ; Précis grammatical (grec) : 6.980

  • Site LCE (Lupa Capitolina Electronica):
    • sessions de travail ouvertes: 10.854
    • pages visitées: 17.407

  • Site COLLATINVS-UCL (lemmatisation - dictionnaire latin-français) :
    • sessions de travail ouvertes: 10.752
    • pages visitées: 11.360

  • Site HODOI ELEKTRONIKAI (Environnements hypertextes grecs) :
    • sessions de travail ouvertes: 29.484
    • pages visitées: 165.042
    • pages les plus fréquemment demandées: Arrien, Anabase, II : 3.099 pages; Eschyle, Agamemnon : 5.711 pages; Hérodote, Histoires, I : 3.199 pages; Lucien, Banquet : 3.454 pages; Platon, Banquet : 6.129 pages; Plutarque, Vie de Thésée : 4.569 pages; Xénophon, Banquet : 3.606 pages; HODOI - : 3.779 pages;

  • Site HELIOS (Coopération Grenoble (LOG) - UCL-LLN (FLTR/GLOR) : Langues anciennes) :
    • sessions de travail ouvertes: 8.398
    • pages visitées: 18.315
    • dossier le plus visité : Leçon Tite-Live : 2.423 pages; Leçon Platon : 1.801 pages visitées; Leçon Didon : 1.308 pages; Leçon Confidence horatienne : 1.523


État de la banque de textes latins :

  • Etat du dictionnaire au 8 juillet 2006 :

    239.077 formes différentes.
  • Etat du corpus de textes traités au 8 juillet 2006:

    60 auteurs, 615 oeuvres, 4.544.868 occurrences.

  • État de la banque de textes grecs :

  • Etat du dictionnaire au 7 juillet 2006:

    246.303 formes différentes.
  • Etat du corpus de textes traités au 7 juillet 2006:

    31 auteurs, 290 oeuvres, 2.875.833 occurrences.

  • Jean Schumacher
    7 juillet 2006


     
    UCL | FLTR | Itinera Electronica | Bibliotheca Classica Selecta (BCS) |
    Analyse, design et réalisation informatiques : B. Maroutaeff - J. Schumacher

    Dernière mise à jour : 17/02/2002