Accueil - Home arrow Alinea 05-04-2020  
 
 

 

 
Main Menu
Accueil - Home
Qui suis-je - Who am I
Cours
Recherches - Research
Alinea
Multi-Aligneur JAM
ConcQuest
AnaText
WebAlignToolkit
Chercher sur le site
Corpus multilingues - Multilingual corpus
Perl Corpus Processor (PCP)
Notes en vrac

 

 
Alinea Convertir en PDF  | Version imprimable |  Suggérer par mail

Alinea

Référence / Please refer to :

Kraif O. (2001) Exploitation des cognats dans les systèmes d’alignement bi-textuel : architecture et évaluation, TAL 42 :3, ATALA, Paris, pp. 833-867.

 

 

Alinea est un programme dédié à la constitution et à l'édition de corpus bilingues alignés.

Plateforme

  • Pour le moment : Windows 32 (2000, NT et XP) et Linux 32 (pour Alinea Lite, ou en utilisant wine)

Fonctionnalités

  • Alignement automatique au niveau des phrases
  • Comparaison d'alignements et évaluation (précision et rappel)
  • Edition manuelle d'alignement
  • Recherche complexe et concordance avec des critères bilingues (expressions régulières, étiquettes XML)
  • Extraction de correspondances lexicales
  • Extraction de lexiques bilingues
  • Paramètres optimisés pour de nombreuses langues (comprenant :  ar de en el es fr fa it jp ru zh).

Formats supportés

  • texte brut ISO-Latin-1 et UTF-8
  • XCES
  • XML avec segmentation, tokenisation, lemmatisation, étiquettes morphosyntaxiques
  • Sorties de Treetagger
  • Exportation en texte, KWIC, XML, TMX  et HTML

Langue de l'interface

  • Pour le moment : français
  • Bientôt : version anglaise et espagnole
   

Alinea is dedicated to bilingual aligning and concordancing.

 
Platform

  • For the moment :  Windows 32  (2000, NT et XP), Linux 32 (for Alinea Lite, or using wine)

Functionnalities

  • Automatic sentence aligning
  • Alignement comparison and evaluation (precision and recall).
  • Manual editing of alignment.  
  • Searching and concordancing using bilingual criterion and complex querying (regular expressions, XML tags).
  • Lexical spotting
  • Bilingual lexicon extraction
  • Optimized parameters for many languages (including : ar de en el es fr fa it jp ru zh)

Supported formats

  • raw texte ISO-Latin-1 and UTF-8
  • XCES
  • XML with sentence segmentation, tokenization, lemmatization, morphosyntactic tags
  • Treetagger outputs
  • Exportation in  text, KWIC, XML, TMX and HTML

Interface language

  • For the moment : French
  • Forthcoming : English and Spanish
Dernière mise à jour : ( 24-03-2017 )
 
 
© 2020 Site personnel de Olivier Kraif - Olivier Kraif's Homepage