La fonction d’importation de SYSTRAN Dictionary Manager (SDM) vous permet d’ouvrir des dictionnaires créés avec un tableur tel que Microsoft Excel, ou avec un éditeur de texte quelconque.  Ces dictionnaires doivent respecter un format précis pour pouvoir être importés dans SDM. 

Fichiers Microsoft Excel

Pour importer des dictionnaires créés avec Microsoft Excel, les fichiers doivent comporter deux feuilles de calcul nommées d’après les onglets du dictionnaire utilisateur :  Multilingual and Do Not Translate.

Tout comme pour les fichiers de texte formatés, les titres de colonnes du fichier Microsoft Excel pour les colonnes de langues et d’informations du dictionnaire utilisateur doivent être entrés comme vous souhaiteriez qu’elles apparaissent dans SDM. 

Exemple de feuille de calcul Excel

excel sample

Apres l'importation, le fichier Excel apparaît dans SDM comme ceci:

excel sample SDM

Fichiers texte formatés

Les fichiers texte formatés pour une importation dans SDM comportent un en-tête de document et le contenu du dictionnaire. 

  • La partie En-tête du dictionnaire est une suite de lignes commençant par le caractère dièse (#) et contenant un champ d’en-tête suivi de sa valeur.
  • La partie Contenu est une suite de lignes dont chacune représente une entrée de dictionnaire, les champs étant séparés par des tabulations.

Les types de champs sont définis dans l'en-tête. Il est important que toutes les lignes aient le même nombre de champs, même si ceux-ci sont vides.

Champs obligatoires et facultatifs pour l’importation de fichiers dans SDM
En-tête Description de l'entrée
#AUTHOR= Facultatif : contient le nom du créateur du dictionnaire.
#EMAIL= Facultatif : contient l'adresse e-mail du créateur du dictionnaire.
#COVERED DOMAINS= En-tête facultatif : liste tous les domaines configurés dans le dictionnaire.
#ENCODING= Obligatoire : définit l'encodage du fichier. Il est recommandé d’utiliser l’encodage UTF-8.
#GENERAL DICTIONARY DOMAINS= En-tête facultatif : liste tous les domaines système associés au dictionnaire.
#SUMMARY= Obligatoire : nom du fichier de dictionnaire utilisateur.
#MULTI/TM/NORM/DNT

#<Languages><Informational columns>=

Obligatoire : Ces deux lignes figurent à la fin de la section en-tête. 

#MULTI définit  le dictionnaire comme dictionnaire utilisateur,

#TM le définit comme mémoire de traduction, et #NORM comme dictionnaire de normalisation. 

#DNT est utilisé dans les dictionnaires utilisateur pour distinguer les entrées multilingues des entrées DNT (à ne pas traduire).

La seconde ligne décrit la liste des colonnes de la section Contenu.  Elle consiste en une liste de codes séparés par des tabulations, comme décrit dans le Tableau 8 ci-dessous.

Description des différents codes de définition des champs de contenu
Code Règles
XX XX est le code ISO 639 Ce code représente une langue (voir Combinaisons de langues et Codes ISO 639).  La langue source est toujours dans la première colonne et les langues cibles dans les colonnes suivantes.
XX_NO Pour les dictionnaires de normalisation uniquement.  XX correspond au code ISO 639 de la langue source. Ces colonnes représentent les colonnes normalisées.
UPOS Partie du discours de l'utilisateur. Cette entrée correspond à la colonne Catégorie de SDM.
HEADWORD_XX Cette colonne est générée en faisant une exportation. It contains the headword of the corresponding XX field. Pendant l'importation, cette colonne est ignorée.
PRIORITY Colonne Priorité
DOMAINS Colonne Domaine. Les domaines doivent être séparés par une virgule.
FREQUENCY Colonne Fréquence.
EXAMPLE Colonne Exemple.
PROPOSAL STATUS Statut de l'entrée (l'entrée automatiquement extraite a le statut de candidat).
COMMENT Commentaire additionnel sur l'entrée.
EXTRACTION CONFIDENCE S'applique aux entrées automatiquement extraites ; confiance de l'extraction dans une échelle ascendante 0 -1.
PREVIOUS TRANSLATION S'applique aux entrées automatiquement extraites ; la traduction de SYSTRAN par défaut.

Exemple de fichier texte formaté

Le fichier d’exemple suivant est formaté pour une importation comme dictionnaire utilisateur dans SDM.  À noter que TAB indique un caractère de tabulation.

#ENCODING=UTF-8
#AUTHOR=SYSTRAN
#EMAIL=smith@systran.fr
#COVERED DOMAINS=Computers/Data Processing,Perso
#GENERAL DICTIONARY DOMAINS=Computers/Data Processing
#PRIORITY=1
#SUMMARY=Demo Computer
#MULTI
#EN<TAB>FR<TAB>NOTE<TAB>DOMAINS<TAB>PRIORITY<TAB>UPOS 
write cycle<TAB>cycle d'écriture<TAB>Note<TAB>1<TAB>noun
write enable<TAB>validation écriture<TAB><TAB><TAB>noun
#DNT
#EN<TAB>NOTE<TAB>DOMAINS
Print 2000<TAB>It is a DNT<TAB>Perso

Le fichier d’exemple suivant est formaté pour une importation comme mémoire de traduction dans SDM.

#AUTHOR=SYSTRAN
#EMAIL=smith@systran.fr
#ENCODING=UTF-8
#SUMMARY=Demo
#TM
#EN<TAB>FR<TAB>DE
My name is Smith<TAB>Mon nom est Smith<TAB>Mein Name ist Smith
(Visited 921 times, 1 visits today)