base di conoscenza
CTRL+F per cercare la tua parola chiave

Testo parallelo

Un testo parallelo è un testo posto accanto alla sua traduzione o traduzioni. L'allineamento del testo parallelo è l'identificazione delle frasi corrispondenti in entrambe le metà del testo parallelo. La Loeb Classical Library e la Clay Sanskrit Library sono due esempi di serie di testi in due lingue. Le Bibbie di riferimento possono contenere le lingue originali e una traduzione, o più traduzioni da sole, per facilitare il confronto e lo studio; Hexapla di Origene (greco per "sei volte") affiancò sei versioni dell'Antico Testamento. L'esempio più famoso è la pietra di Rosetta.

Grandi raccolte di testi paralleli sono chiamati corpora paralleli (vedi corpus di testo). Allineamenti di corpora paralleli a livello di frase sono prerequisiti per molte aree della ricerca linguistica. Durante la traduzione, le frasi possono essere divise, unite, eliminate, inserite o riordinate dal traduttore. Questo rende l'allineamento un compito non banale.

Tipi di corpora paralleli

Si possono distinguere quattro tipi principali di corpora.

Un corpus parallelo rumoroso contiene frasi bilingui che non sono perfettamente allineate o hanno traduzioni di scarsa qualità. Tuttavia, la maggior parte dei suoi contenuti sono traduzioni bilingui di un documento specifico.

Un corpus comparabile è costruito da documenti bilingui non allineati a frase e non tradotti, ma i documenti sono allineati per argomento.

Un corpus quasi comparabile include documenti bilingui molto eterogenei e non paralleli che possono essere o meno allineati all'argomento.

I corpora paralleli più rari sono corpora che contengono traduzioni dello stesso documento in due o più lingue, almeno allineate a livello di frase.

Rumore nei corpora

I grandi corpora usati come set di addestramento per algoritmi di traduzione automatica sono solitamente estratti da grandi corpi di fonti simili, come database di articoli di notizie scritti nella prima e seconda lingua che descrivono eventi simili.

Tuttavia, i frammenti estratti possono essere rumorosi, con elementi aggiuntivi inseriti in ciascun corpus. Le tecniche di estrazione possono distinguere tra elementi bilingui rappresentati in entrambi i corpora e elementi monolingue rappresentati in un solo corpus al fine di estrarre frammenti paralleli più puliti di elementi bilingui. Corpora comparabili sono usati per ottenere conoscenze direttamente a fini di traduzione. Tuttavia, è difficile ottenere dati paralleli di alta qualità, soprattutto per le lingue con risorse insufficienti.

Bitext

Nel campo degli studi di traduzione un bitext è un documento unito composto da entrambe le versioni della lingua di partenza e di destinazione di un determinato testo.

I bitexts sono generati da un software chiamato strumento di allineamento , o uno strumento bitext , che allinea automaticamente le versioni originali e tradotte dello stesso testo. Lo strumento generalmente corrisponde a questi due testi frase per frase. Una raccolta di bitexts è chiamata database bitext o corpus bilingue e può essere consultata con uno strumento di ricerca.

Bitexts e memorie di traduzione

Il concetto di bitext mostra alcune somiglianze con quello della memoria di traduzione. Generalmente, la differenza più rilevante tra un bitext e una memoria di traduzione è che una memoria di traduzione è un database in cui i suoi segmenti (frasi corrispondenti) sono memorizzati in un modo totalmente estraneo al loro contesto originale; l'ordine di frase originale viene perso. Un bitext mantiene l'ordine delle frasi originale. Tuttavia, alcune implementazioni della memoria di traduzione, come Translation Memory eXchange (TMX), un formato XML standard per lo scambio di memorie di traduzione tra programmi di traduzione assistita da computer (CAT), consentono di preservare l'ordine originale delle frasi.

I Bitexts sono progettati per essere consultati da un traduttore umano, non da una macchina. Pertanto, piccoli errori di allineamento o lievi discrepanze che potrebbero causare il fallimento di una memoria di traduzione non sono importanti.

Nel suo articolo originale del 1988, Harris ha anche ipotizzato che bitext rappresenti il ​​modo in cui i traduttori tengono insieme i loro testi sorgente e target nei loro ricordi di lavoro mentale mentre progrediscono. Tuttavia, questa ipotesi non è stata seguita.