PhD thesis “Arabic Text Recognition and Machine Translation”, by Ihab Khoury: abstract

[EN] Abstract of the PhD thesis “Arabic Text Recognition and Machine Translation”, by Ihab Khoury (advisors: Alfons Juan Ciscar and Jesús Andrés Ferrer)

[AR] الخلاصة

[CA] Resum

[ES] Resumen

Find here the full text of this PhD dissertation


English

Research on Arabic Handwritten Text Recognition (HTR) and
Arabic-English Machine Translation (MT) has been usually approached as
two independent areas of study. However, the idea of creating one
system that combines both areas together, in order to generate English
translation out of images containing Arabic text, is still a very
challenging task. This process can be interpreted as the translation
of Arabic images. In this thesis, we propose a system that recognizes
Arabic handwritten text images, and translates the recognized text
into English. This system is built from the combination of an HTR
system and an MT system.

Regarding the HTR system, our work focuses on the use of Bernoulli
Hidden Markov Models (BHMMs). BHMMs had proven to work very well with
Latin script. Indeed, empirical results based on it were reported on
well-known corpora, such as IAM and RIMES. In this thesis, these
results are extended to Arabic script, in particular, to the
well-known IfN/ENIT and NIST OpenHaRT databases for Arabic handwritten
text.

The need for transcribing Arabic text is not only limited to
handwritten text, but also to printed text. Arabic printed text might
be considered as a simple form of handwritten text version. Thus, for
this kind of text, we also propose Bernoulli HMMs. In addition, we
propose to compare BHMMs with state-of-the-art technology based on
neural networks.

A key idea that has proven to be very effective in this application of
Bernoulli HMMs is the use of a sliding window of adequate width for
feature extraction. This idea has allowed us to obtain very
competitive results in the recognition of both Arabic handwriting and
printed text. Indeed, a system based on it ranked first at the ICDAR
2011 Arabic recognition competition on the Arabic Printed Text Image
(APTI) database. Moreover, this idea has been refined by using
repositioning techniques for extracted windows, leading to further
improvements in Arabic text recognition.

In the case of handwritten text, this refinement improved our system
which ranked first at the ICFHR 2010 Arabic handwriting recognition
competition on IfN/ENIT. In the case of printed text, this refinement
led to an improved system which ranked second at the ICDAR 2013
Competition on Multi-font and Multi-size Digitally Represented Arabic
Text on APTI. Furthermore, this refinement was used with neural
networks-based technology, which led to state-of-the-art results.

For machine translation, the system was based on the combination of
three state-of-the-art statistical models: the standard phrase-based
models, the hierarchical phrase-based models, and the N-gram
phrase-based models. This combination was done using the Recognizer
Output Voting Error Reduction (ROVER) method. Finally, we propose
three methods of combining HTR and MT to develop an Arabic image
translation system. The system was evaluated on the NIST OpenHaRT
database, where competitive results were obtained.

Full text


العربية

لَقد تمّ في السابق دراسة موضوعَيّ التعرُّف التلقائي على النصوص العربية
المكتوبة بخط اليّد (HTR) والترجمة التلقائية (MT) من اللّغة العربية إلى
اللّغة الانجليزية كَمجالَيّن مُنفَصِلين عن بعضهما. إنّ فكرة عمل نظام واحد
قادر على دمج كلا هذين المجالين معاً من أجل إنتاج الكلمات والنصوص
الانجليزية من صورٍ تحتوي على نصوص عربية، مازالت تُعدُّ عملية صعبة
المنال. هذه العملية تسمى عملية ترجمة الصور المحتوية على نصوص عربية. في
هذه الأطروحة سوف نعرض نظاماً قادراً على فَهم الكلمات والنصوص المكتوبةِ
بخط اليّد المدرجة في الصور، وترجمتها إلى اللّغة الانجليزية. إنّ هذا
النظام مبنيٌّ من عملية دمج كُلّاً من نظاميّ HTR و MT معاً.

بالنسبة لنظام التعرف التلقائي على النصوص المكتوبة بخط اليّد HTR،
فيتركز عملنا على استخدام نماذج ماركوف المخفية باستخدام توزيعات برنولي
BHMMs. لقد أثبتت هذه النماذج قدرتها على العمل بشكل جيد جداً مع النصوص
اللاتينية. كدليلٍ لهذا، فقد تم نشر نتائج مهمة لهذه النماذج بعد تجربتها
على قواعد بيانات لمجموعة نصوص معروفة مثل IAM و RIMES. في هذه الأطروحة
سيتم توسيع هذه النتائج بتجربتها على قواعد بيانات لنصوص عربية مكتوبة
بخط اليد مثل IfN/ENIT و OpenHaRT.

إن الحاجة إلى التدوين الأوتوماتيكي للنصوص العربية في يومنا هذا لا
يقتصر فقط على النصوص المكتوبة بخط اليّد، وإنما يشمل النصوص المطبوعة
أيضاً. يمكننا اعتبار النصوص العربية المطبوعة كنوع مبسّط من النصوص
المكتوبة بخط اليد حيث أن مشكلة تنوّع أشكال الكتابة من شخص إلى أخر غير
موجودة. لهذا السبب سنقترح في هذه الأطروحة تطبيق نماذج BHMMs مع هذا
النوع من النصوص أيضاً. بالإضافة إلى ذلك، فإننا سنُقارن نماذج BHMMs مع
إحدى أحدث النماذج المبنية على الشبكات العصبونية الاصطناعية (neural networks).

من أكثر الطرق المستعملة في هذا المجال التي أثبتت فعاليتها مع نماذج
BHMMs عند استخراج خصائص الصورة، هي طريقة استعمال النافذة المنزلقة
(sliding window) ذات العرض المناسب. قد سَمَحَت لنا هذه الطريقة بالحصول على
نتائج منافسة جداً في عملية التعرف التلقائي على النصوص المكتوبة بخط
اليّد والنصوص المطبوعة. في الواقع، إن نظاماً مبنياً على هذه الطريقة قد
تم منحه الدرجة الآولى في مسابقة ICDAR 2011 Arabic recognition
competition باستخدام قاعدة البيانات (Arabic Printed Text Image (APTI.
وعلاوة على ذلك، قد تم تطوير هذه الطريقة باستخدام تقنيات إعادة تموضع
النوافذ المستخرجة (repositioning)، التي أدّت إلى تحسين عملية التعرف
التلقائي على النصوص العربية.

إن طريقة ال repositioning قد قادت إلى نظام متطور احتلّ المركز الأول في
مسابقة ICFHR 2010 Arabic handwriting recognition باستخدام قاعدة
البيانات IfN/ENIT في حالة التعرف التلقائي على النصوص المكتوبة، والمركز
الثاني في مسابقة ICDAR 2013 Multi-font and Multi-size Digitally
Represented Arabic Text في حالة التعرف التلقائي على النصوص المطبوعة
باستخدام قاعدة البيانات APTI. علاوة على ذلك، فقد تم استخدام هذه
الطريقة (repositioning) مع النماذج المبنية على الشبكات العصبونية
الاصطناعية (neural networks)، الذي حصل على أفضل النتائج ليومنا هذا.

أما بالنسبة للترجمة التلقائية، إن نظامنا قد تم بنائه عن طريق دمج
ثلاثةَ من أحدث النماذج المتوفرة، ألا وهي: نماذج standard
phrase-based، نماذج hierarchical phrase-based،
ونماذج N-gram phrase-based. إن عملية الدمج هذه قد تمّت
باستخدام طريقة (Recognizer Output Voting Error Reduction (ROVER.

أخيراً، فإننا نقترح في هذه الأطروحة ثلاثة طرق للجمع بين نظامَيّ
HTR و MT لتطوير نظام الترجمة للصور المحتوية على نصوص عربية. قد
تم اختبار هذا النظام على قاعدة البيانات NIST OpenHaRT’13, حيث تم
الحصول على نتائج منافسة جداً.

Full text


Català

“Reconeixement de text i traducció automàtica de la llengua àrab”,
per Ihab Khoury (directors: Alfons Juan Ciscar i Jesús Andrés Ferrer)

El reconeixement de text manuscrit (HTR) en àrab i la traducció
automàtica (MT) de l’àrab a l’anglès s’han tractat habitualment com
dues àrees d’estudi independents. De fet, la idea de crear un sistema
que combine les dues àrees, que directament genere text en anglès a
partir d’imatges que contenen text en àrab, continua sent una tasca
difícil. Aquest procés es pot interpretar com la traducció d’imatges
de text en àrab. En aquesta tesi, es proposa un sistema que reconeix
les imatges de text manuscrit en àrab, i que tradueix el text
reconegut a l’anglès. Aquest sistema està construït a partir de la
combinació d’un sistema HTR i d’un sistema MT.

Pel que fa al sistema HTR, el nostre treball s’enfoca en l’ús dels
Bernoulli Hidden Markov Models (BHMMs). Els models BHMMs ja han estat
provats anteriorment en tasques amb alfabet llatí obtenint bons
resultats. De fet, existeixen resultats empírics publicats emprant
corpus coneguts, tals com IAM o RIMES. En aquesta tesi, aquests
resultats s’han estès a la escriptura manuscrita en àrab, en
particular, a les bases de dades IfN/ENIT i NIST OpenHaRT.

En aplicacions reals, la transcripció de text en àrab no es limita
únicament al text manuscrit, sinó també al text imprès. El text imprès
es pot interpretar com una forma simplificada de text manuscrit. Per
tant, per a aquest tipus de text, també proposem l’ús de models BHMMs.
A més a més, aquests models s’han comparat amb tecnologia de l’estat
de l’art basada en xarxes neuronals.

Una idea clau que ha demostrat ser molt eficaç en l’aplicació de
models BHMMs és l’ús d’una finestra lliscant (sliding window)
d’amplària adequada durant l’extracció de característiques. Aquesta
idea ha permès obtenir resultats molt competitius tant en el
reconeixement de text àrab manuscrit com en el de text imprès. De fet,
un sistema basat en aquest tipus d’extracció de característiques va
quedar en primera posició en el concurs ICDAR 2011 Arabic recognition
competition emprant la base de dades Arabic Printed Text Image (APTI).
A més a més, aquesta idea s’ha perfeccionat mitjançant l’ús de
tècniques de reposicionament aplicades a les finestres extretes,
donant lloc a noves millores en el reconeixement de text en àrab.

En el cas de text manuscrit, aquest refinament ha aconseguit millorar el
sistema que va ocupar el primer lloc en el concurs ICFHR 2010 Arabic
handwriting recognition competition usant IfN/ENIT. En el cas del text
imprès, aquest refinament va conduir a un sistema millor que va ocupar
el segon lloc en el concurs ICDAR 2013 Competition on Multi-font and
Multi-size Digitally Represented Arabic Text en el qual s’usava APTI.
D’altra banda, aquesta tècnica s’ha avaluat també en tecnologia basada
en xarxes neuronals, el que ha portat a resultats de l’estat de l’art.

Respecte a la traducció automàtica, el sistema s’ha basat en la
combinació de tres tipus de models estadístics de l’estat de l’art:
els models standard phrase-based, els models hierarchical phrase-based
i els models N-gram phrase-based. Aquesta combinació es va fer
utilitzant el mètode Recognizer Output Voting Errada Reduction
(ROVER). Finalment, s’han proposat tres mètodes per combinar els
sistemes HTR i MT amb la finalitat de desenvolupar un sistema de
traducció d’imatges de text àrab a anglès. El sistema s’ha avaluat
sobre la base de dades NIST OpenHaRT, on s’han obtingut resultats
competitius.

Accés a la tesi


Castellano

“Reconocimiento de texto y traducción automática de la lengua árabe”,
por Ihab Khoury (directores: Alfons Juan Ciscar y Jesús Andrés Ferrer)

El reconocimiento de texto manuscrito (HTR) en árabe y la traducción
automática (MT) del árabe al inglés se han tratado habitualmente como
dos áreas de estudio independientes. De hecho, la idea de crear un
sistema que combine las dos áreas, que directamente genere texto en
inglés a partir de imágenes que contienen texto en árabe, sigue siendo
una tarea difícil. Este proceso se puede interpretar como la
traducción de imágenes de texto en árabe. En esta tesis, se propone un
sistema que reconoce las imágenes de texto manuscrito en árabe, y que
traduce el texto reconocido al inglés. Este sistema está construido a
partir de la combinación de un sistema HTR y un sistema MT.

En cuanto al sistema HTR, nuestro trabajo se enfoca en el uso de los
Bernoulli Hidden Markov Models (BHMMs). Los modelos BHMMs ya han sido
probados anteriormente en tareas con alfabeto latino obteniendo buenos
resultados. De hecho, existen resultados empíricos publicados usando
corpus conocidos, tales como IAM o RIMES. En esta tesis, estos
resultados se han extendido al texto manuscrito en árabe, en
particular, a las bases de datos IfN/ENIT y NIST OpenHaRT.

En aplicaciones reales, la transcripción del texto en árabe no se
limita únicamente al texto manuscrito, sino también al texto impreso.
El texto impreso se puede interpretar como una forma simplificada de
texto manuscrito. Por lo tanto, para este tipo de texto, también
proponemos el uso de modelos BHMMs. Además, estos modelos se han
comparado con tecnología del estado del arte basada en redes
neuronales.

Una idea clave que ha demostrado ser muy eficaz en la aplicación de
modelos BHMMs es el uso de una ventana deslizante (sliding window) de
anchura adecuada durante la extracción de características. Esta idea
ha permitido obtener resultados muy competitivos tanto en el
reconocimiento de texto manuscrito en árabe como en el de texto
impreso. De hecho, un sistema basado en este tipo de extracción de
características quedó en la primera posición en el concurso ICDAR 2011
Arabic recognition competition usando la base de datos Arabic Printed
Text Image (APTI). Además, esta idea se ha perfeccionado mediante el
uso de técnicas de reposicionamiento aplicadas a las ventanas
extraídas, dando lugar a nuevas mejoras en el reconocimiento de texto
árabe.

En el caso de texto manuscrito, este refinamiento ha conseguido
mejorar el sistema que ocupó el primer lugar en el concurso ICFHR 2010
Arabic handwriting recognition competition usando IfN/ENIT. En el caso
del texto impreso, este refinamiento condujo a un sistema mejor que
ocupó el segundo lugar en el concurso ICDAR 2013 Competition on
Multi-font and Multi-size Digitally Represented Arabic Text en el que
se usaba APTI. Por otro lado, esta técnica se ha evaluado también en
tecnología basada en redes neuronales, lo que ha llevado a resultados
del estado del arte.

Respecto a la traducción automática, el sistema se ha basado en la
combinación de tres tipos de modelos estadísticos del estado del arte:
los modelos standard phrase-based, los modelos hierarchical
phrase-based y los modelos N-gram phrase-based. Esta combinación se
hizo utilizando el método Recognizer Output Voting Error Reduction
(ROVER). Por último, se han propuesto tres métodos para combinar los
sistemas HTR y MT con el fin de desarrollar un sistema de traducción
de imágenes de texto árabe a inglés. El sistema se ha evaluado sobre
la base de datos NIST OpenHaRT, donde se han obtenido resultados
competitivos.

Acceso a la tesis