بعد بداية بطيئة، يحاول الذكاء الاصطناعي التعامل مع اللغات الأفريقية

بعد بداية بطيئة، يحاول الذكاء الاصطناعي التعامل مع اللغات الأفريقية

[ad_1]

رسالة من أفريقيا

محطة قطار في دير داوا، مدينة في شمال شرق إثيوبيا، 2013. JENNY VAUGHAN / AFP

اطلب من ChatGPT، برنامج الدردشة الآلي الذي صممته OpenAI، أن يقوم بإدراج أسماء الدول الأفريقية باللغة الإنجليزية. حتى الان جيدة جدا. قم بتعقيد الأمور قليلاً عن طريق سؤالها باللغة التغرينية، وهي اللغة المستخدمة في إريتريا وشمال إثيوبيا. “النتيجة رطانة: مزيج من اللغة الأمهرية (لغة إثيوبية أخرى)، والتغرينية، وكلمات مختلقة لا معنى لها في أي من اللغتين”، كما لاحظ عالم الكمبيوتر الإثيوبي أميلاش تيكا هادجو، بعد أن أعطى برنامج الدردشة هذا التحدي.

وكان من الممكن إجراء نفس التجربة بنفس السهولة مع الإيوي (غانا، توغو)، أو اليوروبا (نيجيريا، بنين)، أو تسونجا (جنوب أفريقيا، موزمبيق). إن الغالبية العظمى من اللغات المحكية في القارة، والتي يبلغ عددها 2000 لغة أو نحو ذلك، غير موجودة تقريبًا على الإنترنت، وبالتالي لا يتم التعرف عليها بشكل جيد – أو لا يتم التعرف عليها على الإطلاق – من خلال أنظمة الذكاء الاصطناعي (AI) مثل ChatGPT، أو Google Translate، أو Siri. تُعرف هذه اللغات باللغات “منخفضة الموارد”، على عكس مجموعة من اللغات “عالية الموارد”، وعلى رأسها اللغة الإنجليزية، والتي تهيمن حاليًا على الإنترنت العالمي.

ومثل هادجو، بدأ الآن عدد متزايد من رواد الأعمال والباحثين الأفارقة العمل على سد هذه الفجوات. في عام 2019، شارك هاجدو، المقيم في برلين، في تأسيس شركة ناشئة تسمى Lesan، وهي مخصصة للغات بلده الأصلي. وقد طور ليسان أداة للترجمة تلقائيًا بين التغرينية والأمهرية والإنجليزية، مع خطط لإضافة الأورومو والصومالية قريبًا. ونظرًا لنقص عدد كبير من الموارد عبر الإنترنت (على سبيل المثال، لا يوجد سوى 15000 مقالة في ويكيبيديا باللغة الأمهرية، وهي اللغة التي يتحدث بها ما بين 30 إلى 50 مليون شخص)، يتعين على الفريق أن يكون مبدعًا في جمع بياناته.

يتم جمع الكثير منها من الكتب والمجلات والوثائق، وذلك بفضل مساعدة المساهمين المحليين، الذين يحددون المحتوى الأكثر صلة، ثم يقومون برقمنته وترجمته، بمساعدة نظام التعرف البصري على الأحرف. وقال هاجدو: “يتطلب الأمر الكثير من العمل، وخاصة العمل اليدوي”. “لكننا نجد أنه من الممكن بناء نموذج نوعي يعتمد على مجموعات بيانات صغيرة مختارة بعناية.”

المنهجية ذات الصلة؟

ويزعم عمالقة التكنولوجيا أيضًا أنهم يريدون القيام بدورهم في الترويج لهذه اللغات الممثلة تمثيلاً ناقصًا في وقت حيث، وفقًا للمتخصصين، هناك حوالي 7000 لغة في جميع أنحاء العالم مهددة بالاختفاء أو حتى الموت الرقمي. يتضمن الإصدار الرابع من ChatGPT بعضًا من هذه اللغات، مثل الأيسلندية. ومن جانبها، أدرجت خدمة ترجمة جوجل حوالي 15 لغة أفريقية في التحديثات في عامي 2020 و2022. لكن مستوى الترجمة المقدمة غالبًا ما يكون غير كاف ويتساءل الباحثون الأفارقة عن أهمية المنهجية التي لا تتناول خصوصيات اللغات الأفريقية.

لديك 50% من هذه المقالة لقراءتها. والباقي للمشتركين فقط.

[ad_2]

المصدر