[ad_1]
سيصبح من الأسهل قريبًا رؤية منشورات Facebook و Instagram باللغات العالمية الأقل تحدثًا، لكن أحد الخبراء يقترح أنه لتحسين الأداة، يجب على Meta التحدث إلى المتحدثين الأصليين.
إعلان
سيكون من الأسهل قريبًا رؤية منشورات Facebook وInstagram بـ 200 لغة أقل استخدامًا حول العالم.
أعلن مشروع Meta’s No Language Left Behind (NLLB) في ورقة بحثية نُشرت هذا الشهر أنهم قاموا بتوسيع نطاق التكنولوجيا الأصلية الخاصة بهم.
يتضمن المشروع عشرات اللغات الأوروبية “ذات الموارد المنخفضة”، مثل الغيلية الاسكتلندية، والجاليكية، والأيرلندية، واللينغورية، والبوسنية، والأيسلندية، والويلزية.
وفقًا لميتا، فهذه لغة تحتوي على أقل من مليون جملة في البيانات التي يمكن استخدامها.
ويقول الخبراء إنه لتحسين الخدمة، ينبغي على Meta التشاور مع المتحدثين الأصليين ومتخصصي اللغة لأن الأداة لا تزال بحاجة إلى بعض العمل.
كيف يعمل المشروع
تقوم Meta بتدريب ذكاءها الاصطناعي (AI) باستخدام بيانات من مستودع Opus، وهو عبارة عن منصة مفتوحة المصدر تحتوي على مجموعة من النصوص الأصلية للكلام أو الكتابة لمختلف اللغات التي يمكنها برمجة التعلم الآلي.
المساهمون في مجموعة البيانات هم خبراء في معالجة اللغات الطبيعية (NLP): مجموعة فرعية من أبحاث الذكاء الاصطناعي التي تمنح أجهزة الكمبيوتر القدرة على ترجمة وفهم اللغة البشرية.
وقالت شركة ميتا إنهم يستخدمون أيضًا مجموعة من البيانات المستخرجة من مصادر مثل ويكيبيديا في قواعد بياناتهم.
يتم استخدام البيانات لإنشاء ما تسميه Meta نموذج اللغة متعدد اللغات (MLM)، حيث يمكن للذكاء الاصطناعي الترجمة “بين أي زوج من اللغات دون الاعتماد على البيانات الإنجليزية”، وفقًا لموقعهم على الويب.
يقوم فريق NLLB بتقييم جودة ترجماتهم من خلال معيار للجمل المترجمة بواسطة البشر والتي أنشأوها وهي مفتوحة المصدر أيضًا. يتضمن هذا قائمة بالكلمات أو العبارات “السامة” التي يمكن للبشر تعليم البرنامج تصفيتها عند ترجمة النص.
وفقًا لأحدث بحث لهم، قام فريق NLLB بتحسين دقة الترجمات بنسبة 44 في المائة عن نموذجهم الأول، الذي تم إصداره في عام 2020.
عندما يتم تنفيذ التكنولوجيا بشكل كامل، تقدر Meta أنه سيكون هناك أكثر من 25 مليار ترجمة يوميًا على Facebook News Feed وInstagram ومنصات أخرى.
“تحدث مع الناس”
ويليام لامب، أستاذ علم الأعراق واللغويات الغيلية في جامعة إدنبرة، هو خبير في اللغة الغيلية الاسكتلندية، وهي إحدى اللغات منخفضة الموارد التي حددتها شركة Meta في مشروع NLLB الخاص بها.
وقال حوالي 2.5% من سكان اسكتلندا، أي حوالي 130 ألف نسمة، في التعداد السكاني لعام 2022، إن لديهم بعض المهارات في اللغة السلتية التي تعود إلى القرن الثالث عشر.
هناك أيضًا ما يقرب من 2000 متحدث للغة الغيلية في شرق كندا، حيث تعد لغة أقلية. وتصنف منظمة اليونسكو هذه اللغة باعتبارها “مهددة” بالانقراض بسبب قلة عدد الأشخاص الذين يتحدثون بها بانتظام.
وأشار لامب إلى أن ترجمات ميتا إلى اللغة الغيلية الاسكتلندية “ليست جيدة حتى الآن”، بسبب البيانات المجمعة من الجماهير التي يستخدمونها، على الرغم من أن “قلبهم في المكان الصحيح”.
وقال لامب “ما يجب عليهم فعله … إذا كانوا يريدون حقًا تحسين الترجمة هو التحدث إلى الناس، المتحدثين الأصليين للغة الغيلية الذين ما زالوا يعيشون ويتنفسون اللغة”.
وتابع لامب: القول أسهل من الفعل. معظم المتحدثين الأصليين هم في السبعينيات من عمرهم ولا يستخدمون أجهزة الكمبيوتر، والمتحدثون الشباب “يستخدمون الغيلية عادة ليس بالطريقة التي يستخدمها أجدادهم”.
إعلان
قد يكون البديل الجيد هو أن تتوصل شركة ميتا إلى اتفاقية ترخيص مع هيئة الإذاعة البريطانية (BBC)، التي تعمل على الحفاظ على اللغة من خلال إنشاء محتوى عالي الجودة عبر الإنترنت بها.
“هذا الأمر يجب أن يقوم به متخصصون”
ويعتقد ألبرتو بوجارين ديز، أستاذ الذكاء الاصطناعي في جامعة سانتياغو دي كومبوستيلا في إسبانيا، أن علماء اللغويات مثل لامب يجب أن يعملوا مع شركات التكنولوجيا الكبرى لتحسين مجموعات البيانات المتاحة لهم.
وقال بوجارين ديز “هذا الأمر يحتاج إلى أن يتم من قبل متخصصين قادرين على مراجعة النصوص وتصحيحها وتحديثها بالبيانات الوصفية التي يمكننا استخدامها”.
وأضاف: “يحتاج الأشخاص من العلوم الإنسانية ومن ذوي الخلفية التقنية مثل المهندسين إلى العمل معًا، إنها حاجة حقيقية”.
وتابعت بوجارين-ديز قائلة إن هناك ميزة لشركة ميتا في استخدام ويكيبيديا، لأن البيانات سوف تعكس “كل جانب تقريبا من جوانب الحياة البشرية”، وهو ما يعني أن جودة اللغة يمكن أن تكون أفضل بكثير من مجرد استخدام نصوص أكثر رسمية.
إعلان
لكن بوغارين ديز يقترح أن تأخذ شركة ميتا وشركات الذكاء الاصطناعي الأخرى الوقت الكافي للبحث عن البيانات عالية الجودة عبر الإنترنت ثم تمر بالمتطلبات القانونية اللازمة لاستخدامها، دون انتهاك قوانين الملكية الفكرية.
وفي الوقت نفسه، قال لامب إنه لن ينصح الأشخاص باستخدامه بسبب وجود أخطاء في البيانات ما لم تقم شركة ميتا بإجراء بعض التغييرات في مجموعة البيانات الخاصة بها.
وقال لامب “لا أستطيع أن أقول إن قدراتهم في الترجمة وصلت إلى النقطة التي تصبح فيها الأدوات مفيدة فعليا”.
“لا أعتقد أن أي شخص سوف يستخدم أدوات لغوية موثوقة حتى الآن؛ وأعتقد أنهم سيكونون صريحين في قول ذلك أيضًا”.
يتخذ Bugarín-Diz موقفًا مختلفًا.
إعلان
وهو يعتقد أنه إذا لم يستخدم أحد الترجمات الوصفية، “فلن يكونوا على استعداد” لاستثمار الوقت والموارد في تحسينها.
كما هو الحال مع أدوات الذكاء الاصطناعي الأخرى، يعتقد بوجارين ديز أن الأمر يتعلق بمعرفة نقاط ضعف التكنولوجيا قبل استخدامها.
[ad_2]
المصدر