You are currently viewing كل ما تريد معرفته عن نموذج الذكاء الاصطناعي الجديد “Ferret UI”

كل ما تريد معرفته عن نموذج الذكاء الاصطناعي الجديد “Ferret UI”

نشر باحثو شركة Apple مقالًا آخر عن نماذج الذكاء الاصطناعي (AI)، وينصب التركيز هذه المرة على فهم واجهات المستخدم (UI) للهواتف الذكية والتنقل فيها. تسلط الورقة، التي لم تخضع لمراجعة النظراء بعد، الضوء على نموذج لغوي كبير (LLM يُسمى Ferret UI)، والذي يتجاوز رؤية الكمبيوتر التقليدية ويمكنه فهم شاشات الهواتف الذكية المعقدة.

وهذا ليس المقال الأول عن الذكاء الاصطناعي الذي ينشره قسم الأبحاث في شركة التكنولوجيا العملاقة، فقد سبق أن نشر مقالًا بحثيًا عن ماجستير إدارة الأعمال في الوسائط المتعددة (MLLMs) وآخر عن نماذج الذكاء الاصطناعي على الأجهزة.

تم نشر نسخة مطبوعة مسبقًا من المقالة على موقع arXiv، وهو مستودع مفتوح الوصول عبر الإنترنت للمقالات العلمية. المقالة بعنوان “Ferret-UI: فهم واجهة مستخدم الهاتف المحمول الأرضي مع LLMs متعددة الوسائط” وتركز على توسيع حالة الاستخدام. للامتيازات والرهون البحرية.

ويسلط الضوء على أن معظم نماذج اللغات ذات القدرات المتعددة الوسائط لا يمكنها تجاوز الصور الطبيعية وأن وظائفها “محدودة”، ويذكر أيضًا أن نماذج الذكاء الاصطناعي ضرورية لفهم الواجهات المعقدة والديناميكية، مثل تلك الموجودة على الهاتف الذكي.

وفقًا للمقال، تم تصميم Ferret UI “لأداء مهام مرجعية دقيقة ومهام أساسية خاصة بطرق عرض واجهة المستخدم، مع تفسير وتنفيذ تعليمات اللغة المفتوحة بمهارة.” بعبارات بسيطة، لا يمكن لنموذج اللغة المرئية التعامل مع الهاتف الذكي فقط. تحتوي الشاشة على عناصر متعددة تمثل معلومات مختلفة، ولكن يمكنها أيضًا إخبار المستخدم عنها عند طرح سؤال.

استنادًا إلى الصورة التي تمت مشاركتها في المقالة، يمكن للنموذج فهم عناصر واجهة المستخدم وتصنيفها والتعرف على الرموز. ويمكنه أيضًا الإجابة على أسئلة مثل “أين رمز الصفحة الرئيسية” و”كيف يمكنني فتح تطبيق التذكيرات؟” وهذا يدل على أن الذكاء الاصطناعي لا يستطيع تفسير ذلك. فهو لا يرى الشاشة فحسب، بل يمكنه أيضًا الانتقال إلى أجزاء مختلفة من iPhone بناءً على المطالبة.

لتدريب واجهة Ferret UI، أنشأ باحثو Apple أنفسهم بيانات متفاوتة التعقيد، وقد ساعد هذا النموذج على تعلم المهام الأساسية وفهم الإجراءات في خطوة واحدة. يوضح المقال: “بالنسبة للمهام المتقدمة، نستخدم GPT-4 (40) لإنشاء البيانات بما في ذلك الأوصاف التفصيلية وإدراك المحادثة والتفاعل والتفكير الوظيفي”. “تعمل هذه المهام المتقدمة على إعداد النموذج لإجراء مناقشات أكثر دقة حول الجوانب المرئية. المكونات، وصياغة خطط العمل مع وضع أهداف محددة في الاعتبار، وشرح الغرض العام من الشاشة.

اترك تعليقاً