تقدم Microsoft نموذج اللغة الصغيرة Phi-3-vision لتحليل الصور إلى الأجهزة المحمولة

تقوم Microsoft بتوسيع عائلة Phi-3 من نماذج اللغات الصغيرة من خلال تقديم Phi-3-vision. على عكس أشقائه، لا يركز Phi-3-vision على النص فحسب، بل هو نموذج متعدد الوسائط يمكنه أيضًا تحليل الصور وفهمها.

يعد النموذج رائعًا للتعرف على الكائنات في الصور. تم تصميم هذا النموذج الذي يضم 4.2 مليار معلمة للأجهزة المحمولة ويتفوق في مهام التفكير البصري العامة. يمكن للمستخدمين طرح أسئلة Phi-3-vision حول الصور أو الرسوم البيانية وتقديم إجابات ثاقبة، على الرغم من أنها ليست أداة لتوليد الصور مثل DALL-E أو Stable Diffusion، إلا أنها تتفوق في تحليل الصور واستيعابها.

يأتي وصول Phi-3-vision بعد Phi-3-mini، أصغر عضو في عائلة Phi-3 مع 3.8 مليار معلمة، وتشمل العائلة الكاملة أيضًا Phi-3-mini وPhi-3-vision وPhi- 3- صغير (7.1 مليار معلمة) وفاي-3 متوسط ​​(14 مليار معلمة).

يعكس هذا التركيز على النماذج الأصغر حجمًا اتجاهًا متزايدًا في تطوير الذكاء الاصطناعي، حيث تتطلب النماذج الأصغر قوة معالجة وذاكرة أقل، مما يجعلها مثالية للأجهزة المحمولة والبيئات الأخرى المحدودة الموارد.

لقد شهدت مايكروسوفت بالفعل نجاحًا في هذا النهج، حيث أفادت التقارير أن نموذج Orca-Math يتفوق على المنافسين الأكبر حجمًا في حل المشكلات الرياضية.

Phi-3-vision قيد المعاينة حاليًا، بينما يمكن الوصول إلى بقية عائلة Phi-3 (الصغيرة والصغيرة والمتوسطة) من خلال مكتبة نماذج Azure.

اترك تعليقاً