هوش مصنوعی کوچک مایکروسافت ظاهراً هم‌سطح جمنای ۱ پرو گوگل است

مدل هوش مصنوعی کوچک مایکروسافت فضای کمی اشغال می‌کند، اما توانایی درک تصاویر را دارد.

هوش مصنوعی کوچک

هوش مصنوعی کوچک

مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخه‌ی جدیدی از مدل زبانی کوچک خود را به نام Phi-3-vision رونمایی کرد.

Phi-3-vision یک مدل زبانی کوچک چندوجهی محسوب می‌شود که با بهره‌مندی از ۴٫۲ میلیارد پارامتر، قابلیت درک تصاویر و ویدئو‌ها را دارد. به‌نظر می‌رسد که هوش مصنوعی کوچک مایکروسافت با مدل‌های زبانی دیگر مانند جمنای ۱ پرو گوگل و مدل Claude 3 Haiku هم‌سطح است.

تحقیق منتشرشده

طبق تحقیق منتشرشده در سایت Arxiv، هوش مصنوعی کوچک مایکروسافت توانست در بنچمارک‌های ScienceQA و MathVista و MMMU و ChartQA در برخی موارد از همه‌ی مدل‌های زبانی کوچک پیشی بگیرد. Phi-3-vision می‌تواند هنگام مطرح‌شدن سؤال درباره‌ی تصاویر یا تحلیل نمودار، استدلال بصری انجام دهد.

Phi-3-vision برخلاف مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion، توانایی تولید تصویر را ندارد.

نسخه‌ی پیش‌نمایش Phi-3-vision

نسخه‌ی پیش‌نمایش Phi-3-vision اکنون دردسترس است و کاربران می‌توانند Phi-3 mini و Phi-3 Medium را از طریق پلتفرم هوش مصنوعی مایکروسافت آژور تهیه کنند.

Phi Silica یکی‌ دیگر از مدل‌های هوش مصنوعی مایکروسافت محسوب می‌شود که برای پیشتیبانی از اپلیکیشن‌های هوش مصنوعی ویندوز منتشر شده و این مدل به‌طور سفارشی برای NPU کامپیوترهای کوپایلت‌پلاس در نظر گرفته شده است.

مدل هوش مصنوعی Phi Silica می‌تواند در هر ثانیه ۶۵۰ توکن ورودی را پردازش کند و بدون درگیرکردن پردازنده‌ی مرکزی و گرافیکی فقط ۱٫۵ وات برق مصرف خواهد کرد.