قابلیت دیدن به Gemini رسید، ولی فعلاً در انحصار چند گوشی خاص است

ارسال توسط

در تاریخ فروردین 18, 1404

گوگل به‌تازگی از عرضه‌ی رسمی و گسترده‌ی قابلیتی پیشرفته و تحول‌آفرین در هوش مصنوعی Gemini پرده‌برداری کرده است؛ قابلیتی که به‌طور قابل‌توجهی مرزهای فعلی تعامل انسان و ماشین را جابه‌جا می‌کند. این ویژگی نوآورانه که نخستین‌بار در ماه مارس تحت عنوان Gemini Live معرفی شد، اکنون به مرحله‌ای رسیده که به صورت عمومی در اختیار کاربران منتخب قرار گرفته و گام بلندی در مسیر مجهز کردن هوش مصنوعی به قدرت «دیدن» محسوب می‌شود.

در نسخه‌ی جدید، Gemini از حالت صرفاً پردازش‌گر اطلاعات به مدلی ارتقاء یافته که می‌تواند آنچه را روی صفحه‌نمایش یا از طریق دوربین گوشی مشاهده می‌شود، تجزیه و تحلیل کند. این قابلیت، نه‌تنها نقطه‌ی عطفی در مسیر تکامل دستیارهای هوشمند است، بلکه می‌تواند نحوه‌ی تعامل کاربران با دستگاه‌های دیجیتال را دگرگون کند.

با این‌حال، پیش از آن‌که بیش‌از‌حد هیجان‌زده شوید، باید توجه داشت که در این مرحله ابتدایی، قابلیت دیداری Gemini تنها برای کاربران گوشی‌های Google Pixel 9 و Samsung Galaxy S25 فعال شده است. به‌عبارتی، این ویژگی فعلاً در انحصار نسل جدیدترین و قدرتمندترین پرچم‌داران اندرویدی باقی مانده است.

پیش از این به‌روزرسانی، Gemini اگرچه قابلیت‌های تحسین‌برانگیزی داشت، اما محدود به پردازش صدا، تحلیل تصاویر و فایل‌های PDF، ویدیوهای یوتیوب و تعامل متنی بود. اکنون، با بهره‌گیری از فناوری‌های پیشرفته در قالب پروژه‌ی نوآورانه‌ای به نام Project Astra، این هوش مصنوعی می‌تواند محتوای نمایشگر دستگاه را نیز مشاهده کرده و نسبت به آن واکنش نشان دهد. به این معنا که کاربر می‌تواند صفحه‌ی گوشی خود را در اختیار Gemini قرار دهد و از آن درباره محتوای نمایش داده‌شده سؤال کند، بدون نیاز به شرح یا توضیح اضافی. پاسخ‌هایی که ارائه می‌شود، دقیق، فوری و متناسب با محتوای دیداری است که هوش مصنوعی دریافت می‌کند.

اما این همه ماجرا نیست. یکی از جذاب‌ترین ابعاد این قابلیت، امکان اشتراک‌گذاری تصویر دوربین پشتی گوشی با Gemini است. با فعال‌سازی این ویژگی، کاربران قادر خواهند بود هوش مصنوعی را در معرض دنیای واقعی اطراف خود قرار دهند؛ از مشاهده‌ی اشیاء و محیط گرفته تا تحلیل صحنه‌ها و پاسخ به سؤالات درباره‌ی آنچه کاربر در لحظه می‌بیند. این سطح از تعامل، تجربه‌ای کاملاً متفاوت از استفاده‌های سنتی از دستیارهای صوتی ارائه می‌دهد و می‌تواند در موقعیت‌های روزمره، آموزشی، فنی و حتی تفریحی، کاربردهای متنوعی داشته باشد.

جالب است بدانید که این نوآوری گوگل، برای بسیاری یادآور پروژه‌ای مشابه از سوی اپل با عنوان Apple Intelligence است که سال گذشته اخباری درباره‌ی آن منتشر شده بود. اما برخلاف سرعت پیشرفت گوگل، به‌نظر می‌رسد اپل در پیاده‌سازی این فناوری با موانع فنی مواجه شده است. شایعات حاکی از آن‌اند که ممکن است تا عرضه‌ی نسخه‌ی iOS 19 یا حتی دیرتر، کاربران آیفون شاهد چنین قابلیتی نباشند.

با وجود آن‌که فعلاً تنها دستگاه‌های خاصی از این فناوری بهره‌مند هستند، گوگل اعلام کرده که در آینده‌ی نزدیک، این قابلیت برای تمامی کاربران Gemini Live که از دستگاه‌های اندرویدی پشتیبانی‌شده استفاده می‌کنند، در دسترس خواهد بود. این وعده‌ی گوگل، نوید فراگیر شدن یکی از پیشرفته‌ترین کاربردهای هوش مصنوعی در زندگی روزمره است.

چگونه قابلیت Gemini Live را بر روی گوشی خود فعال کنیم؟

فعال‌سازی Gemini Live بسیار ساده است و از دو مسیر قابل انجام است:

از طریق نوار ابزار Gemini:
ابتدا نوار ابزار Gemini را باز کنید. در این نوار، گزینه‌ای با عنوان “Share screen with Live” (به اشتراک گذاشتن صفحه با Live) مشاهده می‌کنید که با انتخاب آن، فرآیند اشتراک‌گذاری صفحه آغاز می‌شود.
از طریق برنامه‌ی Gemini Live:
برنامه‌ی اختصاصی Gemini Live را اجرا نمایید. در داخل این اپلیکیشن، آیکونی با عنوان اشتراک‌گذاری صفحه (screen share) قرار دارد که با لمس آن، سیستم وارد حالت مشاهده‌ی صفحه خواهد شد.

در هر دو روش، پس از فعال‌سازی، یک آیکون قرمز کوچک به شکل تایمر در بالای صفحه ظاهر می‌شود. این آیکون نشان می‌دهد که Gemini Live در حال مشاهده و شنیدن فعالیت‌های روی گوشی است. با لمس این آیکون، می‌توانید اطلاعات بیشتری درباره‌ی فعالیت جاری و وضعیت نظارت هوش مصنوعی مشاهده کنید.

تجربه‌ی استفاده از این قابلیت به طرز شگفت‌انگیزی شبیه به مکالمه و تعامل با یک فرد واقعی است. ترکیب هوش بصری، تحلیل آنی و پاسخ‌گویی طبیعی، مرز میان انسان و ماشین را به گونه‌ای کمرنگ کرده که بسیاری از کاربران احساس خواهند کرد با موجودی هوشمند و زنده در حال گفتگو هستند. این آغاز عصری نوین در ارتباطات دیجیتال است؛ عصری که در آن، هوش مصنوعی نه‌فقط می‌شنود و پاسخ می‌دهد، بلکه می‌بیند، درک می‌کند و همراه شما فکر می‌کند.

منبع: Digital Trends