İnşa Teknoloji

WatchThis: Görüntü-Dil Modelleri ve XIAO ESP32S3 Sense ile Güçlendirilmiş Giyilebilir Nokta ve Sorma Arayüzü

MIT Media Lab araştırmacıları Cathy Mengying Fang, Patrick Chwalek, Quincy Kuang ve Pattie Maes WatchThis adlı, gerçek dünya nesneleriyle doğal dil etkileşimlerini basit işaretleme hareketleriyle mümkün kılan çığır açıcı bir giyilebilir cihaz geliştirdiler. Cathy, WatchThis fikrini, MIT Media Lab’ın “Research at Scale” girişimi kapsamında düzenlenen bir günlük hackathon sırasında düşündü. Cedric Honnet tarafından organize edilen ve Güney Bilim ve Teknoloji Üniversitesi ile Seeed Studio tarafından ev sahipliği yapılan hackathon, bu yenilikçi cihazın prototipini oluşturmak için mükemmel bir ortam sağladı ve Seeed Studio XIAO ESP32S3 setinden bileşenler kullanıldı. Vision-Language Modellerini (VLM’ler) kompakt bir bilek cihazıyla entegre ederek, WatchThis kullanıcıların çevreleri hakkında gerçek zamanlı sorular sormalarını sağlıyor ve bağlamsal sorguları işaret ederek ve sorarak son derece sezgisel hale getiriyor.

Kredi: Cathy Fang

Donanımlar

WatchThis projesi aşağıdaki donanım bileşenlerini kullanmaktadır:

Kredi: Cathy Fang

Projenin Çalışma Şekli

WatchThis, doğal, jest tabanlı etkileşimi günlük yaşama sorunsuz bir şekilde entegre etmek için tasarlanmıştır. Giyilebilir cihaz, arka tarafında döner, açılır bir kameraya sahip bir saatten oluşmaktadır. Kullanıcı ilgi alanına işaret ettiğinde, kamera alanı yakalar ve cihaz, kullanıcının jestine dayalı bağlamsal sorguları işler.

Etkileşim, kullanıcı saat gövdesini yukarı kaldırarak kamerayı açtığında başlar; bu durumda kamera, parmağın işaret ettiği alanı yakalar. Saatin ekranı, kameradan canlı bir görüntü gösterir ve hassas nişan almayı sağlar. Kullanıcı ekrana dokunduğunda, cihaz görüntüyü yakalar ve kamera akışını duraklatır. Yakalanan RGB görüntüsü daha sonra JPG formatına sıkıştırılır ve base64 formatına dönüştürülür; ardından görüntüyü sorgulamak için bir API isteği yapılır.

“`

Cihaz, OpenAI’nin GPT-4o modeline etkileşimde bulunmak için bu API çağrılarını kullanır; bu model hem metin hem de görüntü girdilerini kabul eder. Bu, kullanıcının “Bu nedir?” veya “Bunu çevir,” gibi sorular sormasına ve anında yanıt almasına olanak tanır. Metin yanıtı, ekran üzerinde, yakalanan görüntünün üzerine yerleştirilerek gösterilir. Yanıt 3 saniye boyunca gösterildikten sonra, ekran kamera akışını yayınlamaya geri döner ve bir sonraki komut için hazır hale gelir.

WatchThis’i yönlendiren yazılım, Arduino uyumlu C++ dilinde yazılmıştır ve doğrudan cihaz üzerinde çalışır. Hızlı ve verimli bir performans için optimize edilmiştir ve uçtan uca yanıt süresi yaklaşık 3 saniyedir. Ses tanıma veya metinden konuşmaya bağımlı kalmak yerine—ki bu yöntemler hata yapmaya ve kaynak tüketmeye eğilimlidir—sistem sorgular için doğrudan metin girişi kullanır. Kullanıcılar, cihazda sunulan bir WebApp aracılığıyla varsayılan sorgu istemini değiştirerek etkileşimlerini daha da kişiselleştirebilir; bu, nesneleri tanımlama, metin çevirme veya talimat isteme gibi özelleştirilmiş eylemler gerçekleştirmelerine olanak tanır.

Kredi: Cathy Fang

Uygulamalar

Bir şehirde yürüyüş yaparken bir binaya işaret ederek tarihini öğrenmeyi ya da bir botanik bahçesinde egzotik bir bitkiyi yalnızca bir hareketle tanımlamayı hayal edin.

Cihaz, basit tanımlamanın ötesine geçerek, örneğin menü öğelerinin gerçek zamanlı çevirisi gibi pratik uygulamalar sunar; bu, hem gezginler hem de dil öğrenenler için devrim niteliğindedir.

Araştırma ekibi, daha da heyecan verici potansiyel uygulamaları tartıştı:

    • “Bunu hatırla” işlevi, düzenli olarak ilaç alması gerekenlere yardımcı olabilecek görsel bir hatırlatıcı sistemi olarak hizmet edebilir.
    • Şehir kaşifleri için, “Oraya nasıl giderim” özelliği, kullanıcıların uzak işaretlere işaret ederek sezgisel, mekansal olarak farkında bir navigasyon sağlamasına olanak tanıyabilir.
    • “Buna yakınlaş” yeteneği, kullanıcının aktivitelerini kesintiye uğratmadan uzak nesnelere daha yakından bakma imkanı sunabilir.
    • Belki de en ilginç olanı, “Bunu kapat” işlevi, kullanıcıların akıllı ev cihazlarını sesli komutlar ve hareketlerle kontrol etmelerine olanak tanıyarak IoT ekosistemleriyle sorunsuz bir entegrasyon sağlayabilir.

Bu özelliklerin bazıları hala kavramsal aşamalarda olsa da, etrafımızdaki dünya ile etkileşimlerimizin daha sezgisel, bilgilendirici ve zahmetsiz hale geldiği bir geleceği gözler önüne seriyor.

“`html

Kredi: Cathy Fang

Kendi WatchThis’ınızı Yapın

Kendi WatchThis giyilebilir cihazınızı yapmaya mı ilgi duyuyorsunuz? Açık kaynak donanım ve yazılım bileşenlerini keşfedin GitHub ve bugün yaratmaya başlayın! Aşağıdaki makalelerine göz atın ve tam detayları öğrenin.

Son Not

Merhaba topluluk, sevilen Seeed Studio XIAO etrafında bir aylık bülten hazırlıyoruz. Eğer güncel kalmak istiyorsanız:

🤖️ Topluluktan Harika Projeler ilham almak ve eğitimler için
📰 Ürün Güncellemeleri: yazılım güncellemesi, yeni ürün ipucu
📖 Wiki Güncellemeleri: yeni wikiler + wiki katkısı
📣 Haberler: etkinlikler, yarışmalar ve diğer topluluk etkinlikleri

Lütfen aşağıdaki resme tıklayarak👇 şimdi abone olun!

Leave a Reply

Your email address will not be published. Required fields are marked *