Haberler Teknoloji

MiniGPT-4 Nedir? Jetson Orin Üzerinde Derinlemesine İnceleme ve Dağıtım

Karmaşık bilgisayarla görme görevleri için, makinelerin yalnızca karmaşık görsel verileri yorumlaması değil, aynı zamanda dil aracılığıyla bağlamsal karmaşıklıkları anlaması da gerekmektedir. İşte bu, çok modlu yeteneklere sahip görsel-dil modelinin gücüdür; nesne tespitinin doğruluğunu ve derinliğini artırarak, ayrıca daha sezgisel insan-makine etkileşimi için büyük bir potansiyel sunar. MiniGPT-4, çok modlu LLM dünyasına dalabileceğimiz ilginç uygulamalardan biridir.

Burada, bu üretken AI uygulamalarının arkasındaki miniGPT-4 teknolojisinin nasıl inşa edildiğinden, nerelerde kullanılabileceğinden ve NVIDIA Jetson Orin üzerinde en fazla gücü nasıl ortaya çıkarabileceğimizden bahsedeceğiz. Üretken AI teknolojisinin daha fazla olasılığını keşfetmek için, Jetson Üretken AI Laboratuvarı’nın rehberliğine göz atabilirsiniz!

Müzelerde sanatları makinelerden bir tıklama ile anlamak mümkün olabilir

MiniGPT-4 Nedir

MiniGPT-4, ChatGPT’ye oldukça benzer hafif bir görsel-dil modelidir. Çok modlu üretim yeteneğini artırıp artırmadığını doğrulamak için geliştirilmiştir (Sonraki bölümlerde çok modlu derin öğrenmeden bahsedeceğiz).

Önceden eğitilmiş ViT ve Q-Former içeren donmuş bir görsel kodlayıcıyı, yalnızca bir projeksiyon katmanı kullanarak donmuş bir LLM – Vicuna ile hizalayarak, miniGPT-4, ayrıntılı görüntü açıklamaları oluşturma ve el ile çizilmiş taslaklardan web siteleri oluşturma gibi GPT-4 ile benzer birçok ileri düzey çok modlu yetenek sergilemektedir; hatta verilen bir görüntüye dayanarak şiir yazma veya rehberlik yapma yeteneğine kadar uzanmaktadır.

Görüntü kaynağı: https://minigpt-4.github.io/

Daha doğal bir dil çıktısı üretmek için, gürültü müdahalesini ortadan kaldırmak önemlidir: modeli yalnızca kısa görüntü başlıkları kullanmak yerine, ayrıntılı bir görüntü açıklama veri seti ile ince ayar yapmak gerekir. Tüm bunlar, modelin üretim güvenilirliğini artırmak ve daha iyi kullanılabilirlik sağlamak içindir.

MiniGPT-4 Yöntemleri İki Aşamada

1. Ön eğitim sürecinde, büyük veri koleksiyonları ile görüntü-metin çiftlerini hizalayın

  • Tüm süreç, yaklaşık 10 saat içinde 20,000 adımda tamamlanır ve 256’lık bir parti boyutu ile yaklaşık 5 milyon görüntü-metin çifti kullanılır.
  • İlk eğitimin, insan sorgularına iyi yanıt verecek zengin bilgi gücünü gösterdiği ortaya çıkıyor. Ancak, bu çıktılar insan niyetleriyle tam olarak hizalanmış olarak garanti edilemez.

2. Görsel-dil hizalaması – Modeli ince ayar yapmak için veri sonrası işleme ile açıklama hatasını düzeltin

  • Rastgele seçilen 5,000 görüntüye dayalı olarak üretilen açıklamalardaki tekrar eden/gereksiz cümleleri kaldırmak için ChatGPT kullanın.
  • Her görüntü açıklamasının doğruluğunu manuel olarak doğrulayın. 3,500 görüntünün, sonraki ince ayar kısmı için yüksek kaliteli görüntü-metin çiftleri girişi olabileceği ortaya çıkıyor.
  • Görüntülerde nesneleri tanımlamanın yanı sıra, bu BLIP-2 görsel-dil modeline benzer olarak, miniGPT-4 ayrıca bilgi alma yeteneğini anlama kapasitesini de gösterebilir.

MiniGPT-4’ü Jetson’a Dağıtmak Kolay ve Akıcı!

Kendi yerel güvenli çıkarım sunucunuzu oluşturmak için, ağ kısıtlamalarından bağımsız olarak miniGPT-4’ü NVIDIA Jetson AGX Orin üzerinde dağıtmak önemli bir seçimdir. Eğer Jetson Üretken AI Laboratuvarı’nı keşfetmişseniz, miniGPT-4 için temel kurulum iş akışını zaten biliyor olabilirsiniz. Şimdi, aşağıdaki adımları izleyerek Jetson üzerinde kolayca çalıştırabilirsiniz:

1. Bir Jetson AGX Orin Edge cihazı edinin ve bu wiki‘yi kontrol ederek sistemi yükleyin.

2. Terminalde aşağıdaki komutu çalıştırın, paketleri yükleyin ve miniGPT-4’ü çalıştırın.

git clone https://github.com/dusty-nv/jetson-containers
cd jetson-containers
sudo apt update; sudo apt install -y python3-pip
pip3 install -r requirements.txt

./run.sh $(./autotag minigpt4) /bin/bash -c 'cd /opt/minigpt4.cpp/minigpt4 && python3 webui.py \
  $(huggingface-downloader --type=dataset maknee/minigpt4-13b-ggml/minigpt4-13B-f16.bin) \
  $(huggingface-downloader --type=dataset maknee/ggml-vicuna-v0-quantized/ggml-vicuna-13B-v0-q5_k.bin)'

3. Aynı ağda bir tarayıcı açın ve > http://<Jetson_Device_IP>:7860 adresini girin.

Kişisel AI Sohbet Botunuzun tadını çıkarın!


Seeed: NVIDIA Jetson Ekosistem Ortağı

Seeed, NVIDIA Ortak Ağı‘nda kenar AI için bir Elite ortaktır. Daha fazla taşıyıcı kart, tam sistem cihazları, özelleştirme hizmetleri, kullanım durumları ve geliştirici araçları keşfetmek için Seeed’in NVIDIA Jetson ekosistem sayfasına göz atın.

AI yeniliklerinin ön saflarında bizimle birlikte yer alın! Keskin donanım ve teknolojinin gücünden yararlanarak, makine öğreniminin gerçek dünyada endüstriler arasında dağıtımını devrim niteliğinde değiştirin. Geliştiricilere ve işletmelere en iyi ML çözümlerini sunma misyonumuzun bir parçası olun. Daha fazla kenar AI olasılıklarını keşfetmek için başarılı vakalar kataloğumuza göz atın!

İlk adımı atın ve bu heyecan verici yolculuğun bir parçası olmak için bize bir e-posta gönderin: edgeai@seeed.cc.

Size uygun bir seçenek bulmak için en son Jetson Kataloğumuzu indirin. İhtiyaçlarınıza uygun hazır Jetson donanım çözümünü bulamazsanız, lütfen özelleştirme hizmetlerimizi kontrol edin ve değerlendirme için yeni bir ürün talebi gönderin: odm@seeed.cc.

Leave a Reply

Your email address will not be published. Required fields are marked *