Ses AI dünyasında, sesi sadece “duymak” ile “net duymak” arasında önemli bir fark vardır. Konuşmayı tespit etmek kolaydır, asıl zorluk temiz ve anlaşılır ses yakalamaktır. Ham ses karmaşık, yankılar, gürültü ve yankılanmalarla doludur. AI uygulamalarının bu sesleri doğru bir şekilde işlemesi ve yorumlaması için, mikrofon dizileri öncelikle yüksek kaliteli giriş almalıdır. Netlik olmadan, “anlama” mümkün değildir.

Bu blogda, Seeed’in en son AI destekli 4-Mikrofon Dizisi ile ilgili beş teknik içgörüyü inceleyeceğiz. Kapsayacağımız konular:
- AEC ve Dereverberasyonun Tanıtımı
- NS’den Dinamik NS’ye: Daha Akıllı Gürültü Bastırma
- PDM MEMS Mikrofonları vs. Analog Mikrofonlar
- Mikrofonlar Nasıl Yerleştirilir?
- Aşağıdan Ateşleme Mikrofon Tasarımı Güncellemesi
Bu içgörülerle, bu makale ReSpeaker XMOS XVF3800‘ün geliştirilmiş algoritmalar, güçlü donanım ve verimli tasarımı nasıl bir araya getirerek olağanüstü ses alımını sistematik bir şekilde sağladığını daha iyi anlamanızı sağlayacaktır.
AEC ve Dereverberasyonun Tanıtımı
Bir konferans odasında, mikrofonlar genellikle sadece konuşmacının sesini değil, aynı zamanda rahatsız edici yankıları ve yankılanmaları da alır. Bu sorunlarla başa çıkmak için, ReSpeaker iki temel akustik algoritmayı entegre eder: AEC ve dereverberasyon. Her ikisi de daha temiz ve net ses sağlamak amacı güderken, temelde farklı zorluklarla başa çıkmaktadırlar.
Akustik Yankı İptali (AEC)
Tanım: AEC, bir hoparlörden gelen sesin mikrofonu yeniden girmesiyle oluşan yankıyı kaldırma sürecidir.
Neden önemlidir: AEC olmadan, bir çağrı veya konferanstaki kullanıcılar kendi seslerini geri besleme olarak duyarlar, bu da iletişimi dikkat dağıtıcı ve hoş olmayan hale getirir. Etkili AEC, yalnızca istenen sesin iletilmesini sağlar; bu, çevrimiçi toplantılar, çağrı merkezleri ve ses AI uygulamaları gibi senaryolar için kritik öneme sahiptir.
Nasıl çalışır: AEC sistemleri, hoparlöre gönderilen referans sinyalini sürekli olarak analiz eder ve bunu mikrofon tarafından yakalanan sinyal ile karşılaştırır. Adaptif filtreler kullanarak, algoritma hoparlörün katkısını gerçek zamanlı olarak mikrofon girişinden tahmin eder ve çıkarır. Bu şekilde, yalnızca yakın uçtaki kullanıcının temiz konuşması korunur ve iletilir.
Dereverberasyon
Tanım: Dereverberasyon, bir odadaki yansımalar nedeniyle oluşan sesin uzatılmış “kuyruk”unu azaltma veya kaldırma sürecidir. AEC’den farklı olarak, dereverberasyon akustik ortamı hedef alır, hoparlörün oynatımını değil.
Neden önemlidir: Yankılanma, konuşmayı bulanıklaştırır ve kelimeleri daha az belirgin hale getirir, özellikle büyük odalarda veya sert yüzeylere sahip alanlarda. Uzak alan ses yakalama için, yankılanma otomatik konuşma tanıma (ASR) doğruluğunu önemli ölçüde düşürür. Dereverberasyon, netliği doğrudan artırır ve AI destekli ses sistemlerinin gerçek dünya ortamlarında daha güvenilir olmasını sağlar.
Nasıl çalışır: Modern dereverberasyon algoritmaları, mikrofon sinyalini zaman-frekans alanında analiz eder, geç yankılanma bileşenlerini tahmin eder ve bunları doğrudan konuşma sinyalini koruyarak bastırır. Bu, konuşma anlaşılırlığını artırır ve konuşma tanıma motorlarına veya konferans sistemlerine temiz ve doğal bir giriş sağlar.
NS’den Dinamik NS’ye: ReSpeaker için Daha Akıllı Gürültü Bastırma
Yeni ReSpeaker XMOS XVF3800‘ün en önemli iyileştirmelerinden biri, geleneksel gürültü bastırmadan dinamik gürültü bastırmaya geçiştir.
Geleneksel Gürültü Bastırmanın Ne Yaptığı
- Sabitleşmiş gürültü modelleri ile çalışır, örneğin sabit arka plan humları veya beyaz gürültü.
- Değişken veya ani gürültülerle (örneğin klavye tıklamaları, kapı vurma sesleri veya yan konuşmalar) başa çıkmada zorlanır.
- Genellikle bozulma veya artefaktlar ile sonuçlanır, bu da seslerin doğal olmayan bir şekilde duyulmasına neden olur.
Dinamik Gürültü Bastırmanın Getirdikleri
- Gerçek zamanlı adaptasyon: Ortamı sürekli analiz eder, hem sabit hem de geçici gürültüleri tespit eder ve bastırma gücünü dinamik olarak ayarlar.
- Daha akıllı sınıflandırma: Farklı gürültü türlerini tanır ve her biri için doğru stratejiyi uygular.
Neden Önemlidir
- Daha doğal konuşmalar: Rahatsız edici gürültüleri bastırırken insan sesinin netliğini ve zenginliğini korur. Artık “nefes alma etkileri” veya kesik konuşma yok.
- Daha güçlü adaptasyon: Ofisler, kafeler veya arabalar gibi dinamik ortamlarda tutarlı bir şekilde performans gösterir.
PDM MEMS Mikrofonları vs. Analog Mikrofonlar
En gelişmiş algoritmalar bile ses yakalamak için yüksek kaliteli “kulaklara” bağımlıdır. Bu, bizi bir sonraki konuya getiriyor: mikrofonlar.
Seeed Studio’nun ReSpeaker ürün ailesinde, çoğu yeni model PDM MEMS mikrofon kullanmaya geçmiştir, yalnızca Raspberry Pi uyumlu ReSpeaker Pi HAT hala Analog mikrofonlar kullanmaktadır. Peki, bu iki mikrofon türü arasındaki farklar nelerdir ve her biri nerede en uygundur?
| Analog Mikrofonlar | PDM MEMS Mikrofonları | |
| Tanım | Ses dalgalarını sürekli elektriksel voltaj sinyallerine dönüştürür | MEMS diyaframı + devre kullanarak sesi dijital PDM sinyali olarak çıkartır |
| Çıkış Sinyali Türü | Analog voltaj | Dijital (PDM formatı) |
| Avantajlar | Basit yapı Düşük maliyet |
Güçlü EMI bağışıklığı Dijital işlemcilere doğrudan bağlantı Kompakt boyut Yüksek tutarlılık Diziler için uygun |
| Dezavantajlar | EMI’ye duyarlı Sınırlı iletim mesafesi Dış ADC gerektirir |
Analogdan daha yüksek maliyet Dijital işleme uyumluluğuna bağımlı |
| İdeal Kullanım Durumları | Maliyet duyarlı, kısa mesafeli ses iletimi, minimum parazit ile | Gürültüye dayanıklı, uzun mesafeli, yüksek entegrasyonlu ve çoklu mikrofon dizisi uygulamaları |
Mikrofonlar Nasıl Yerleştirilir ReSpeaker?
Mikrofon dizileri söz konusu olduğunda, doğru bileşeni seçmek başarıya ulaşmanın sadece yarısıdır. Genellikle göz ardı edilen bir diğer önemli faktör ise mikrofonların nasıl yerleştirildiğidir.
Mikrofon dizileri, gelişmiş ses algoritmalarının belkemiğidir. Bu algoritmaları etkili bir şekilde çalıştırmak için, mikrofonlar arasındaki mesafe dikkatlice tanımlanmış bir aralıkta kalmalıdır. Mesafe çok geniş veya çok dar olursa, algoritmaların doğruluğu ve kararlılığı kaybolur ve bu da kötü performansa yol açar.
Tasarımın Arkasındaki Bilim
- Algoritma odaklı gereksinimler: Her algoritmanın mikrofon aralığı için kendi toleransı vardır. Örneğin, beamforming, ses “ışınlarını” doğru bir şekilde yönlendirmek için hassas mesafeye dayanır.
- Ses frekansı aralığı: İnsan konuşması genellikle 300 Hz ile 3.4 kHz arasında yer alır. Bu frekansların dalga boyu, mikrofonların yerleştirilmesi sırasında aliasing veya sinyal bozulması olmadan fiziksel sınırlar koyar.
Seeed ReSpeaker’ın Tasarımı
ReSpeaker serisi, bu kısıtlamalar göz önünde bulundurularak tasarlanmıştır. Örneğin, ReSpeaker XMOS XVF3000‘de mikrofonlar arasındaki minimum mesafe 44 mm’dir; daha güçlü ses işleme ile ReSpeaker XMOS XVF3800‘de minimum mesafe 66 mm’ye çıkarılmıştır.

Mikrofon aralığı ve yerleşimi, algoritma performansını maksimize etmek için optimize edilmiştir ve diziyi kompakt tutar. Bu denge, kullanıcıların hem ses kalitesinden hem de ürün esnekliğinden ödün vermek zorunda kalmadığı anlamına gelir. ReSpeaker, çeşitli projelere ve muhafazalara uyacak şekilde kasıtlı olarak boyutlandırılmıştır. Akıllı bir hoparlör, bir konferans cihazı veya gömülü bir sistem inşa ediyor olsanız da, ReSpeaker, ödün vermeden entegrasyona hazırdır.
Aşağıya Bakan Mikrofon Tasarımı Güncellemesi
Aşağıya Bakan Nedir
Seeed Studio’nun yeni ReSpeaker XMOS XVF3800, mikrofon yerleşimini aşağıya bakan bir şekilde benimsemektedir; bu, ses portunun PCB’nin alt yüzeyinde olduğu anlamına gelir, üst yüzeyde değil. Bu yerleşimdeki ince değişiklik, performans, güvenilirlik ve ürün tasarımı için anlamlı faydalar sağlar.

Neden Önemlidir
- Geliştirilmiş Koruma
Aşağıya bakan port, toz, nem ve kazara temas gibi etkilere daha az maruz kalır. Bu tasarım, gerçek dünya uygulamalarında dayanıklılığı ve uzun vadeli güvenilirliği artırır.
- Tutarlı Akustik Yollar
Mikrofon dizilerinde, tüm mikrofonların aynı düzlemde yer alması, tutarlı akustik performans sağlar. Aşağıya bakan yerleşim, PCB üzerindeki yüksek bileşenlerden kaynaklanan parazitleri önler, böylece daha temiz bir beamforming ve daha doğru algoritma işleme sağlar.
- Yerleşik Gürültü Kalkanı
PCB, CPU’lar, güç devreleri ve diğer bileşenler tarafından üretilen elektriksel ve termal gürültüye karşı fiziksel bir engel görevi görür. Bu doğal koruma, donanım seviyesinde sinyal-gürültü oranını iyileştirir.
- Basitleştirilmiş Ürün Tasarımı
Geliştiricilerin artık parazitleri azaltmak için karmaşık akustik izolasyon yapıları veya birden fazla muhafaza açılışı tasarlamalarına gerek yoktur. Bu, hem maliyeti hem de tasarım karmaşıklığını azaltırken, daha şık ve temiz ürün estetiğine olanak tanır. Ses, performanstan ödün vermeden aşağı veya yan kanallar aracılığıyla yönlendirilebilir.
En son ReSpeaker XMOS XVF3800, üstün ses yakalama, daha yüksek ses kalitesi ve doğal konuşma etkileşimi sunar—bu, gelişmiş algoritmalar, optimize edilmiş donanım ve akıllı tasarım sayesinde mümkün olmuştur.
ReSpeaker ailesi, kompakt 2 mikrofon dizilerinden çok yönlü 4 mikrofon dizilerine kadar çeşitli seçenekler sunarak kullanıcılara uygulamalarına en uygun olanı seçme esnekliği sağlar.
