Mükemmel bir ses etkileşim sistemi, yalnızca doğal dili iyi anlamakla kalmaz, aynı zamanda kullanıcıların ses etkileşimindeki çok sayıda eylem ve komutu anlamalarına yardımcı olacak bir stratejiye de ihtiyaç duyar.
Ses etkileşimini daha iyi anlamak ve bunu gelecekteki projelere uygulamak için, arkasındaki teknik bilgiyi ve bunun kullanıcı deneyimini nasıl şekillendirdiğini anlamamız gerekiyor.
Bir konuşma tanıma uygulamasına başlamadan önce bilinmesi gereken 6 şey
1. Bir konuşmanın başlangıcını nasıl tanırız?
“Hey Siri!”
Apple’ın Siri’si, diğer gürültü ve konuşmalardan gelen çağrıları nasıl tanıyor?
Anahtar Kelime Arama/Anahtar Kelime Belirleme (KWS), akıllı bir cihazı uyandırmak için temel teknolojidir. Cihaz, kullanıcının cihaza bir komut gönderip göndermediğini belirlemek için “etkili ses” içinde belirli bir anahtar kelimenin (uyandırma kelimesi) olup olmadığını tanır; bu durumda yanıt vermesi gerekecektir.
2. Bir konuşmanın sonunu nasıl tanırız?
VAD ile geçerli konuşma segmentlerini bulabilir, sessiz segmentleri ortadan kaldırabilir ve konuşma tanıma sırasında işlenmesi gereken veri miktarını büyük ölçüde azaltabiliriz. VAD kullanan çeşitli yöntemler vardır, örneğin çerçeve genliği ve karmaşık sinir ağları. Çoğu asistan, bir komut verildiğini varsaymadan önce belirli bir süre bekleyecek ve ardından komutu veya isteği anlamaya çalışmaya başlayacaktır.

3. Bir konuşmayı nasıl keseriz – Akustik Eko İptali (AEC)
Akustik Eko nedir?

Yukarıdaki resim, sesin (veya başka bir sesin) bir hoparlörden mikrofonun geri dönmesine iletilebileceğini göstermektedir. Bu doğrudan olabilir veya odadaki yansımalar yoluyla gerçekleşebilir. Akustik Eko İptali, bu giriş eko’sunu sistemin içine geri geçmeden önce ortadan kaldırmak için tasarlanmıştır. Bu, cihazların ses çalarken bile sizi duyabilmesini sağlar.
4. Gürültülü bir ortamda nasıl net duyulur?
Gürültü Bastırma (NS) ve Işın Şekillendirme (BF) bu sorunu çözmeye yardımcı olur.
Farklı gürültülerin olduğu çeşitli ortamlarda akustik bir model oluşturmak zordur. Örneğin, vokaller, ayak sesleri ve kahkahalar bir arada gürültü olarak ortaya çıkar. Ancak, biri adımızı çağırıyorsa, insanlar hızlı bir şekilde tepki verebilir, ancak bu bir makine için çok zor olabilir.
Gürültü bastırma teknolojisi, monofonik konuşma sinyallerindeki statik ve geçici gürültüyü azaltır. Gürültü Bastırma teknolojisi ile sinyal-gürültü oranı ve konuşma anlaşılırlığı artırılabilir ve dinleme yorgunluğu azaltılabilir.
Işın şekillendirme tabanlı yaklaşım, birden fazla mikrofonla toplanan sinyalleri hedef sinyalin yönünde bir alım ışını oluşturacak şekilde tartar; bu arada diğer yönlerden gelen yansıtılan ses zayıflatılır. Bunun için birçok algoritma ve yaklaşım vardır, ancak esasen birden fazla mikrofon kullanarak belirli bir alandan gelen ses girişine odaklanabilirsiniz.
5. Doğal Dil Anlama
NUI (Doğal Kullanıcı Arayüzü), birçok farklı etkileşim senaryosuna uygulanacaktır. Bir konuşma etkileşiminde, makinelerin “duy-anla-cevapla” kapalı döngüsünü tamamlaması gerekir. Bu kapalı döngü, üç tür teknolojiyi içerir: konuşma tanıma (ASR), doğal dil işleme (NLP) ve konuşma sentezi, diğer adıyla metinden sese (TTS). Döngünün en önemli kısmı NLP’dir, çünkü bir makinenin isteği doğru bir şekilde anlayıp uygun bir yanıt verip veremeyeceğini belirler.
6. Konuşmayı NLP için metne dönüştürmek ve ardından üretilen metin yanıtını konuşmaya dönüştürmek nasıl yapılır?
Konuşma tanıma, kullanıcının söylediği kelimeleri ses formundan metin formuna dönüştürmektir (konuşmadan metne, veya STT). Doğal dil işleme, bu kelimelerle ifade edilmek istenen anlamı (anlam) anlamaktır. Artık anlaşılan istek veya komut işlenecek ve bir metin yanıtı üretilecektir. Son olarak, makine bu karşılık gelen yanıtı ses biçiminde verecektir; bu da konuşma sentezi (TTS) gerektirir.

ASR, ses bilgilerini metne dönüştürmeyi hedeflemektedir (Konuşmadan Metne (STT)). Ayrıca,
Sesli asistan başladıktan sonra, mikrofon aracılığıyla her zaman dinleyecek ve anahtar kelime arama/anahtar kelime belirleme (KWS) işlemini ses içeriği üzerinde gerçekleştirecektir. Belirlenen anahtar kelime (yani, belirlenen uyandırma kelimesi, örneğin “Siri” ve “Alexa”) ile eşleştiğinde, ilgili işlem otomatik olarak tetiklenecektir. Bu genellikle cihazda çalıştırılır ve bilginin cihazdan internete gönderilmesini gerektirmez. Bu nedenle, internet bağlantısı olmadan bile sesli asistanınızı çağırabilirsiniz.
Artık kullanılan teknoloji hakkında bir fikriniz olduğuna göre, bir ses etkileşim projesi oluşturmaya başlama zamanı. Bunu yapmak için ReSpeaker ürün serimizi oluşturduk.
KWS + STT + NLP + TTS = ReSpeaker

ReSpeaker, etrafınızdaki şeylerle etkileşim kurmanızı sağlayan açık modüler bir ses arayüzüdür. Ev aletlerinizle, bitkilerinizle, ofisinizle, internet bağlantılı cihazlarınızla veya günlük yaşamınızdaki diğer şeylerle yalnızca sesinizle etkileşim kurmanızı sağlar. ReSpeaker projesi, sesli cihazlar oluşturmak için donanım bileşenleri ve yazılım kütüphaneleri sağlar.

Şu anda ReSpeaker ailesi için üç ana kart kategorisi bulunmaktadır. Bu kategorilerin tümü, farklı platformlarla sesli arayüzü etkinleştirmeye yardımcı olmak için tasarlanmıştır.
- SBC Çözümü
- Mikrofon Dizisi Çözümü
- Raspberry Pi Mikrofon Dizisi Çözümleri
Ses etkileşim projeniz için en iyi olanı seçmek için ReSpeaker ürün kılavuzumuzu kontrol edin.
Tüm belge için, GitHub sayfamızı kaçırmayın! Sesli projelerinizi tam eğitimler ve belgelerle başlatın! Sesli çağrı çağının hoş geldiniz!
Bu arada, tüm ReSpeaker ürünlerinde %20 indirim için Promo Kodu: 【BLACKFRIDAY】uygulayın, Black Friday sırasında!
Proje ilhamına mı ihtiyacınız var? Proje Merkezimizde keşfedin, fikirlerinizi Seeekers ile büyütün!
Referans
Rudy BARAGLIA 20 Haz Ses Aktivite Tespiti için Sesli Kullanıcı Arayüzü.
Jason Kincaid 13 Tem ASR’nin Kısa Tarihi: Otomatik Konuşma Tanıma
Yundong Zhang, Naveen Suda, Liangzhen Lai, Vikas Chandra Hello Edge: Mikrodenetleyicilerde Anahtar Kelime Belirleme 14 Şub 2018
Otomatik konuşma tanıma sistemleri için gürültü azaltma tekniklerinin karşılaştırmalı çalışması
Gürültü Bastırma (NS) teknolojisi
Google Home’un sizi kokteyl partilerinde duymasını sağlamak 16 Mart 2018
Kathryn Whitenton 10 Eyl 2017 Sesli Etkileşim için Ses İşaretleri

