Ses tanıma teknolojisi nedir?

Dijital asistanlar, ne söylediğimizi anlamak için ses tanıma adı verilen bir süreç kullanır. Bu nedenle, sadece telefonumuzla veya akıllı hoparlörümüzle konuşarak hayatımızın farklı yönlerini yönetebiliyoruz.

günlük hayatımızın bu kadar büyük bir parçası olmasına rağmen, genellikle bu sürecin nasıl çalıştığını araştırmayız. Bu makalede tartışacağımız bu teknolojiyle ilgili birçok perde arkası konu var.

 

Ses tanıma nedir?

Modern akıllı cihazlar genellikle, cihazda belirli görevleri gerçekleştirmek için ses tanımayı kullanan bir uygulama olan bir sesli asistanla birlikte gelir.  sesinizi tam olarak ne söylediğinizi belirleyen dijital sinyallere dönüştürmeye yardımcı olan bir dizi algoritmadır. Microsoft Office gibi programlar, belgeleri yazmak için bu avantajı kullanır.

 

 

İlk ses tanıma sistemi

İlk ses tanıma sistemi AUDREY olarak biliniyordu. Bu isim, 1952 yılında Bell Labs tarafından icat edilen “Automated Digit Recognition”ın kısaltmasıdır. AUDREY sayısal karakterleri tanıyabilir. Spiker bir numara söyledi ve cihaz her numaraya karşılık gelen on ışıktan birini açtı.

Bu buluş çığır açıcı olmasına rağmen, iyi karşılanmadı. Bu cihaz tek başına 6 fit boyundaydı ve çok fazla yer kaplıyordu. Boyutuna ek olarak, bu cihaz yalnızca 0’dan 9’a kadar olan sayıları belirleme yeteneğine sahipti ve bu da belirli bir sese duyarlıydı. Bu nedenle, bu cihaz sadece belirli bir kişi tarafından kullanılabilir.

AUDREY’in sahip olduğu hatalara rağmen, bu, ses tanıma sensörlerinin geliştirilmesi ve mevcut aşamalarına ulaşma maceralı yolculuğunun ilk adımıydı. Daha sonra ses tanıma cihazlarının kelime dizilerini tanıyabilmesi çok uzun sürmedi.

Ses tanıma süreci, sesin dijital karakterlere dönüştürülmesiyle başlar.

Ses tanıma sistemleri, ne dediğimizi anlamak için belirli adımlardan geçer. Mikrofonunuz sesinizi aldığında, onu analogdan dijitale dönüştürücüye giden bir elektrik sinyaline dönüştürür. Bu dönüştürücü, analog akım sinyalini dijital ikili sinyale dönüştürür.

Ayrıca, bu akım geçtiğinde, analogdan dijitale dönüştürücü, birim zaman başına bundan örnekler çıkarır ve bu örneklerin voltajını alır. Bu akım örneklerinden alınan gerilimlere örnek denir. Her örneğin uzunluğu saniyenin yalnızca birkaç binde biri kadardır. Bu örneklere dayanarak, dönüştürücü sekiz ikili karakteri (bir bayt veri) sıralar.

 

 

Ses netliğini artırmak için işlenir

Cihazın tam olarak ne dediğimizi bilmesi gerektiğinden, alınan sesin netliğini artırmak için üzerinde işlem yapılması gerekir. Bazen cihaz, ses gürültüsü olan ortamlarda kullanılır ve bu ses üzerinde kod çözmenin yapılması gerekir, bu nedenle arka plan gürültüsünü gidermeye yardımcı olmak için filtreler yerleşiktir. Bazı ses tanıma sistemlerinde, insan işitme aralığından daha yüksek ve daha düşük frekanslar dikkate alınmaz.

Bu sistem sadece istenmeyen frekanslardan kurtulmakla kalmaz, aynı zamanda bilgisayarın bunları gürültüden daha iyi ayırt edebilmesi için belirli frekansları özellikle artırır.

Bazı ses tanıma sistemleri de sesi birkaç farklı frekansa böler Sesin hızı ve yüksekliği gibi diğer özellikler referans sesle daha iyi eşleşecek şekilde ayarlanır. Bu filtreleme ve gürültü azaltma, genel doğruluğu artırmaya gerçekten yardımcı olur.

 

Ses tanıma kelimeler oluşturmaya başlar

Bu sistemde konuşmayı analiz etmenin iki yolu vardır. Birincisi gizli Markov modeli, diğeri ise sinir ağıdır.

 

Gizli Markov modeli

Bu model, konuşmanın fonemlere bölündüğü çoğu konuşma tanıma sisteminde kullanılır. Her dilde sınırlı sayıda ses birimi vardır, bu da bu yöntemi çok kullanışlı kılmaktadır.

İngilizce dilinde yaklaşık 40 ses birimi vardır ve sistem birini tanıdığında bir sonraki ses biriminin olasılığını da tahmin edebilir.

Örneğin sistem ta sesini tanırsa bir sonraki sesin p olması ve tap kelimesinin oluşması ihtimali vardır. Sırada s foneminin olması da mümkündür, ancak bu olasılık pek olası değildir. Cihazın aldığı bir sonraki harf p’ye çok benziyorsa, cihaz doğru tahmin ettiğinden oldukça emin olabilir.

 

sinir ağı

Bir sinir ağı, insan beyniyle aynı şekilde birçok şeyi öğrenen dijital bir beyin gibidir. Sinir ağları, derin öğrenme yapay zekasını geliştirmede pratik bir araçtır.

Ses tanımada kullanılan bir tür sinir ağı, tekrarlayan veya RNN’dir. RNN, bir önceki aşamadaki işlemin çıktısı yeni aşamada girdi olarak kullanılacak şekilde çalışır. Bu, RNN’nin bir bit üzerinde işlem yaptığında, önceki adımdaki verileri bir sonraki veri üzerindeki işlemi etkilemek için kullandığı, kısacası deneyimi öğrenme için bir silah olarak kullandığı anlamına gelir.

RNN belirli bir dile ne kadar çok maruz kalırsa, ses tanıma o kadar doğru olur. Sistem ta sesini 100 kez tanırsa ve bu süre zarfında p sesi 90 kez çıkarsa, ağ esasen p’nin genellikle ta’dan sonra geldiğini öğrenebilir.

Bu nedenle, ses tanıma sistemi bir fonemi tanıdığında, daha sonra hangisinin daha olası olduğunu tahmin etmek için toplanan verileri kullanır. RNN’ler sürekli öğrendikleri için ne kadar çok kullanılırlarsa ses tanıma o kadar doğru olacaktır.

Konuşma tanıma sistemi kelimeleri algıladıktan sonra (hem gizli Markov modeli ile hem de RNN ile) bu bilgi işlemciye gönderilir. Daha sonra sistem yapılması gereken görevi yerine getirir.

 

Ses tanıma, ana modern teknolojilerden biri haline geldi

Ses tanıma, modern teknolojik ortamımızın önemli bir parçası haline geldi. Dünya çapında çeşitli endüstrilerde ve hizmetlerde uygulanmaktadır. Aslında birçok insan sesli asistanlarla tüm hayatlarını kontrol ediyor. Apple saatlerine yüklenen Siri gibi asistanları görebilirsiniz. 1952’de sadece bir rüya olan şey gerçek oldu ve yakın zamanda duracak gibi de görünmüyor.