Belki de ileride çalışacağım alan üzerine bir şeyler yazmanın vakti geldi. Hem Konuşma İşleme(Speech Processing) ders notlarımızı burada tutarız, hem de öğrendiklerimizi ve yaptıklarımızı paylaşmış oluruz. Türkçe yazıp, İngilizce terimleri parantez içinde belirtmeyi uygun gördüm.
Konuşma İşlemenin kullanım alanları arasında yazılan metni okuma(text-to-speech, TTS), konuşma tanıma(voice recognition), güvenlik amaçlı konuşmacı doğrulama(voice verification), ses dönüştürme(voice conversion) gibi uygulamalar bulunuyor. Günümüzde hala çoğunluğu araştırma ve geliştirme sürecinde olsa da piyasada çok fazla ürün bulunmakta. Birçok uygulamaya yavaş yavaş ilave edilen bu alan, geleceğin teknolojilerinde de sıkça kullanılacak.
Mesela şu an, bilgisayarınızdan müzik dinlerken sesi yükseltmesini “rica edebiliyor”, Word’ü açıp İngilizce bir metin okuduğunuzda yazıya dökebiliyor ya da 2012 filminde gördüğümüz üzere Bentley otomobilinizi anahtarla değil “Engine Start!” komutuyla , “akıllı ev”lerle yapmak istediğimiz her şeyi sesimizle kontrol edebiliyor olacağız.
Bunların işin magazinsel kısmı tabi. Bunların yanında konuşma işleme uygulamalarının ürünlerini konuşma bozukluklarını incelemede kullanan doktorlar da mevcut.
Konuşma işleme alanında yapılan çalışmaların çoğu Türkçe değil. Türkiye’de bu konuda gerçekten çalışma yapanların sayısı da iki elin parmaklarını geçmez sanırım ki o kişilerden biri, geçen dönemki tez danışmanım, bu dönem Konuşma İşleme dersini aldığım Barış Bozkurt‘tur. Kendisi olur da okursa ve yanlış bir şeyler bulursa ne yaparım bilmem 🙂
Ders notlarımızı ve öğrendiğimiz teknik bilgileri paylaşalım.
KONUŞMA İLETİŞİMİ (SPEECH COMMUNICATION)
Konuşma, TDK’deki temel anlamıyla bir dilin kelimeleriyle düşünceyi sözlü olarak anlatmak işi.
Konuşma iletişiminde ise hem konuşma hem de dinleme kısmı bulunuyor.Bu iş öncelikli olarak beyinde başlar. Beyninizde söylemek istediklerinize dair bir düşünce oluşturduktan sonra bu hareket sinir sistemi vasıtasıyla kas sistemine iletilir. Kas sistemi sayesinde de konuşmacı, havadaki moleküllerini sıkıştırıp rahat bırakarak ses dalgalarını oluşturur. Oluşturulan ses dalgaları dinleyicinin kulağına gittiğinde de önce kas sistemi ardından da sinir sistemi ile algılama gerçekleşir.
Duyma sistemi tek bir amaca yöneliktir. Ancak konuşmayı oluşturan organlar sadece konuşma sistemi için kullanılmazlar. Yemek yerken ağzımı, koku alırken burnumuzu ve nefes alırken her iki organımızı da kullanırız. O yüzden ek bilgiler mimikler ve jestlerle tamamlanır.
İnsan kulağı 16-20000 Hz arasına duyarlıdır. Konuşmada ise kullanılan organların sınırlarından dolayı genel bir konuşma iletişimi 7-8 kHz. bant genişliğine sahiptir.
VÜCUT YAPISI VE FİZYOLOJİ (ANATOMY and PHYSIOLOGY)
İnsan anatomisinde, akciğerler(lungs), nefes borusu(trachea/windpipe), gırtlak(larynx), boğaz ( pharingeal/throat), ağız boşluğu(buccal cavity), burun boşluğu(nasal cavity) gibi elemanlar konuşmayı sağlar.
Sesler iki yol sayesinde oluşturulur: Ses yolu (vocal tract) ve geniz yolu(nasal tract). Bu yollar bir nevi akustik bir tüp olarak kabul edilir.
Ses Yolu gırtlaktan dudaklara kadar olan yola denir. Çoğu sesin çıkarken kullandığı bu yoldur. Ortalama olarak, yetişkin bir erkekte 17 cm, yetişkin bir kadında 14 cm ve bir çocukta 10 cm. olur. Buradan da tahmin edilebileceği gibi ağız yolunun uzunluğu sesin kalınlığını etkiler. Ağız yolunun kapladığı alan 0 ila 20 cm^2 aralığında, değişik seslerin oluşmasını sağlar.
Geniz Yolu yumuşak damak(velum)’tan burun deliği(nostrils of nose)’ne kadar olan yoldur. Nazal sesler(konuşurken burundan da nefes verilen) -m,n gibi- bu yoldan çıkar.
Konuşma işleme alanı ile ilgilenmek istiyorum. Önerebileceğiniz site ve türkçe ya da ingilizce kaynaklar var mı?