E-Gürbüz

Formant Frekanslar ve F2-F1 farkının anlamı (kalın/ince, dar/geniş)

Posted in Bilgisayar Mühendisliği, Konusma Tanima by Emre on Ocak 28, 2011

Sesin oluşumu Şekil-1 deki çizimde gösterilmiştir. Konuşma solunum, fonasyon, rezonasyon ve artikülasyon olayları sonucu oluşur. Temel olarak ses, konuşma sırasında akciğerdeki havanın ağızdan çıkana kadarki ses yolunda değişime uğramasıyla oluşur. Bu değişim sırasında üretilen sese ve sesi üreten kişiye bağlı olarak çeşitli frekanslarda enerji yoğunlaşması gerçekleşir. Bu frekanslara formant(biçimlendirici) frekansı adı verilmektedir.

Şekil 1

İlk üç formant frekansı genelde ünlüleri ayırt etmek için yeterlidir. Spektrumda ünlüler koyu renkli sıklıklarıyla kolayca fark edilebilmektedirler. Formant frekansları ses yolunun rezonans frekansları olarak algılandığında ses yolunun geometrisine göre bu frekansların gerek sayılarının gerekse değerlerinin değisiklik göstereceği açıktır. Aşağıda Türkçe’deki sesli harfler için ortalama F1, F2, F3 formant frekanslarının değerleri verilmiştir. (Yetişkin Erkekler için)

Ünlü μF1 μF2 μF3
a 628.9 1259.3 2706.2
e 485.6 1834.0 2614.1
ı 537.4 1577.5 2722.0
i 286.1 2177.9 2942.7
o 467.7 1064.5 2695.4
ö 543.9 1516.7 2549.3
u 309.9 908.8 2400.9
ü 372.1 1632.7 2369.3

Formant değişiminin(vokal trakt) ses tellerinden çıkan sinyal üzerindeki etkisi Şekil-2 de gösterilmiştir

Şekil 2

Formant frekansların değeri yaşa, cinsiyete ve diğer fiziksel özelliklere bağlı olarak değişim gösterebilmektedir. Bir bakıma kişiye özeldir denebilmektedir.  Ünlü harflerin ses olarak üretilmesi aşamasında dilin yukarda veya aşağıda kalması, dudakların yuvarlanıp yuvarlanmaması gibi özellikler formant frekanslarının değerlerinden çıkarılabilmektedir. Örneğin F1 frekansı ünlü harfin yüksekliğini(dilin yukarda veya aşağıda olması) bulmakta kullanılabiliniyor. F1 frekansı ile ünlünün yüksekliği arasında ters orantı vardır. F1 frekansının büyük değerlerinde yükseklik azalırken, düşük değerleri için ise artmaktadır.

Şekil 3

F2 formant frekansı ise ünlü harfin üretilirken dilin öne(frontness) veya arkaya(backness) geçme durumunu tespit etmede kullanılabiliyor. Büyük f2 değerler için dil öne kayarken, düşük f2 değerlerinde arka tarafa kaymaktadır. Şekil-3’te bu durum ifade edilmek istenmiştir.

Bu çalışma F2 ve F1 frekansları arasındaki farkların Türkçedeki ünlüler için gösterilmesidir. Bu fark değerleri için beklenen sonuç, farkın arttığı ünlülerin frontness, azaldığı ünlülerin ise backness özellikte olmasıdır. Başka bir deyişle Kalın-İnce ünlü tespiti yapabilmek mümkün olacaktır. Ünlü, dil ağızda geriye doğru çekilerek(backness) çıkmışsa kalın ünlü adını alır. Bunlar “a, ı, o, u” ünlüleridir. Dil ağızda ileriye doğru itilerek çıkmışsa da ince ünlüdür.(e,i,ö,ü)

Uygulama

Çalışma kapsamında Matlab ortamında yazılan program ile ünlü harflerin F2-F1 değerlerine karşılık F1 değerinin grafiği bulunmuştur. Beklenildiği gibi kalın ünlüler için F2-F1 değerinin küçük olduğu görülmektedir.  Aynı zamanda ortalama F2-F1 değeri 665 bulunmuştur. Bu ortalama değerden küçük olan ünlülerin geniş ünlü, büyük olanların ise dar ünlü olduğu gözlemlenmiştir. Program doğrudan şu şekilde çalıştırılır:

formantOdev();

Şekil 4

Kaynakça
Learning Vowels via Speech Analysis and Spreadsheet Software – Takahiro IOROI Department of Cultural Studies
Tracking of Speech Formant Frequencies – Đ. Yücel Özbek, Mübeccel Demirekler

Konuşma kaydından sessiz kısımların ayrıştırılması

Posted in Konusma Tanima by Emre on Ocak 8, 2011

İşlenecek ses verisi, konuşmanın olmadığı, sessiz kısımlardan oluşabilmektedir.  Bu çalışmanın amacı sessiz kısım olarak nitelendirilen duraklamaları ayrıştırmak ve salt konuşmaların var olduğu biçime sokmaktır.  Sessiz kısımların tespiti için izlenen adımlar:

1)      Spectral Centroid ve short-term energy öznitelikleri ses sinyalinden çıkarılır

2)      Her öznitelik için threshold T değeri devingen olarak hesaplanır

3)      T threshold değeri ses sinyali üzerinde uygulanır.

4)      Konuşmanın olduğu ve olmadığı kısımlar tespit edilir

Öznitelik Çıkarma (Feature Exraction)

Öznitelik çıkarma işleminden önce ses sinyali 50 ms genişliğinde window’lara bölünür. Her çerçeve için aşağıdaki öznitelikler hesaplanır:

  • Short-term Energy  :  Konuşmanın olduğu kesimlerde daha fazla enerji vardır.
  • Spectral Centroid: Konuşmanın olmadığı kesimlerde, çevreden kaynaklanan gürültüler düşük frekanslı olacağı için bu kısımlarda spectral centroid değeri düşük olacaktır.

Programı çalıştırmak için:

[segments, fs] = detectVoiced(‘ses.wav’,1);

İndir: Matlab Kodu

Tagged with:
Takip Et

Get every new post delivered to your Inbox.