Yüksek Lisans Adayı: Atıl İlerialkan
EABD: Çokluortam Bilişimi
Tarih: 27.11.2019 / 15.00
Yer: A-212
Özet:Konuşmadan çıkarılan akustik özellikler, biyometrik konuşmacı tanımlama veya birinci şahıs eylemlerinin kestirimi gibi problemlerde yaygın olarak kullanılır. Ancak, konuşma verilerinin kullanımı, konuşma içeriğinin açık bir şekilde kullanılabilir olması nedeniyle gizlilik konusundaki endişeleri artırmaktadır. Bu tezde konuşma aralarındaki nefes verilerini kullanarak konuşma ve vücut pozisyonu sınıflandırması için bir yöntem öneriyoruz.
Bu yöntemde akustik anlık yan bilgi, Hilbert-Huang dönüşümü kullanılarak nefes örneklerinden çıkarılır. Anlık frekans, büyüklük ve faz özellikleri, içsel kip işlevleri kullanılarak çıkarılır ve bunların farklı kombinasyonları, sınıflandırma için CNN-RNN ağına beslenir. Ayrıca, hem bu tezdeki deneylerimiz hem de gelecekteki çalışmalarımız için genel erişime açık bir nefes veri seti, BreathBase'i oluşturduk. BreathBase, önceden hazırlanmış rastgele sözler içeren metinleri 4 farklı mikrofonla 5 farklı vücut pozisyonunda okuyan 20 katılımcının kayıtlarında tespit edilen 5000'den fazla nefes örneği içermektedir.
Konuşmanın nefes bölümlerinden elde edilen yan bilgileri kullanarak, bu yöntemle 20 konuşmacı arasında % 85 konuşmacı sınıflandırma ve % 98 duruş sınıflandırma doğruluğu elde edilmiştir. Önerilen ağ ayrıca SVM, LSTM ve kNN-DTW tekniklerinin birleştirilmesi gibi diğer yöntemlerden daha iyi performans göstermiştir.