Dışarıdasınız, hava da buz gibi. Acil nöbetçi ezcane bulmanız gerekiyor. Akıllı telefonunuzdan aratarak nöbetçi eczane bulabilirsiniz ama ellerinizde eldiven var. Güzel haber: Eldivenlerinizi çıkarıp o havada uzun uzun “ilçe adı nöbetçi eczane” yazmak zorunda değilsiniz, çünkü dokunmatik ekrana muhtaç değilsiniz. Yapacağınız tek şey Google Voice Search'e anahtar kelimeleri söylemek ve o da ne! Tıpkı yazmışsınız gibi Google sizin için arama yapmış.

Ya da benim de şu sıralar ilgilenmekte olduğum gibi Duolingo veya benzeri bir platformda ikinci bir yabancı dil öğreniyorsunuz. Yazılım size bazı yerlerde yabancı dil eğitiminin olmazsa olmazı “repeat after me” soruları soruyor, yani bir sözcüğü veya cümleyi önce kendisi sesli olarak veriyor, sonra da sizden ekrandaki mikrofon butonuna tıklayarak söylediği şeyi tekrar etmenizi bekliyor. Önce sesinizi kaydediyor, sonra da söylediğiniz cümleyi analiz ederek telaffuzunu, vurgularınızı kontrol ediyor.

İşte konuşma işleme, yukarıda verdiğim örnekleri ve gerek gündelik hayatımızda, gerek bilişim ile ilgili veya akademik çeşitli alanlarda sıkça görmeye başladığımız benzeri teknolojileri geliştiren; bilgisayar bilimi, dilbilim ve elektronik mühendisliğinden oluşan disiplinlerarası bir çalışma alanıdır. Bu yazımda konuşma işlemenin ne olduğundan; geçmişi, bugünü ve geleceğinden kısaca bahsedeceğim.

Konuşma İşleme Nedir?

Her ne kadar bir önceki alt başlıkta bir tanım yapmış olsam da, konuşma işlemeyi biraz daha net bir şekilde tanımlamak istiyorum. Konuşma işleme, adından da anlaşılabileceği gibi insan konuşmasının bilgisayarlar tarafından mekanik olarak algılanması ve semantik (anlamsal) olarak çözümlenmesi amacıyla yöntemler ve teknikler geliştirmekle ilgilenen disiplinlerarası bir daldır. Doğal dillerin makine diline (yani sıfırlar ve birlere) tercüme edilmesi olarak da düşünebiliriz, böylelikle insanlarla bilgisayarlar daha iyi “anlaşabiliyor”, hatta “konuşabiliyor”; bu da bilgisayarlarla daha interaktif bir iletişime geçebilmemiz demek. Bu teknolojinin yapay zeka ve robotik gibi sayısız alanda kullanılarak hayatımızı kolaylaştıracağı ve gelecek dünyaya şekil verecek alanlara ne kadar büyük katkı yaptığı/yapacağı çok açık. Konuşma işlemenin günümüze kadarki gelişimine bakarak hangi alanlarda ne tarz amaçlarla kullanıldığına ve nasıl bir gelişim gösterdiğine dair somut örnekler bulmak mümkün.

Kısa Tarihçe

Konuşma işleme ile ilgili çalışmalar ilk olarak 1930'lu yıllarda başladı. 1950'lere gelindiğinde makineler on kadar kelime dağarcığını anlayacak bir hale gelmişti. Ancak bu kelimeler, ancak teker teker söylendiğinde anlaşılabiliyordu. Bu sorun, 1960'lı yılların sonunda Stanford Üniversitesi'nde sürekli konuşma işleme teknolojisinin satranç komutlarının işlenmesi amacıyla geliştirilmesiyle aşıldı. Aynı yıllarda Sovyet araştırmacılar da dinamik zaman bükme (dynamic time warping)* algoritmasını geliştirip 200 kelimeyi anlamlandırabilen bir cihazda kullandılar. 1970'li yıllarda da ağırlıklı olarak Amerikan savunma sanayiinde kullanılmak üzere yeni konuşma işleme algoritmaları geliştirilmeye devam etti. 1980'lerin ortalarına gelindiğinde ise IBM Tangora adında 20,000 kadar kelime işleme kapasitesine sahip ses ile aktive edilen bir daktilo geliştirmişti.

Zaman ilerledikçe ve bilgisayarlar donanımsal olarak geliştikçe, bekleneceği gibi konuşma işleme becerileri de gelişti: örneğin 1970'lerde Amerikan savunma sanayiinin elindeki en iyi bilgisayarın RAM'i sadece 4 MB idi ve 30 saniyelik bir konuşmanın çözülmesi 100 dakikayı bulabiliyordu. Teknoloji ilerledikçe ve bilgisayarlar hızlandıkça araştırmacılar da bilgisayarların kelime dağarcığını genişletmek, konuşmanın gürültülü ortamlarda anlaşılabilmesini ve bilgisayarla konuşmacının karşılıklı iletişim kurabilmesini sağlamak gibi daha karmaşık konularla ilgilenmeye başladılar. 1990'larda ise konuşma işleme teknolojisi ilk defa ticari alanda görülmeye başladı. Bu noktaya gelindiğinde, tipik bir ticari konuşma işleme sisteminin kelime dağarcığı ortalama bir insanınkini geçmişti. 1930'larda 10 kelimeyle başlayan serüvenin 60 yıl gibi çok da uzun sayılmayacak bir zaman zarfında bu noktaya gelmesi gerçekten heyecan verici.

Günümüz

Konuşma işlemenin bugününe baktığmızda, pek çok farklı alanda hayatımızı kolaylaştıracak uygulamalarda kullanıldığını görüyoruz. Bunlardan bazıları:

  • Otomobillerde sürücü tarafından sözel olarak verilen komutların işlenmesi (navigasyon, klima, radyo kanalı değiştirme vb.)
  • MR gibi tıbbi cihazlara komut verilmesi ve veri girilmesi (klavye-fare gibi donanıma duyulan ihtiyacı azaltması bakımından ergonomiyi artırdığı da rahatlıkla söylenebilir)
  • Askeri ve sivil havacılık (radyo frekansının ayarlanması, otomatik pilota komut verilmesi, koordinat girdisi vb.)
  • Dil eğitimi uygulamaları ve engelliler için geliştirilen eğitim araçları (özellikle görme ve işitme engelliler için)
  • “Hands-Free” yani cihaza bir klavye/fare gibi bir donanım kullanmadan yalnızca ses ile girdi ve komut verilen uygulamalar (Siri, Samsung S-Voice, Google Voice Search vb.)
  • Çeşitli robotik ve yapay zeka uygulamaları, video oyunları

*Dynamic Time Warping: Zaman serilerinin benzerlik ölçümünde kullanılan bir eşleştirme algoritmasıdır. Bu algoritma, konuşma işlemede bir sesin içindeki sözüğü ayrı olarak ayırt edebilmede kullanılmaktadır. Günümüzde pek kullanılan bir yöntem değildir, yerini Hidden Markov Model (HMM) almıştır, ancak o da başka bir yazının konusu olsun. :)

Kaynakça: