Doğal dil işleme (NLP), yapay zeka metotlarını kullanarak bilgisayar ile doğal dilde iletişimin sağlanmasıdır. Bunun için öncelikle bilgisayarın dilbilgisi dediğimiz doğal dil kurallarını öğrenmesi gerekmektedir. Bunun yanında dil içinde kullanılan deyim ve tabirleri de bilmelidir. Bunun için bilgisayar genel bir sözlüğe ve bu sözlüğün kullanımına yardımcı olacak algoritmalara ihtiyaç duyar. Bilgisayar dil ile ilgili genel bilgilerin yanında ihtiyaç duyduğu ve dilin genel yapısından bağımsız olarak algılanması gereken “alana özel” hatta “göreve özel” bir bilgi tabanına gereksinimi vardır. NLP’de arzulanan bilgisayarın verilen girişi anlaması ve bu girişe uygun bir çıktı vermesidir. Aynı zamanda verilecek olan çıktının da doğal dilde olması istenir. Bunu sağlamanın en kolay yolu da bilgisayarın kullanabileceği cümlelerin, sözcük öbeklerinin, deyim ve tamlamalar ile varsa genel manada paragrafların bilgisayara verilmesidir.
NLP’de Kullanılan Terimler
Doğal Dil (NL) : İnsanlar arasında iletişimi sağlayan sözlü ve yazılı kurallar dizisidir. Dil içerisinde sesler, işaretler, semboller, kelimeler, cümleler ve paragraflar kullanılır.
Dilbilim (Linguistic) : Dillerin nasıl yapılandığını ve kullanıldığını araştıran bilim alanıdır. Dilbilimi, genel olarak kullanılan tüm kelime ve deyimleri organize ederek lexicon adı verilen ir sözlükte toplar. Lexicon, bir dilde kullanılan tüm kelimelerin alfabetiksel olarak sıralandığı bir sözlükten başka bir şey değildir.
Bir dilde, düşünce ve duyguların anlatılabilmesi için kelimelerin ne şekilde bir arada kullanılabileceğini gösteren kurallar dizisine gramer denir. Gramer, sözdizimi (syntax) ve anlambilimi (semantics) denilen iki alt parçadan oluşur.
Sözdizimi (sentaks), cümle içinde kelimelerin, isim, fiil, zarf, sıfat vb. gibi hangi görevler ile yer alacağını inceler. Diğer bir anlatım ile sentaks kelimelerin bir cümle içinde yer alırken uyulması gereken bir metottur.
Semantik ise dil içindeki kelimelerin anlamı ve birbiri ile iletişimi üzerinde çalışan bir bilim alanıdır. Semantik bize söyleneni analiz etmeyi, anlamayı ve yorumlamayı sağlar.
L ile çalışılırken bilgisayar için gerekli olan genel kültür bilgi tabanı, alana özel bilgi tabanı ve göreve özel bilgi tabanı sağlansa dahi, dilin farklı kullanımlarından kaynaklanan belirsizlikler ortaya çıkar. Bu nedenle NL üzerine çalışmak oldukça zordur.
Örneğin;
Hasan : Bu gece kim daha şanslı İstanbul mu Beşiktaş mı ?
Ali : Bence karakartal, ya sen ne diyorsun ?
Hasan : Olmaz oyle sey, Kartal, Nauma’sız uçamaz.
…….
Böyle bir konuşma bizim için çok şey ifade etse de bilgisayar için oldukça karmaşık bir anlama sahiptir. Anlaşılması ve yorumlanması zordur.