Yapay zekâ dünyası son yıllarda devasa bir “kütüphaneciye” dönüştü. ChatGPT ve benzeri Büyük Dil Modelleri (LLM), insanlığın tüm yazılı külliyatını yuttu ve bize muazzam bir dil ve sembolik akıl yürütme yeteneği sundu. Ancak modern AI’nın öncülerinden Prof. Fei-Fei Li, madalyonun diğer yüzüne, endüstrinin en büyük kör noktasına işaret ediyor: Mekânsal Zekâ.
Fei-Fei Li ve AI Devriminin “Gözleri”
Prof. Fei-Fei Li Stanford Üniversitesinde ama sadece bir akademisyen değil, AI’nın dünyayı “görmesini” sağlayan isimdir. 2012 yılında Google’da çalışırken AlexNet ile derin öğrenme devrimini tetiklediğinde, makinelerin sadece veri yığınlarını değil, piksellerin ardındaki dünyayı anlaması gerektiğini kanıtlamıştı. Bugün Li, AI’nın sadece “konuşan bir kafa” (dil modeli) olmaktan çıkıp, “hareket eden bir gövdeye” (mekânsal zekâ) kavuşması gerektiğini savunuyor.
İnsan Zekâsının İki Dev Kovası
Li’ye göre zekâmız iki temel sütun üzerinde yükselir: sembolik kova (Dil): Düşünceleri kelimelerle ifade etme, soyutlama yapma ve iletişim kurma yeteneği. Son on yılın tüm yatırımı bu kovaya yapıldı. Mekânsal Kova (Eylem): Üç boyutlu dünyayı algılama, navigasyon ve fiziksel etkileşim yeteneği. Nesnelere ulaşmak, hareket planlamak ve fiziksel gerçekliği şekillendirmek bu kovanın işidir.
Kritik fark ise bir LLM’e bir gökdelenin nasıl inşa edileceğine dair 500 sayfalık teknik bir doküman yazdırabilirsiniz. Bu dilsel zekâdır. Ancak o gökdelenin rüzgârda nasıl esneyeceğini “hissederek” bir vinci milimetrik hassasiyetle kontrol etmek mekânsal zekâdır. Biri dünyayı tarif eder, diğeri dünyayı harekete geçirir.
“Mekânsal Uçurum”: Bilmek Neden Yetmez?
LLM’ler birer “dijital beyindir”, ancak mekânsal zekâdan yoksun olduklarında fiziksel dünyada kör birer dahi gibidirler. Bir yapay zekâya “Omlet nasıl yapılır?” diye sorarsanız size kusursuz bir tarif verir. Ancak aynı yapay zekâyı bir robot gövdesine koyup mutfağa bırakırsanız; yumurtayı kırarken ne kadar güç uygulayacağını bilemez, tavanın sıcaklığını veya derinliğini algılayamaz.
Bir çocuk, masanın kenarındaki bardağın yerçekimiyle düşeceğini içgüdüsel olarak bilir. Bir LLM ise “bardak” ve “masa” arasındaki semantik ilişkiyi kurar ama yerçekiminin o anki fiziksel tehdidini “görmez”.
Mekânsal Sağduyunun Kaynağı: Hindistan’daki GoPro Kayıtları
Makinelerin fiziksel dünyayı bir “kitap” gibi okumak yerine bir “aktör” gibi tecrübe etmesi için bugün yapay zekâ tarihinin en sıra dışı veri toplama süreçlerinden biri yürütülüyor. Meta AI ve aralarında Hindistan Teknoloji Enstitüsü’nün (IIT Delhi) de bulunduğu küresel bir konsorsiyum tarafından hayata geçirilen Ego4D projesi kapsamında, Hindistan’daki köylerde yaşayan kadınların kafalarına GoPro kameralar takıldı. Bu kadınlar günlük rutinlerini sürdürürken; yemek karıştırırken kaşığın direncinin sıvının yoğunluğuna göre nasıl değiştiğini, ütü basarken kumaşın hangi açıyla kırıştığını veya dar alanlarda manevra yaparken vücudun objelere çarpmadan nasıl kıvrıldığını saniye saniye kaydetti. Dr. Fei-Fei Li’nin de vurguladığı gibi, bu “birinci şahıs” (egocentric) perspektifi, yapay zekâya kütüphanelerde bulamayacağı bir fiziksel sağduyu aşılıyor. Artık makineler dünyayı sadece dışarıdan izleyen birer seyirci gibi değil, o dünyanın içinde bizzat var olan ve hareket eden birer canlı gibi “hissederek” öğreniyor. Meta’nın Rayban gözlüklerini de ileride bu çerçevede değerlendirin.
Bu, AI eğitiminde “Benim gibi gör, benim gibi hisset” dönemidir.
Mekânsal Zekâ ve Robotik Gelecek
Fabrikalarda kullanılan insansı robotlar, sadece dil modellerine dayanarak sınırlarına ulaştı. Mekânsal zekâ, robotik devrimin anahtarı olacak. Bu teknoloji sadece mutfakta değil, jeopolitik ve askeri alanlarda da oyunun kurallarını değiştirecek: arama kurtarma için GPS’in çekmediği yıkılmış binalarda, bir kuşun kıvraklığıyla süzülen dronlar enkaz içinde güvenli ve hızlı hareket edebilir. Doktorluk için dokunun direncini hissederek cerrahi müdahale yapan robot kollar, insan cerrahın gözlemlerini ve dokunma hissini taklit eder.
Temel Bilim Yasalarının Algoritmalara Füze Edilmesi
Mekânsal zekâ sadece mühendislik ve robotik ile sınırlı değil; fizik, kimya ve biyoloji yasaları AI algoritmalarına entegre edilecek:
- Fizik: Newton yasaları, momentum ve denge prensipleri, robotların nesneleri güvenle manipüle etmesini sağlar. Örneğin bir robot kol, cismin ağırlığını ve merkezini hesaplayarak düşmeden tutar.
- Kimya: Moleküllerin üç boyutlu şekilleri ve reaksiyon mekanizmaları, robotlara laboratuvar simülasyonlarını ve tepkimeleri gerçek dünyada test etme yeteneği kazandırır.
- Biyoloji: Hücre, doku ve protein yapıları 3D olarak modellenebilir; robotlar bu yapıları hassas bir şekilde manipüle edebilir. Örneğin cerrahi robotlar canlı dokunun elastikiyetini öğrenerek güvenli müdahale yapar.
Bu sayede algoritmalar, fiziksel dünyayı doğrudan anlayıp kontrol edebilen, bilimsel süreçleri simüle edip optimize edebilen bir sistem haline gelir.
Yapay zekânın geleceği sadece “düşünen” yazılımlarda değil, dünyayı algılayan ve eyleme dönüştüren sistemlerde şekillenecek. Eğer makineler hayatımızın bir parçası olacaksa, sadece konuşmayı değil, bizim gibi hareket etmeyi de öğrenmek zorundalar.
Mekânsal zekâ, yazılımın sınırlarını fiziksel dünyaya taşıyacak olan o büyük sıçramadır. İnsan ve makine arasındaki uçurumu kapatacak, teknolojiyi hem günlük yaşamda hem de bilimde yeni boyutlara taşıyacak bir köprü görevi görecektir.
AI’nin gerçek devrimi de o an başlayacak.
“Bu makale, ‘konuşan kafaların’ (ChatGPT ve Gemini dil modellerinin) yardımıyla, ‘hareket eden gövdelerin’ (mekânsal zekânın) geleceğini anlatmak için kaleme alınmıştır.”

