3D Görüntü İşleme Teknikleri – 1

3D uygulamaları son zamanlarda hızla yaygınlaşmaktadır. Bu makalemizde, mevcut 3D modellerini ve uygulama alanlarını göreceğiz. Burada kastedilen 3D, görüntü işlemede kullanılan 3D dir. Standart kameralar (monocular) X-Y düzleminde görüntüler verir. Biz, aynı zamanda derinlik (Z) bilgisini de içeren, X-Y-Z bilgisi verebilen teknolojilere hızlıca değineceğiz.

Günümüzde yaygın olarak kullanılan 3D yapay görme teknolojileri şunlardır.

1. Laser Triangulation
Bu modelde, genellikle bir çizgi lazer kaynağı ve kalibre edilmiş bir kamera kullanılır. Genellikle çizgi lazer ve kamera, birlikte tek bir kutu içinde yer alır. Sistemin çalışabilmesi için, 3 boyutlu olarak algılanmak istenen nesnenin kontrollü bir şekilde hareket etmesi gerekmektedir. (Bir encoder yardımıyla nesnenin ne kadar gittiği hesaplanabilir) sistem sürekli fotoğraf çekerek lazer çizgisindeki profil değişikliğinden faydalanarak, 3 boyutlu nesnenin profilini çıkartır. Piyasada farklı alternatifler vardır, daha önceden LPS 36 isimli bir modeli incelemiş, HALCON ile çeşitli uygulamalar geliştirmiştim. Ülkemizde bu veya benzer ürünleri kolaylıkla temin etmek mümkündür.

2. Time Of Flight Kameralar

Kişisel olarak, geleceklerinin iyi olduğunu düşündüğüm 3D kamera teknolojisidir. Daha önce şu makalede detaylı olarak bu kameraları anlatmıştım. Çalışma prensipleri (özetle) 3D olarak belirlenmek istenen nesnenin fotoğrafı alınırken, aynı zamanda infrared (veya başka bir dalga) göndermek ve gelen dalganın ne kadar geciktiğini ölçerek (bir nevi radar), her noktada mesafeyi hesaplamak mantığına dayanır. Gerçekte zaman ölçümü Frekans Kaydırma (Frequency shift) modülasyonu ile gerçekleştirilir. Yine piyasada (nadir olmakla birlikte) TOF kameralar mevcuttur.

3. Stereovision

En yaygın olarak kullanılan 3D teknolojisidir. İnsan gözü modelinde olduğu gibi, 2 kamera kullanılır. Kameraların arasındaki mesafe ve merkez doğrultu açıları net olarak bilindiğinden, her bir noktanın, her iki kameradaki izdüşümü, basit geometrik hesaplamalar ile bulunabilmektedir. (İleride çalışma prensibi daha detaylı anlatılacaktır)

 

4. Fringe Projection

Bu teknolojide, algılanacak 3 boyutlu nesne üzerine bir projektör yardımıyla özel bir desen (genelde çizgiler vb) düşürülür. Kamera bu çizgileri algılar. Çizgilerdeki değişim, 3D profili verir. Laser Triangulation tekniğinde, nesne hareketli idi, bu teknikte nesne sabit olup, üzerine tek bir lazer çizgi yerine, pek çok çizgi aynı anda düşürülmektedir. Çalışma prensibi aynıdır.

 

5. Kinect (PrimeSense) Grubu

Oyun konsollarının (XBox, PS v.b.) yaygınlaşması ile birlikte genellikle PrimeSense firmasının sensörlerinin kullandığı, stereovision tekniğidir. Aslında farklı bir teknik olmamakla birlikte, çok yaygın bir grup olduğu için ayrı bir başlık olarak ele alınabilir. Burada, projektör, bilinen pattern’e sahip görüntüyü nesne üzerine yollar. Kamera bu patterni algılar. Orijinal pattern ile olan değişimden yola çıkarak, 3 boyut oluşturmaya çalışır.

6. Active Stereo Vision

Bu teknikte, stereovision modeli biraz geliştirilerek, araya bir projektör eklenmiştir. Projektör rastlantısal bir pattern oluşturup nesnenin üzerine gönderir. Stereo kameralar bu patterni yakalayıp, 3 boyut bilgisini çıkartır. Normal stereo Vision da, projektör yoktu. Kameralar, gerçek cismin görüntüsünden yola çıkarak 3 boyut bilgisini çıkartmaya çalışıyordu. Cismin üzerinde texture (şekil, yazı, desen vb.) yoksa, böyle bir durumda stereo vision başarılı olamıyordu. Çünkü her pixel kendi komşu pixelleri ile aynı bilgiyi taşıyor farklılık yaratmıyordu. Bu modelde, projektör cisim üzerine yeterli karmaşıklıkta desen varmış gibi pattern yollar. Kendi gönderdiği patterni arar ve 3 boyut bilgisini çıkartır. En sağlıklı 3D yöntemi de, günümüzde budur. (Firmamız, Active Stereo Vision ürünü olan Ensenso cihazlarının Türkiye distribütörüdür.)

Tüm teknikleri artı ve eksileri ile karşılaştıran aşağıdaki gibi bir tablo yaptım.

 

 

Buradaki Multi-View stereo, aynı nesneye birden fazla yerden (ön, arka, sağ, sol v.b.) bakmak gerektiği durumları ifade eder. Örneğin 3-4 Kinect cihazını farklı açılardan birbirine bağlayıp daha iyi bir görüntü elde edemezsiniz. (Kinect böyle bir teknolojiyi sunmamaktadır, tek ve bağımsız çalışmaktadır gibi.)

Bu konuya kaldığımız yerden devam edeceğiz. Önce Stereo Vision teknolojisine daha detaylı giriş yapıp, işin tekniğini kavrayacak, sonra HALCON ile stereo vision uygulaması nasıl geliştiririz buna bakacağız.

Bir sonraki bölüm için tıklayınız…

 

TOF (Time Of Flight) Kameralar ve yeni Kinect

TOF (Time of Flight) kameralar, normal kameralara ilaveten işin içine mesafe ölçüm sensörlerinin de sokulduğu, dolayısıyla 3 boyutlu görüntü alınabilen kameralardır. Mesafe ölçüm sensörleri, genellikle infrared bir kaynaktan, hedef üzerine foton gönderir. Fotonlar hedeften yansıyıp geri gelir. Çok hassas bir zaman ölçümü ile, gelen foton gecikmesinden hedefin bulunduğu konum hassas olarak belirlenir. (Radar olarak bildiğimiz yöntem) Genellikle matris şeklinde dizilmiş binlerce sensör kullanıldığından, görüş alanındaki hedef 3 boyutlu olarak hızlı bir şekilde çıkartılmış olur.

Soldaki resim Panasonic D-Imager TOF sensörünün çalışma mantığını sembolize etmektedir. Yansıyan fotonların, günışığı ya da başka ışık kaynakları ile karışmaması için, dalga boyu bilinen IR aralığında seçilmesine özen gösterilir. Yine de gün ışığı spektrumu çok geniş olduğu için, özellikle arka plandan yansımalar bazen sonucu olumsuz etkileyebilir.

TOF konusunda, kesinlikle incelenmesi gereken bir diğer endüstriyel ürün ise MESA Imaging firmasının SwissRanger 4000 isimli ürünüdür. 4.000 USD civarında bir satış fiyatı vardır.

Daha ucuz bir alternatif için Microsoft yeni Kinect göze çarpmaktadır. Yakında piyasalarda olacak olan yeni xBox oyun konsolu için geliştirilmekle birlikte çok farklı sektörlerde sıkça karşımıza çıkacağı kesin gibidir. Yeni Kinect, eskisinin aksine TOF teknolojisine dayanmaktadır. (Eski Kinect Stereovision teknolojisine göre çalışmaktaydı.)

Microsoft, yeni Kinect için, İsrail Elron firmasının ZCam isimli ürününü kullanmaya karar verdi. Bunun için, öncelikle Elron firmasını, ortalama olarak 5 milyon USD gibi bir rakama satın aldı. Bununla da yetinmeyip, 3D konusunda öncül bir diğer sensör firması Canesta yı da (rakam açıklanmadı) bünyesine kattı. Bu satın almalar, 3D konusunda Microsoftun gözü kara bir şekilde yatırım yapmaya devam edeceği anlamına da gelmektedir. Diğer yandan, özellikle Amerikada çok sıkı olan patent ihlal davaları/mahkemeleri ile (Kinectin patenti PrimeSense firmasına aittir) uğraşmak istemediği anlamına da gelir.

Bu video http://youtu.be/Hi5kMNfgDS4?t=5m27s yeni Kinectin 3 boyutlu algılama ve yeni teknolojiler konusunda ne kadar başarılı olduğunu göstermektedir.

Bu video ise, https://www.youtube.com/watch?v=5_PVx1NbUZQ Canesta’nın yeni sensörünün yeteneklerini göstermektedir. Sensör boyutuna bakılırsa, Canesta’nın bu yeni tip 3D sensörünü mobil uygulamalar (cep telefonları) üzerinde göreceğimiz günler yakın demektir. (Videonun 3 yıl önce çekildiği düşünülürse, şu an gelinen noktanın çok daha ileride olduğunu tahmin etmeye gerek yok)

Tüm bu teknolojiler gelişirken, biz neredeyiz?

MAVIS olarak, piyasada var olan bir çok farklı ürünü denedik, SDK larını inceledik, Avantaj ve dezavantajlarını değerlendirdik. (Microsoft Kinect for Windows, Asus xTion Pro, Leuze LPS36 gibi…) Halihazırda, klasik RGB kameralar ile alınan görüntülerve HALCON 3D/Stereo Vision yöntemleri ile çalışmak daha makul gibi görünmektedir. Distribütörü olduğumuz iDS imaging firması, 3D Imaging konusunda Ensenso isimli ürününü geliştirmiştir. HALCON uyumu, iDS güvencesi ve daha makul fiyatları nedeniyle tercih edilebilir.

Bu makaleleri takip edenler için, TOF v.b. yeni nesil sensörler ve uygulama alanları hakkında yeri geldikçe bilgiler vermeyi ve yeni başladığımız bir projeyi sunmayı düşünüyorum.

Projeleriniz ve ilave bilgi için, bizimle iletişime geçebilirsiniz.