Veri Okyanusunda Yolculuk: Data Warehouse Semineri...

27 Nisan 2012 Cumartesi günü konferans salonunda IT sektöründe geleceğimize yön verecek eğitim tadında seminer verildi. Bunun mimarları Yusuf Arslan, Ali Yıldız ve Mustafa Aksoy idiler. Her biri de tamamen öğrenci odaklı ve öğrenciye kıymet veren, kendilerinin nerelerden geldiğini bilen insanlardı. Yoğun iş tempolarında bize kıymetli zamanlarından o anı bizlere ayırdıkları için gerçekten borçlu kaldığımızı düşünüyorum.

Böyle bir girişten sonra seminerde olup bitenlerden ve bahsi geçen ilgi çekici konulardan bahsetmek istiyorum. Öncelikle iş hayatından konuşuldu ve nasıl doğru CV hazırlanır kısmına bile giriş yapabildik. Oysa Ali Bey zamanın darlığından şikayetçiydi. Demek daha değinilecek ne denli çok konu var diye düşünmeden edemedik. Bilişim sektöründe şirketler mülakatlarda ne bekler, ne ister ve mülakat anında nasıl davranılmalı konularında bilgi sahibi olduk. Bundan sonra şahsen veritabanı ile ilgilenmeyi düşündüğüm için ve düşünenler için gerçekten çok özel konulara değinildi. "Bu sektörde ne oluyor ne bitiyor?" sorusu irdelendi ve cevaplar arandı. Kurumsal şirketlerde bilgi ham halden nasıl kullanılabilir hale geliyor sorusu kafamızda şekillendi. Daha fazla uzatmadan ilgi çekici bulduğum veritabanı üzerine konuşulan konuları aldığım notlar üzerinden paylaşayım:

Data Warehouse yani Veri Ambarı aslında dev bir veri havuzu olarak düşünülebilir. Bunu basit bir veritabanından farklı kılan da budur. Peki bir veri ambarındaki veriler nereden geliyor ve nereye gidiyor? Bunun için bir takım teknik terimleri bilmemiz gerekiyor. Bunun için aşağıdaki şekle bir göz atıp bu şekil üzerinden bu terimleri keşfedelim;

Burada görüldüğü gibi veriler kaynak olarak çeşitli vasıtalar aracılığıyla işleme sokuluyor. Bunları genelde ERP ve diğer veritabanı uygulamalarından toplanan veriler oluşturuyor. İkinci aşamada ETL denen işlem devreye giriyor. Aslında ETL'nin açılımı onun ne yaptığını zaten açıklıyor. Yani Extract Transform Load... Verileri çıkarma işlemi, verileri süzgeçten geçirerek kontrol etme işlemi ve ardından da verilerin ambara en uygun şekilde atılması işlemlerini içeriyor. Bu işlem gereken durumlarda sonra da yapılabiliyor. Yani verilerin yüklenmesi işleminden sonra optimize edilmesi gereken zaman kısıtlarının olduğu durumlarda ELT işlemi devreye giriyor. Kısacası ETL ve ELT işlemleri verilerimiz için vazgeçilmez adımlar olarak öne çıkıyor. Zira aşağıdaki önemli kuralları gerçekleyen adımlar bunlardır;

-Veriler temiz olmalıdır. Örneğin bir önceki veritabanında bulunan kullanıcıya ait adres bilgisi İST. ya da istnbul şeklinde yanlış girilmişse bunu düzenleyip işlemek gerekir.

-Veriler kaliteli olmalıdır. Zira kurumsal şirketlerin son ayağında istenecek raporlar bu kaliteyle ölçülür.

-CDC yani Change Data Capture: Değişen verilerin değiştiği anda yeniden düzenlenmesi. Örneğin adresi değişen bir kullanıcının veritabanında anında değiştirilmesi işlemidir.

-Metadata: Verilere ait veriler olarak yorumlanabilir. Yani bir tabloda şu kadar veri var tarzında bilgiler bu gruba giriyor.

Kaldığımız yerden devam edersek Staging Area denen bir bölgemiz mevcut. Burası aslında verilerin bekleme istasyonu olarak düşünülebilir. Veriler burada bekler, saklanır ve normalize edilir. Yani yukarıda bahsedilen bu aşamalar aslında burada gerçekleştirilir. Yani veriler temiz hale gelmeden veri ambarına alınamaz.

Buradan da tam not alarak geçen verileri Data Warehouse'a gelirler. Yani artık kullanılabilir haldedirler. Fakat tam bu aşamada kocaman bir soru işareti oluşmalı aklımızda. Milyarlarca verinin içinden nasıl bir SELECT sorgusu çekilebilir? Ya da çekilmek istense ne kadarına cevap verilebilir. Bu aşamada Data Marts denen kısım devreye giriyor. Veri Ambarının daha anlamlı ve kullanılabilir küçük parçalara ayrılmış hali olarak düşünebileceğimiz bu kısım raporlama mantığının bel kemiğini oluşturuyor. Örneğin bir data mart finans işlemine ait sorgulara cevap verirken bir diğeri kullanıcı işlemlerine ait sorguları yönlendiriyor olabilir. Bu yüzden ilişkili olabilecek veriler data marta alındığı için aynı veri birden fazla data mart'a bulunuyor olabilir.

Aslında Data Marts bizim verilerimizin mutlu sonu gibi düşünülebilir. Fakat bu aşamadan sonra verilerin kullanımı devreye giriyor. Yani raporlar ve diğer kurumsal işlemler buradan yürütülüyor. Seminer boyunca vurgulanan bir diğer terim de OLAP Küpleri. Yani bu verilerin raporlama tekniği. Kısaca bahsedecek olursak; zamana ve mekana bağlı olan raporlar olup;

-Geçen sene şu marka araba Ümraniye'de ne kadar satıldı?
-Geçen sene Ümraniye'de şu marka araba ne kadar satıldı?

tarzında raporlamaları içerir. Bir küpün 6 yüzü gibi çevrilebildiği için böyle bir isimle kendini tanıtıyor OLAP küpleri.

Bir diğer tabir de OLTP sistemi olup kullanıcı raporların üst düzey veriler olarak sunulması işlemidir.

Seminerde bahsedilen bir diğer mevzu da Data Mining yani veri madenciliği. Peki nedir bu veri madenciliği? Var olan verilerin akıllı hale getirilmesi işleminin tamamına veri madenciliği deniyor aslında. Örneğin hangi müşteri kredi alabilir, hangisi alamaz tarzında kritik sorulara aslında veri madenciliği ile cevap arıyoruz. Tüm bu tarz optimizasyon işlemleri veri madenciliğini oluşturuyor. Sunulacak verilerin düzenli hale gelmesini mümkün kılıyor. Kurumsal şirketler için çok kritik olan bu noktada "Gelecek yıl ne kadar araba satarız?" sorusuna cevap bulunabiliyor. Tabi şu da kaçınılmaz bir gerçek ki bu tahminler ancak %25 oranına kadar kendini doğrulayabiliyor. Büyük şirketler hala bu işlem üzerinde daha iyi olma çabasındalar.

Sonuç olarak IT sektöründe kendini "BEN BURADAYIM!" diyen bir sektör olarak Data Warehouse kesinlikle en iyileri bünyesine almak için bekliyor. Gelişmekte olan ülkemizde bu aşamada ilgili adaylara ihtiyaç duyuyor.

Veri Okyanusunda Yolculuk

Sayfalar

30 Nisan 2012 Pazartesi

Data Warehouse Semineri...

2 yorum: