Skip to main content

Web sitelerinden toplu veri çekme nasıl yapılır? — Web Data Extractor Kullanımı


Yazar: Ercan ATAY
06/04/2020
Yorum Sayısı: 1

Web sitelerinden toplu veri çekme nasıl yapılır? — Web Data Extractor Kullanımı

Bu yazımda internet üzerinden Web Data Extractor programı ile nasıl toplu bir şekilde veri toplayacağınızı resimli anlatımla anlatacağım.

Öncelikle bu makale sadece bu tip programların nasıl kullanılacağı ile ilgili sizlere bilgi amaçlı yazılmıştır. Bu programın kullanımından dolayı veri çektiğiniz ve çektiğiniz verinin kullanımı ile ilgili hiç bir yasal sorumluluğu üstlenmediğimizi belirterek size programın kullanımı anlatacağım.

İnternetten veri toplama yazılımı olan Web Data Extractor nedir?

Web Data Extractor Pro, çeşitli veri türlerinin toplu olarak toplanması için özel olarak tasarlanmış bir web scraping (veri madenciliği ve veri çekme) aracıdır. URL’leri, telefon ve faks numaralarını, e-posta adreslerini, meta etiket bilgilerini ve web sitelerinin body kısmındaki herhangi bir metini toplayabilir. Bu programın özelliği, yapılandırılmış verilerin özel olarak çıkarılmasıdır.

Aşağıda uygulama geliştiricisinin çekmiş olduğu bir video mevcuttur.

Web Data Extractor Kullanımı

Ben bu programı genelde örneğin medikal sağlık sektöründe iken saha ekibinin ziyaret planlaması yapması için Türkiye’deki ilgili branştaki doktorların adres, telefon, eposta, ad soyad, internet sitesi ve uzmanlık alanları gibi güncel bilgileri excele çekmek için kullanıyordum. Çok işime yarıyordu.

PROGRAMIN ARAYÜZÜ

New session butonuna tıkladığımızda karşımıza aşağıdaki gibi ekran çıkıyor. Burada işimize yarayacak bazı kısımlar var.

Eğer sadece eposta toplayacak isek programın içinde emails kısmı işimizi görüyor. Programda tek bir siteyi yazıp, sitenin tüm site haritasını çıkarıp tek tek sayfalardan da veri çekebiliyorsunuz. Ayrıca isterseniz arama motorlarından da veri çekebiliyorsunuz. Benim burada en çok kullandığım ve zamandan tasarruf ettiğim modül URL list modulüdür.

Çünkü veri çektiğim sitelerin genelde listeleme detay sayfaları sabit HTML kodlarından oluştuğu için burada bilmem gereken bu veriler sayfa sayfa mı yoksa bir liste halinde mi indexleniyor. Genelde örneğin bir doktor detay sayfası tek tek sayfa sayfa indexlenir. Ama kategori sayfalarında tüm ilgili filtreye göre doktorları da listeleyebilirsiniz. Burada ihtiyaca göre siz ilgili hedef sitenin coğrafi konumuna göre veya sitenin URL kısmında izin verdiği listeleme mantığına göre URL listesini bir text dosyasına kayıt edebilir, bunu da programa atabilirsiniz.

Örnek listeleme aşağıdadır:

Örneğin doktorlarinbulundugusite.com olsun. (Böyle bir site yok, örnek olarak uydurdum)

doktorlarinbulundugusite.com da yer alan İstanbul’daki Dermataloji doktorları aşağıdaki gibi listelensin.

doktorlarinbulundugusite.com/istanbul/dermataloji

Bu kategori de listelenen doktor sayfaları örneğin aşağıdaki gibi olsun.

doktorlarinbulundugusite.com/istanbul/dermataloji/doktor-b

Eğer bu şekilde bir listeleme varsa işiniz kolay oluyor. Bu verileri Google’da indexlenmiş sayfalardan da çekebilirsiniz.

Google’da aşağıdaki sorguyu yazmanız yeterli

site:doktorlarinbulundugusite.com/istanbul/dermataloji/*

Eğer bu şekilde bir ayrım yoksa kategori listeleme sayfasından sayfalandırma sayılarının sonuna kadar giderek ilgili kategori listeleme sayfalarının linklerini çıkarıp, bu sayfalardan öncelikle detay sayfaları çekmeniz gerekecektir.

Örneğin şu şekilde.

doktorlarinbulundugusite.com/istanbul/dermataloji/liste1

doktorlarinbulundugusite.com/istanbul/dermataloji/liste2

doktorlarinbulundugusite.com/istanbul/dermataloji/liste3

Burada detay sayfalardan veya listeleme sayfalarından veri çekerken tek bir sayfadan HTML verisi çekeceğimiz için programın alt sayfalara inmesine gerek yoktur. Bu yüzden depth kısmını sadece “One page only” işaretli bırakacağız. İşimize yarayan kısım “Custom Data” kısmıdır.

Custom Data tıkladıktan sonra aşağıda sırayla sekmeler açılacaktır. Data1 kısmını özel adda verebiliriz. Bu çekeceğimiz her 1 veriye ayrı sekme açacağız. Sonra bu excelde sutün adları olacaktır.

Custom Data Editor çekeceğiniz sayfadan tek tek veri belirlemenize yarayan tarayıcı tabanlı kod yakalama editörüdür. Çok kullanışlıdır.

Örneğin bir doktorun detay sayfasına bakıyoruz. Site önemli değil. Sansürledim. Örneğin diyelim adresi çekmek istiyoruz. Visual Builder kısmından adresi mause ile seçip sol altta bulunan Capture First Selected Text butonuna tıklıyoruz. Sonra ilgil kısmı sol üstten bulunan öncesindeki HTML kodu ve sonundaki HTML koduda sağ kısımdaki kutucuğa yazıyor. O HTML kodu arasındaki metini çekmek için ilgili benzersiz HTML kodlarını tespit ediyor. Bunu zamanla sizde yazabilirsiniz. HTML kodlarına bakarak tabiki.

OK butonuna bastıktan sonra ilgili adres kısımı artık Data1 sekmesinde toplanacaktır. Bu şekilde sitedeki diğer verileri tek tek sekmelere toplayıp start dediğiniz de tüm verileri sırayla tek tek URL listelerindeki adreslere girerek toplayıp size excel olarak verecektir.

AŞAĞIDA ÖRNEK ÇEKTİĞİM VERİ VARDIR

Aşağıdaki ekrandaki gibi verileri excel ve diğer formatlarda indirebilirsiniz.

Yazıyı beğendiyseniz yorum yazmayı, paylaşmayı ve beğenmeyi unutmayınız.



Şu an buradasınız:

Comments (1)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Teklif & Danışmanlık

Danışmanlık ve projelerle ilgili
kendisine şuradan ulaşabilirsiniz.✌️