Python3 — web scraping

 Python3 — web scraping
Okunuyor Python3 — web scraping

Web scraping, web kazıma anlamına da gelen internetten veri çekmeyi sağlayan kodlama türüdür diyebiliriz, bu dersimizde webodası web sayfasının kaynak kodlarını çekeceğiz, bu işlem isteğe göre değişebilir isterseniz youtube, instagram, google, hepsiburada vs gibi sitelerinde kaynak kodlarını çekebilirsiniz, bu işlemde hedef herhangi bir sayfa olabilir.

Botumuzu hazırlarken,

  • Beautifulsoup
  • requests
  • time

kütüphanelerini kullanacağız,

from bs4 import BeautifulSoup as bs
import requests as req
import time

url = "https://webodasi.com/"

r = req.get(url)

içerik = r.content

içerik_düzle = bs(içerik, "html.parser")

print("Kaynak kodları çekilip düzeltiliyor..")
time.sleep(1)

print("\nKaynak kodları çekildi ve düzeltildi..")
time.sleep(1)

print("\nWeb odası sayfasının kaynak kodları : \n")
print(içerik_düzle)

kütüphane ekleme kısmında “as” adında bir parametre kullandım, bunun anlamı şu,

“BeautifulSoup” kütüphanesini “bs”, “requests” kütüphanesini “req” olarak kullan, yani bir nevi daha az yazmak için böyle yaptım siz isterseniz kullanmayabilirsiniz,

burda kod içerisinde sırası ile şunları yaptık,

url = "https://webodasi.com/"

üstünde işlem yapılacak olan web sayfasını hazırladık,

r = req.get(url)

requests kütüphanesinin “get” parametresi ile hazırlanan sayfaya istek atıp cevap aldık aldığımız cevabı “r” adındaki bir değişkene atadık, burda aldığımız cevaplar sayısal türdedir ne olduğuna bakmak isterseniz web sayfası durum kodları olarak araştırabilirsiniz.

içerik = r.content

burda da “content” parametresi ile aldığımız cevabın (dolaylı olarak hedef sitemizin) içeriğini yani kaynak kodlarını içerik adındaki değişkene atıyoruz,

içerik_düzle = bs(içerik, "html.parser")

burda ise aldığımız kaynak kodlarını Beautifulsoup kütüphanesi ile bir düzene sokuyoruz, düzenden kastım şu siz bu satırı atlayıp direk olarak içerik değişkenini çağırırsanız karşınıza gelen kaynak kodlar aynı düz yazı halinde gelecektir bu da hiç hoş bir görüntü olmayacaktır, isterseniz bi deneyin 🙂 😀

print(içerik_düzle)

son olarak bununla ise alıp düzlediğimiz içeriği ekrana bastırıyoruz ve bize dönen şu oluyor,

Kaynak kodları çekilip düzeltiliyor..

Kaynak kodları çekildi ve düzeltildi..

Web odası sayfasının kaynak kodları : 


<!DOCTYPE html>

<html lang="tr" prefix="og: http://ogp.me/ns#">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<meta content="#2f2ce8" name="theme-color"/>
<!-- Css -->
<link href="https://webodasi.com/wp-content/themes/webodasi/css/bootstrap.min.css" rel="stylesheet"/>
<link href="https://webodasi.com/wp-content/themes/webodasi/css/style.css" rel="stylesheet"/>
<!-- FAVICON -->
<link href="https://webodasi.com/wp-content/uploads/2020/06/turuncu.png" rel="shortcut icon" type="image/png"/><link href="https://webodasi.com/wp-content/uploads/2020/06/turuncu.png" rel="apple-touch-icon"/>
<!-- Jetpack Site Verification Tags -->
<meta content="CY9q4h_QAOypHl4MOtwCVq76mwlH4pZKHBdkn-3DriA" name="google-site-verification"/>
<meta content="0AA36856F87F22BD374062056B2F8C14" name="msvalidate.01"/>
<!-- Rank Math ile arama motoru optimizasyonu - https://s.rankmath.com/home -->
<title>Web Odasi - Güncel Teknoloji Haberleri</title>
<meta content="Webodasi Sanal Dünyaya Aralanan Kapılardan Birisi Sizin İçin En Güncel Tekolojileri Araştırıp Yazdığımız Bir Yeni Dünya" name="description"/>
<meta content="follow, index" name="robots"/>
<link href="https://webodasi.com/" rel="canonical">
<link href="https://webodasi.com/page/2/" rel="next"/>
<meta content="tr_TR" property="og:locale"/>
<meta content="website" property="og:type"/>
<meta content="Web Odasi - Güncel Teknoloji Haberleri" property="og:title"/>
<meta content="Webodasi Sanal Dünyaya Aralanan Kapılardan Birisi Sizin İçin En Güncel Tekolojileri Araştırıp Yazdığımız Bir Yeni Dünya" property="og:description"/>
<meta content="https://webodasi.com/" property="og:url"/>
<meta content="Web Odasi" property="og:site_name"/>
<meta content="summary_large_image" name="twitter:card"/>
<meta content="Web Odasi - Güncel Teknoloji Haberleri" name="twitter:title"/>
<meta content="Webodasi Sanal Dünyaya Aralanan Kapılardan Birisi Sizin İçin En Güncel Tekolojileri Araştırıp Yazdığımız Bir Yeni Dünya" name="twitter:description"/>
<meta content="@webodasicom" name="twitter:site"/>
                           .
                           .
                           .

şeklinde devam ediyor ben dönen kodların hepsini buraya geçirmiyorum siz isterseniz hepsine bi göz atabilirsiniz, bu şekilde üstüne daha da koyarak sayfa ile ilgili daha bir çok işlem yapabilirsiniz mesela sayfa ile etkileşim, hacking (bu konuda sağlam, net ve çok bilginiz olması lazım) vs gibi ama siz etik yoldan sapmamaya çalışın, çünkü hiçbir şey filmlerden izleyip, arkadaşlarınızdan duyduğunuz gibi olmaz şafak operasyonu ile alınabilirsiniz 😀 (en azından ihtimali var), bu yazıyı modüller konusuna girmişken requests ve beautifulsoup kütüphanelerinin kullanımına basit bir örnek olsun diye yazdım her ikisi ile çok daha fazlası yapılabilir burda yer yer örnekler yapacağız sizde isterseniz üstüne koymak için araştırabilirsiniz, anlaşılmayan yada yapılamayan yerlerde bana ulaşmayı unutmayın, iyi günler.

Yorum Yap

Giriş Yap
Yazı Ekle