Categories Games

Hari Saya Menyadari Web Scraping Adalah Salah Satu Keterampilan Python yang Paling Diremehkan

Untuk waktu yang lama, saya sepenuhnya meremehkan web scraping.

Foto oleh Brecht Corbeel di Unsplash

Saya tahu itu ada.

Saya telah melihat pengembang Python terus-menerus menyebutkannya.

Saya tahu perpustakaan seperti BeautifulSoup, Requests, dan Selenium sangat populer.

Tapi aku tidak pernah benar-benar memperhatikannya.

Dalam benak saya, web scraping terasa aneh.

Sesuatu yang berguna bagi analis data.

Mungkin berguna bagi orang yang mengumpulkan data penelitian.

Mungkin berguna untuk bisnis e-commerce.

Tapi lebih dari itu?

Saya tidak terlalu memikirkannya.

Jadi saya mengabaikannya.

Dan sejujurnya, saya menyesal melakukan hal itu.

Karena pada hari saya akhirnya membangun proyek web scraping pertama saya, saya menyadari sesuatu yang telah saya lewatkan selama berbulan-bulan.

Pengikisan web bukan sekadar keterampilan Python.

Ini secara diam-diam mengajarkan beberapa keterampilan pemrograman paling berharga yang dapat Anda kembangkan.

Dan anehnya, saya mengetahuinya secara tidak sengaja.

Saya Awalnya Memulai Dengan Masalah Yang Sangat Kecil

Beberapa tahun yang lalu, saya mendapati diri saya melakukan sesuatu yang sangat berulang-ulang.

Saya perlu memantau informasi harga di beberapa situs web.

Setiap pagi mengikuti rutinitas yang sama.

Buka tab browser.

Kunjungi halaman produk.

Periksa perubahan harga.

Salin nomor yang diperbarui.

Tempel semuanya ke dalam spreadsheet.

Ulangi keesokan harinya.

Dan selanjutnya.

Awalnya saya tidak mempertanyakannya.

Tugas ini hanya memakan waktu lima belas atau dua puluh menit.

Mengganggu.

Tapi bisa dikendalikan.

Jadi saya terus melakukannya secara manual.

Selama berminggu-minggu.

Lalu suatu hari saya mempunyai pemikiran yang sangat tidak nyaman.

Mengapa saya melakukan pekerjaan yang seharusnya dilakukan komputer untuk saya?

Pertanyaan itu akhirnya mendorong saya ke web scraping.

Kebanyakan karena penasaran.

Saya Pikir Web Scraping Lebih Maju Daripada Sebenarnya

Pada saat itu, saya sudah belajar Python cukup lama.

Saya mengerti loop.

Fungsinya masuk akal.

Saya merasa nyaman dengan daftar dan kamus.

Saya telah membuat beberapa skrip otomatisasi.

Namun pengikisan web terasa menakutkan.

Saya sudah meyakinkan diri sendiri bahwa ini adalah topik tingkat lanjut.

Mungkin diperlukan pengetahuan jaringan.

Mungkin internal browser.

Mungkin penguraian HTML yang rumit.

Jadi wajar saja, saya terus menundanya.

Sebuah kesalahan yang sekarang saya segera sadari.

Karena ketika saya akhirnya mencoba…

Versi pertama ternyata sangat sederhana.

Naskah Kerja Pertama Mengejutkan Saya

Kode itu sendiri tampak sangat kecil.

Sesuatu seperti ini:

import requests
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
title = soup.find("h1")
print(title.text)

Saya menjalankan skripnya.

Dan langsung melihat data diambil dari website.

Tidak ada pengaturan yang rumit.

Tidak ada arsitektur tingkat lanjut.

Tidak ada konsep Python yang sulit.

Hanya satu permintaan.

Satu pengurai.

Dan data terstruktur.

Saya ingat menatap terminal sambil berpikir:

“Tunggu… itu saja?”

Saya telah menghabiskan waktu berbulan-bulan dengan berasumsi bahwa ini jauh lebih sulit daripada yang sebenarnya.

Kemudian Saya Menyadari Saya Belajar Lebih Dari Sekadar Mengikis

Pada awalnya, saya pikir saya hanya mempelajari cara mengumpulkan data situs web.

Asumsi itu hilang dengan cepat.

Pengikisan web memaksa saya mempelajari beberapa konsep Python yang belum pernah saya jelajahi secara mendalam sebelumnya.

Permintaan HTTP.

requests.get()

penguraian HTML.

BeautifulSoup()

Loop untuk memproses banyak halaman.

for url in urls:

Penanganan kesalahan.

try:
...
except:
...

Penyimpanan data.

df.to_csv()

Pengecualian yang tidak terduga.

Pembatasan tarif.

Penanganan batas waktu.

Manajemen file.

Tiba-tiba, sebuah proyek kecil mengajarkan beberapa keterampilan Python sekaligus.

Dan itu mengejutkan saya.

Saya Tidak Sengaja Mempelajari Cara Kerja Web Sebenarnya

Satu hal yang memaksa saya untuk memahami web scraping adalah sesuatu yang sebagian besar saya abaikan sebelumnya.

Permintaan HTTP.

Sebelum melakukan scraping, situs web terasa ajaib.

Anda mengetikkan URL.

Halaman itu muncul.

Sederhana.

Mengikis memaksa saya untuk memahami apa yang sebenarnya terjadi di bawahnya.

Browser mengirimkan permintaan.

Server merespons.

HTML diunduh.

Browser merender halaman.

Proses itu tiba-tiba menjadi terlihat.

Untuk pertama kalinya, saya tidak sederhana menggunakan web.

Saya memahami sebagian cara kerja web.

Dan pemahaman yang lebih dalam itu meningkat jauh lebih baik daripada keterampilan menggores saya.

Ini meningkatkan cara saya berpikir tentang perangkat lunak secara umum.

Debugging Menjadi Bagian Besar Dari Proses Pembelajaran

Satu hal yang jarang ditunjukkan oleh tutorial adalah betapa berantakannya situs web sebenarnya.

Scraper saya gagal terus-menerus.

Situs web memblokir permintaan.

Header tidak ada.

Penyeleksi mengembalikan elemen yang salah.

Struktur HTML berubah secara tidak terduga.

Konten yang memuat JavaScript menghilang sepenuhnya.

Pada awalnya, hal ini terasa membuat frustrasi.

Lalu aku menyadari sesuatu yang penting.

Debugging mengajari saya lebih dari sekadar kesuksesan.

Saya belajar bagaimana memeriksa tanggapan.

Periksa kode status.

Cetak HTML mentah.

Tangani pengecualian dengan anggun.

Bangun logika coba lagi.

Memahami kondisi kegagalan.

Dan ironisnya…

Pelajaran-pelajaran itu jauh lebih berharga daripada alat pengikis itu sendiri.

Saya Mulai Melihat Peluang Otomatisasi di Mana Saja

Setelah membuat scraper pertama, saya melihat sesuatu yang aneh.

Saya mulai melihat pekerjaan digital yang berulang secara berbeda.

Memeriksa situs web secara manual.

Mengumpulkan data penelitian.

Memantau harga produk.

Mengunduh laporan berulang kali.

Melacak daftar pekerjaan.

Menonton perubahan stok.

Membandingkan produk pesaing.

Tiba-tiba, semuanya tampak otomatis.

Dan Python mulai merasa jauh lebih kuat.

Bukan karena saya telah mempelajari sintaksis tingkat lanjut.

Karena saya telah belajar leverage.

Dan leverage inilah yang membuat pemrograman menjadi sangat berharga.

Mengapa Menurut Saya Web Scraping Diremehkan

Setiap kali pemula bertanya proyek Python apa yang harus mereka buat, saya sering melihat saran yang sama.

Aplikasi kalkulator.

Daftar tugas.

Permainan sederhana.

API Dasar.

Proyek-proyek itu bermanfaat.

Namun web scraping menawarkan sesuatu yang berbeda.

Ini menggabungkan beberapa keterampilan sekaligus.

Anda belajar:

  • Komunikasi HTTP
  • struktur HTML
  • Ekstraksi data
  • Penanganan kesalahan
  • Pemikiran otomatisasi
  • Proses debug dunia nyata
  • Bekerja dengan sistem eksternal

Ini memperlihatkan kompleksitas dengan cepat.

Dan kompleksitas memaksa pertumbuhan.

Kombinasi tersebut menjadikannya salah satu cara belajar Python yang paling diremehkan.

Pelajaran Terbesar Tidak Ada Hubungannya Dengan Mengikis

Melihat ke belakang, pelajaran yang paling berharga bukanlah pelajaran teknis.

Itu mengubah cara saya mendekati pembelajaran itu sendiri.

Sebelum proyek itu, saya menghabiskan terlalu banyak waktu mempelajari konsep-konsep terisolasi.

Sintaksis.

Latihan tutorial.

Contoh kecil.

Pengikis itu mengajari saya sesuatu yang penting.

Proyek nyata menghubungkan pengetahuan bersama.

Satu proyek memaksa saya untuk menggunakan semuanya secara bersamaan.

Dan jenis pembelajaran seperti itu terasa sangat berbeda.

Rasanya nyata.

Karena pemrograman sebenarnya tidak pernah terisolasi.

Semuanya terhubung.

Aturan yang Saya Ikuti Hari Ini

Setiap kali saya mempelajari teknologi baru sekarang, saya menghindari menghabiskan terlalu banyak waktu di dalam tutorial.

Sebaliknya, saya bertanya:

“Bisakah saya membangun sesuatu yang berinteraksi dengan dunia nyata?”

Karena proyek yang terhubung ke sistem nyata mengungkap kompleksitas tersembunyi lebih cepat.

Dan kompleksitas yang tersembunyi adalah tempat terjadinya pembelajaran terdalam.

Pengikisan web mengajari saya pelajaran itu dengan sangat agresif.

Pikiran Terakhir

Melihat ke belakang, saya terlalu lama meremehkan web scraping.

Saya pikir itu adalah keterampilan khusus.

Sesuatu yang terspesialisasi.

Sesuatu yang hanya berguna di industri tertentu.

Saya sangat salah.

Proyek yang satu itu mengajari saya otomatisasi.

Permintaan HTTP.

struktur HTML.

Men-debug.

Penanganan kesalahan.

Ekstraksi data.

Pemecahan masalah.

Dan mungkin yang paling penting…

Ini mengajari saya seberapa besar pertumbuhan yang terjadi ketika kode berinteraksi dengan dunia nyata.

Terkadang keterampilan yang paling berharga bukanlah keterampilan yang selalu dibicarakan orang.

Terkadang pembelajaran yang paling kuat datang dari alat yang diremehkan dan tersembunyi di depan mata.

Dan bagi saya…

Pengikisan web adalah salah satu alat tersebut.

Sebuah proyek kecil yang secara diam-diam memberikan pelajaran yang jauh lebih besar dari yang saya harapkan.


Hari Saya Menyadari Web Scraping Adalah Salah Satu Keterampilan Python yang Paling Diremehkan awalnya diterbitkan di Stackademic on Medium, di mana orang-orang melanjutkan percakapan dengan menyorot dan menanggapi cerita ini.

PakarPBN

A Private Blog Network (PBN) is a collection of websites that are controlled by a single individual or organization and used primarily to build backlinks to a “money site” in order to influence its ranking in search engines such as Google. The core idea behind a PBN is based on the importance of backlinks in Google’s ranking algorithm. Since Google views backlinks as signals of authority and trust, some website owners attempt to artificially create these signals through a controlled network of sites.

In a typical PBN setup, the owner acquires expired or aged domains that already have existing authority, backlinks, and history. These domains are rebuilt with new content and hosted separately, often using different IP addresses, hosting providers, themes, and ownership details to make them appear unrelated. Within the content published on these sites, links are strategically placed that point to the main website the owner wants to rank higher. By doing this, the owner attempts to pass link equity (also known as “link juice”) from the PBN sites to the target website.

The purpose of a PBN is to give the impression that the target website is naturally earning links from multiple independent sources. If done effectively, this can temporarily improve keyword rankings, increase organic visibility, and drive more traffic from search results.

Jasa Backlink

Download Anime Batch

More From Author