Lufiana Blog

Pengertian BeautifulSoup

BeautifulSoup merupakan library bawaan dari Python untuk parsing HTML dan XML . BeautifulSoup bekerja dengan parser bawaan python atau parser lain lxml atau html5lib untuk mempermudah anda dalam mengambil data dari suatu situs web. Pada saat ini beautiful soup telah sampai pada versi yang ke 4.

Instalasi BeautifulSoup

Saat pertama kali menginstall Python library ini belum termasuk didalamnya sehingga kalian perlu menginstallnya terlebih dahulu jika mau menggunakanya. Cara install beautifulsoup cukuplah mudah , bagi pengguna linux dapat menginstallnya dengan mengetikkan perintah sudo apt-get install beautifulsoup4 atau dengan menggunakan pip install beautifulsoup4 pada terminal kalian . Untuk pengguna Anaconda kalian dapat menginstallnya dengan menggunakan perintah conda install -c anaconda beautifulsoup4. Walaupun beautifulsoup bekerja dengan baik dengan parsher bawaan dari Python yaitu html.parser akan tetapi kalian juga dapat menggunakan parser lain seperti lxml, dan html5lib. Untuk menginstall parser lxml dan html5lib dapat menggunakan perintah pip install lxml atau pip install html5lib.

Memulai Web Scraping Menggunakan BeautifulSoup..

Pada tutorial yang pertama ini kita akan mencoba untuk melakukan scrapping terhadap semua data yang berada didalam tag <html> berikut adalah scribtnya :

from bs4 import BeautifulSoup
htmltxt = '''
<!DOCTYPE html>
<html>
<head>
</head>
<body>
<h1>Web Scraping</h1>
<a href="webku.html">Link ke Webku</a>
</body>
</html>
'''
 
soup = BeautifulSoup(htmltxt, 'lxml')
print("Hasil Pertama :")
print(soup)
print("Hasil Kedua :")
print(soup.text)
print("Hasil ketiga :")
print(soup.text.strip())