目前分類:Python (2)

瀏覽方式: 標題列表 簡短摘要

 

初學者必看!網路爬蟲使用Python並輸出CSV檔

 

    上一次教大家怎樣使用Python做網路爬蟲,在把這些資訊爬下來以後有可能有需要輸出成CSV檔,今天就繼續教大家怎麼把網路爬蟲下來的資料輸出成CSV檔。還沒看過上一篇的人請先看完上一篇再閱讀這一篇,請點下面連結:

初學者必看!網路爬蟲的簡單範例使用Python

       

    跟上次一樣,網路爬蟲的網站是暢銷書排行榜,網址是:https://www.books.com.tw/web/sys_saletopb/books

    輸出成CSV檔,首先最前面要引用csv套件,輸入下面程式:

import csv

 

    接下來是命名輸出檔案的名稱,輸入下面程式:

with open('books.csv', 'w', encoding='utf-8', newline='') as csv_file:

 

     上面的這行程式是把輸出檔案命名為book.csv。再來就要輸出文字到檔案裏面,先輸出標題如下:

    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(['排名', '書名', '作者', '價錢', '連結'])

 

    這時候執行程式,就會把文字寫入到book.csv檔案裏面,打開檔案就是這樣的結果:

排名,書名,作者,價錢,連結

 

      然後就要把爬到文字寫入到檔案中,要寫在For迴圈裏面,連同原本For迴圈的程式如下:

波羅、希夏普2020 發表在 痞客邦 留言(0) 人氣()

 

初學者必看!網路爬蟲的簡單範例使用Python

 

   現在有很多人都在學網路爬蟲,我過去工作也是有網路爬蟲的經驗,那時候我是使用C#,而網路爬蟲比較好的方法是用Python程式,最近我就學了Python,也成功爬蟲了一些東西,在這裡我分享一個簡單的網路爬蟲給大家。

   

   這個程式會使用到BeautifulSoup,在撰寫爬蟲程式之前要先做安裝的動作。先開啟cmd字元提示命令,然後輸入下面的指令:

  • pip install requests

 

   然後就會出現安裝的畫面開始安裝,今天我用爬蟲博客來網路書店作範例,輸出暢銷書排行榜書籍資訊,暢銷書排行榜的網址是https://www.books.com.tw/web/sys_saletopb/books/,BeautifulSoup安裝完成以後打開Python的編輯器,輸入以下的程式:

 

import requests
from bs4 import BeautifulSoup

 

url ="https://www.books.com.tw/web/sys_saletopb/books/"
response = requests.get(url)
 
soup = BeautifulSoup(response.text, 'lxml')

info_items = soup.find_all('li', 'item')
 
for item in info_items:
    number=item.find('div','stitle').text.strip()
    bookname=item.find('div','type02_bd-a').a.text.strip()

波羅、希夏普2020 發表在 痞客邦 留言(0) 人氣()