Scrapy框架是一個(gè)基于Twisted的異步處理框架,是純Python實(shí)現(xiàn)的爬蟲(chóng)框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴(kuò)展性極強(qiáng),我們只需要少量的代碼就能夠快速抓取數(shù)據(jù)。
其框架如下圖所示:
Scrapy Engine是整個(gè)框架的核心,而涉及到我們編寫(xiě)代碼的模塊一般只有Item Pipeline模塊和Spiders模塊。
首先我們通過(guò)以下代碼來(lái)創(chuàng)建Scrapy項(xiàng)目,執(zhí)行代碼如下圖所示:
Scrapy startproject Fiction
運(yùn)行結(jié)果如下圖所示:
通過(guò)上圖可知,我們?cè)贑盤(pán)創(chuàng)建了一個(gè)新的Scrapy項(xiàng)目,項(xiàng)目名為Fiction,而且還提示我們可以通過(guò)以下命令創(chuàng)建第一個(gè)Spider爬蟲(chóng),命令如下所示:
cd Fiction #進(jìn)入目錄 scrapy genspider example example.com #創(chuàng)建spider爬蟲(chóng)
其中example是我們爬蟲(chóng)名,example.com是爬蟲(chóng)爬取的范圍,也就是網(wǎng)站的域名。
Fiction文件夾內(nèi)容如下圖所示:
在上面的步驟我們成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目,而且知道如何創(chuàng)建Spider爬蟲(chóng),接下來(lái)我們創(chuàng)建名為fiction的Spider爬蟲(chóng),其域名為www.17k.com,代碼如下所示:
scrapy genspider fiction www.17k.com
運(yùn)行后,spiders文件夾中多了我們剛才創(chuàng)建fiction.py,這個(gè)就是我們創(chuàng)建的Spider爬蟲(chóng)。
如下圖所示:
看到這么多py文件是不是慌了,其實(shí)不用慌,一般情況我們主要在剛創(chuàng)建的spider爬蟲(chóng)文件、items.py和pipelines.py進(jìn)行編寫(xiě)代碼,其中:
fiction.py
:主要編寫(xiě)代碼定義爬取的邏輯,解析響應(yīng)并生成提取結(jié)果和新的請(qǐng)求;items.py
:主要先定義好爬取數(shù)據(jù)的字段,避免拼寫(xiě)錯(cuò)誤或者定義字段錯(cuò)誤,當(dāng)然我們可以不先定義好字段,而在fiction.py中直接定義;pipelines.py
:主要是編寫(xiě)數(shù)據(jù)清洗、驗(yàn)證和存儲(chǔ)數(shù)據(jù)的代碼,當(dāng)我們把數(shù)據(jù)存儲(chǔ)在csv、xml、pickle、marshal、json等文件時(shí),就不需要在pipelines.py中編寫(xiě)代碼了,只需要執(zhí)行以下代碼即可:scrapy crawl fiction 文件名.后綴
當(dāng)數(shù)據(jù)需要保存在MongoDB數(shù)據(jù)庫(kù)時(shí),則編寫(xiě)以下代碼即可:
from pymongo import MongoClient client=MongoClient() collection=client["Fiction"]["fiction"] class Test1Pipeline: def process_item(self, item, spider): collection.insert(item) return item
在提取數(shù)據(jù)前,首先我們進(jìn)入要爬取小說(shuō)網(wǎng)站并打開(kāi)開(kāi)發(fā)者工具,如下圖所示:
我們通過(guò)上圖可以發(fā)現(xiàn),dl class="Volume">存放著我們所有小說(shuō)章節(jié)名,點(diǎn)擊該章節(jié)就可以跳轉(zhuǎn)到對(duì)應(yīng)的章節(jié)頁(yè)面,所以可以使用Xpath來(lái)通過(guò)這個(gè)div作為我們的xpath爬取范圍,通過(guò)for循環(huán)來(lái)遍歷獲取每個(gè)章節(jié)的名和URL鏈接。
跳轉(zhuǎn)章節(jié)內(nèi)容頁(yè)面后,打開(kāi)開(kāi)發(fā)者工具,如下圖所示:
通過(guò)上圖可以發(fā)現(xiàn),小說(shuō)內(nèi)容存儲(chǔ)在div class="readAreaBox">里面,我們可以通過(guò)for循環(huán)來(lái)遍歷該dl中的div class="p">獲取到章節(jié)的全部?jī)?nèi)容,當(dāng)然也是通過(guò)使用Xpath來(lái)獲取。
細(xì)心的小伙伴就發(fā)現(xiàn)了,我們所需要提前的字段有章節(jié)名、章節(jié)URL鏈接和章節(jié)內(nèi)容,其中章節(jié)名和章節(jié)內(nèi)容是需要進(jìn)行數(shù)據(jù)保存的,所以可以先在items.py文件中定義好字段名,具體代碼如下所示:
import scrapy class FictionItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() text = scrapy.Field()
定義字段很簡(jiǎn)單,字段名=scrapy.Field()即可。
對(duì)了,在items.py定義好字段有個(gè)最好的好處是當(dāng)我們?cè)讷@取到數(shù)據(jù)的時(shí)候,使用不同的item來(lái)存放不同的數(shù)據(jù),在把數(shù)據(jù)交給pipeline的時(shí)候,可以通過(guò)isinstance(item,FictionItem)來(lái)判斷數(shù)據(jù)屬于哪個(gè)item,進(jìn)行不同的數(shù)據(jù)(item)處理。
定義好字段后,這是我們通過(guò)在pipeline.py文件中編寫(xiě)代碼,對(duì)不同的item數(shù)據(jù)進(jìn)行區(qū)分,具體代碼如下:
from Fiction.items import FictionItem class FictionPipeline: def process_item(self, item, spider): if isinstance(item,FictionItem): print(item)
當(dāng)然,在我們爬取的項(xiàng)目中,只需要一個(gè)class類,在上面的代碼只是為了展示如何判斷區(qū)分?jǐn)?shù)據(jù)屬于哪個(gè)item。
fiction.py文件也就是我們創(chuàng)建的spider爬蟲(chóng),打開(kāi)fiction.py文件,其代碼內(nèi)容如下所示:
import scrapy class FictionSpider(scrapy.Spider): name = 'fiction' allowed_domains = ['www.17k.com'] start_urls = ['http://www.17k.com/'] def parse(self, response): pass
其中:
name
是定義此爬蟲(chóng)名稱的字符串,每個(gè)項(xiàng)目唯一的名字,用來(lái)區(qū)分不同的Spider,啟動(dòng)爬蟲(chóng)時(shí)使用scrapy crawl +該爬蟲(chóng)名字;allowed_domains
是允許爬取的域名,防止爬蟲(chóng)爬到其他網(wǎng)站;start_urls
是最開(kāi)始爬取的url;parse()
方法是負(fù)責(zé)解析返回響應(yīng)、提取數(shù)據(jù)或進(jìn)一步生成要處理的請(qǐng)求,注意:不能修改這個(gè)方法的名字。大致了解該文件內(nèi)容的各個(gè)部分后,我們開(kāi)始提取首頁(yè)的章節(jié)名和章節(jié)URL鏈接,具體代碼如下所示:
import scrapy from Fiction.items import FictionItem class FictionSpider(scrapy.Spider): name = 'fiction' allowed_domains = ['www.17k.com'] start_urls = ['https://www.17k.com/list/2536069.html'] def parse(self, response): html = response.xpath('//dl[@class="Volume"]') books = html.xpath('./dd/a') for book in books: item =FictionItem() item['name'] = [] name = book.xpath('./span/text()').extract() for i in name: item['name'].append(i.replace('\n', '').replace('\t', '')) href = book.xpath('./@href').extract_first() + href yield scrapy.Request(url=href, callback=self.parse_detail, meta={'item': item})
首先導(dǎo)入FictionItem,再我們把start_urls鏈接修改為待會(huì)要爬的URL鏈接,在parse()方法中,使用xpath獲取章節(jié)名和章節(jié)URL鏈接,通過(guò)for循環(huán)調(diào)用FictionItem(),再把章節(jié)名存放在item里面。
通過(guò)生成器yield 返回調(diào)用scrapy.Request()方法,其中:
url=href
:表示下一個(gè)爬取的URL鏈接;callback
:表示指定parse_detail函數(shù)作為解析處理;meta
:實(shí)現(xiàn)在不同的解析函數(shù)中傳遞數(shù)據(jù)。在上一步中我們指定了parse_detail函數(shù)作為解析處理,接下來(lái)將編寫(xiě)parse_detail函數(shù)來(lái)獲取章節(jié)內(nèi)容,具體代碼如下所示:
def parse_detail(self,response): string="" item=response.meta['item'] content=response.xpath('//*[@id="readArea"]/div[1]/div[2]//p/text()').extract() for i in content: string=string+i+'\n' item['text']=string yield item
首先我們定義了一個(gè)空變量string,在通過(guò)response.meta[]來(lái)接收item數(shù)據(jù),其參數(shù)為上一步中的meta={'item': item}的item,接下來(lái)獲取章節(jié)內(nèi)容,最后將章節(jié)內(nèi)容存儲(chǔ)在item['text']中,并通過(guò)生成器yield返回?cái)?shù)據(jù)給引擎。
章節(jié)名和章節(jié)內(nèi)容已經(jīng)全部獲取下來(lái)了,接下來(lái)我們把獲取下來(lái)的數(shù)據(jù)保存為txt文件,具體代碼如下所示:
from Fiction.items import FictionItem import time class FictionPipeline: def open_spider(self, spider): print(time.time()) def process_item(self, item, spider): if isinstance(item, FictionItem): title = item['name'] content = item['text'] with open(f'小說(shuō)/{title[0]}.txt', 'w', encoding='utf-8')as f: f.write(content) def close_spider(self, spider): print(time.time())
首先我們導(dǎo)入FictionItem、time,在open_spider()和close_spider()方法編寫(xiě)代碼調(diào)用time.time()來(lái)獲取爬取的開(kāi)始時(shí)間和結(jié)束時(shí)間,再在process_item()方法中,把引擎返回的item['name']和item['text']分別存放在title和content中,并通過(guò)open打開(kāi)txt文件,調(diào)用write()把章節(jié)內(nèi)容寫(xiě)入在txt文件中。
在啟動(dòng)爬蟲(chóng)前,我們先要在settings.py文件中啟動(dòng)引擎,啟動(dòng)方式很簡(jiǎn)單,只要找到下圖中的代碼,并取消代碼的注釋即可:
有人可能問(wèn):那User-Agent在哪里設(shè)置?我們可以在settings.py文件中,設(shè)置User-Agent,具體代碼如下:
好了,所有代碼已經(jīng)編寫(xiě)完畢了,接下來(lái)將啟動(dòng)爬蟲(chóng)了,執(zhí)行代碼如下:
scrapy crawl fiction
啟動(dòng)爬蟲(chóng)后,發(fā)現(xiàn)我們控制臺(tái)里面多了很多l(xiāng)og日志數(shù)據(jù)的輸出,這時(shí)可以通過(guò)在settings.py添加以下代碼,就可以屏蔽這些log日志:
LOG_LEVEL="WARNING"
好了,scrapy框架爬取小說(shuō)就講到這里了,感覺(jué)大家的觀看!??!
更多關(guān)于Python爬蟲(chóng)教程Scrapy框架爬取的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
標(biāo)簽:呂梁 懷化 吉安 蕪湖 廣西 安康 紹興 蘭州
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲(chóng)教程使用Scrapy框架爬取小說(shuō)代碼示例》,本文關(guān)鍵詞 Python,爬蟲(chóng),教程,使用,Scrapy,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。