您現(xiàn)在的位置是：首頁 » python編程資訊

資訊內(nèi)容

python爬蟲：隨心所欲地爬取百度圖片

極客小將2021-03-05-

簡介文章目錄一、前言二、需要導(dǎo)入的庫三、實(shí)現(xiàn)過程1、下載鏈接分析2、代碼分析3、完整代碼四、Blogger'sspeech(免費(fèi)學(xué)習(xí)推薦：python視頻教程)一、前言之前爬取了很多靜態(tài)網(wǎng)頁的內(nèi)容，包括：小說、圖片等等，今天我來嘗試一下動態(tài)網(wǎng)頁的爬取。眾所周知，百度圖片就是一個動態(tài)網(wǎng)頁。那么，沖

ZYn少兒編程網(wǎng)-https://www.pxcodes.com

文章目錄ZYn少兒編程網(wǎng)-https://www.pxcodes.com

一、前言二、需要導(dǎo)入的庫三、實(shí)現(xiàn)過程1、下載鏈接分析2、代碼分析3、完整代碼四、Blogger's speech

(免費(fèi)學(xué)習(xí)推薦：python視頻教程)ZYn少兒編程網(wǎng)-https://www.pxcodes.com

一、前言ZYn少兒編程網(wǎng)-https://www.pxcodes.com

之前爬取了很多靜態(tài)網(wǎng)頁的內(nèi)容，包括：小說、圖片等等，今天我來嘗試一下動態(tài)網(wǎng)頁的爬取。眾所周知，百度圖片就是一個動態(tài)網(wǎng)頁。那么，沖！沖！！沖！！！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

二、需要導(dǎo)入的庫ZYn少兒編程網(wǎng)-https://www.pxcodes.com

import requestsimport jsonimport os

三、實(shí)現(xiàn)過程ZYn少兒編程網(wǎng)-https://www.pxcodes.com

1、下載鏈接分析

首先，打開百度，搜索一個內(nèi)容，這里搜索的是男神（本人）——彭于晏

然后，打開抓包工具，選擇XHR選項(xiàng)，按Ctrl+R，然后你會發(fā)現(xiàn)，隨著你鼠標(biāo)的滑動，右側(cè)會出現(xiàn)一個又一個的數(shù)據(jù)包。

（這里沒滑動太多，一開始因?yàn)榛瑒犹啵浀腉IF超5M了）ZYn少兒編程網(wǎng)-https://www.pxcodes.com

然后，選一個包，查看它的headers，如圖：
ZYn少兒編程網(wǎng)-https://www.pxcodes.com

截取之后，粘貼在記事本上，作為一個URL，后文會用到。

這里有很多很多的參數(shù)，我也不知道具體哪些是可以忽略的，后文就索性全復(fù)制下來了，具體看后文。ZYn少兒編程網(wǎng)-https://www.pxcodes.com

到這里，能夠直接觀察到的內(nèi)容就結(jié)束了，接下來，借助代碼，幫我們打開另一個世界的大門ZYn少兒編程網(wǎng)-https://www.pxcodes.com

沖就完事了！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

2、代碼分析

首先：把上述中的“其它參數(shù)”組在一起。ZYn少兒編程網(wǎng)-https://www.pxcodes.com

自己做的話，**好復(fù)制自己的“其它參數(shù)”。ZYn少兒編程網(wǎng)-https://www.pxcodes.com

之后，我們可以先提取一下試試，并且把編碼格式改成'utf-8'ZYn少兒編程網(wǎng)-https://www.pxcodes.com

url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': '彭于晏', 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': '彭于晏', 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': '30', 'rn': '30', 'gsm': '1e', } # 將編碼形式轉(zhuǎn)換為utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text print(response)

運(yùn)行結(jié)果如下：

看上去挺亂的哈，沒事，我們給包裝一下！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

在上面的基礎(chǔ)上加上：ZYn少兒編程網(wǎng)-https://www.pxcodes.com

# 把字符串轉(zhuǎn)換成json數(shù)據(jù) data_s = json.loads(response) print(data_s)

運(yùn)行結(jié)果如下：

和上面相比，已經(jīng)明晰很多了，但依舊不夠明確，為什么呢？因?yàn)樗蛴〉母袷讲环奖阄覀冇^看！ ZYn少兒編程網(wǎng)-https://www.pxcodes.com

對此，有兩種解決辦法。ZYn少兒編程網(wǎng)-https://www.pxcodes.com

①導(dǎo)入pprint庫，接著輸入pprint.pprint(data_s)，就能打印啦，如下圖ZYn少兒編程網(wǎng)-https://www.pxcodes.com

ZYn少兒編程網(wǎng)-https://www.pxcodes.com

②使用json在線解析器（自行百度），結(jié)果如下：
ZYn少兒編程網(wǎng)-https://www.pxcodes.com

解決掉上一步，我們會發(fā)現(xiàn)，想要的數(shù)據(jù)都在data里面！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

那么就提取吧！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

a = data_s["data"] for i in range(len(a)-1): # -1是為了去掉上面那個空數(shù)據(jù) data = a[i].get("thumbURL", "not exist") print(data)

結(jié)果如下：

到這里，已經(jīng)成功90%啦，剩下的就是保存和優(yōu)化代碼了！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

3、完整代碼

這部分和上面有些許不同，仔細(xì)看看就會發(fā)現(xiàn)嗷！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

# -*- coding: UTF-8 -*-""" @Author ：遠(yuǎn)方的星 @Time : 2021/2/27 17:49 @CSDN ：https://blog.csdn.net/qq_44921056 @騰訊云： https://cloud.tencent.com/developer/user/8320044 """import requestsimport jsonimport osimport pprint# 創(chuàng)建一個文件夾path = 'D:/百度圖片'if not os.path.exists(path): os.mkdir(path)# 導(dǎo)入一個請求頭header = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}# 用戶（自己）輸入信息指令keyword = input('請輸入你想下載的內(nèi)容：')page = input('請輸入你想爬取的頁數(shù)：')page = int(page) + 1n = 0pn = 1# pn代表從第幾張圖片開始獲取，百度圖片下滑時默認(rèn)一次性顯示30張for m in range(1, page): url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': keyword, 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': keyword, 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': pn, 'rn': '30', 'gsm': '1e', } # 定義一個空列表，用于存放圖片的URL image_url = list() # 將編碼形式轉(zhuǎn)換為utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text # 把字符串轉(zhuǎn)換成json數(shù)據(jù) data_s = json.loads(response) a = data_s["data"] # 提取data里的數(shù)據(jù) for i in range(len(a)-1): # 去掉**后一個空數(shù)據(jù) data = a[i].get("thumbURL", "not exist") # 防止報(bào)錯key error image_url.append(data) for image_src in image_url: image_data = requests.get(url=image_src, headers=header).content # 提取圖片內(nèi)容數(shù)據(jù) image_name = '{}'.format(n+1) + '.jpg' # 圖片名 image_path = path + '/' + image_name # 圖片保存路徑 with open(image_path, 'wb') as f: # 保存數(shù)據(jù) f.write(image_data) print(image_name, '下載成功啦！！！') f.close() n += 1 pn += 29

運(yùn)行結(jié)果如下：

友情提示：
①：一頁是30張
②：輸入的內(nèi)容可以很多變：比如橋、月亮、太陽、胡歌、趙麗穎等等。 ZYn少兒編程網(wǎng)-https://www.pxcodes.com

四、Blogger’s speechZYn少兒編程網(wǎng)-https://www.pxcodes.com

希望大家可以，點(diǎn)贊、關(guān)注、收藏，三連支持一下！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

大量免費(fèi)學(xué)習(xí)推薦，敬請?jiān)L問python教程(視頻)ZYn少兒編程網(wǎng)-https://www.pxcodes.com

以上就是python爬蟲：隨心所欲地爬取百度圖片的詳細(xì)內(nèi)容，更多請關(guān)注少兒編程網(wǎng)其它相關(guān)文章！ZYn少兒編程網(wǎng)-https://www.pxcodes.com

上一篇
Python怎么排序列表

簡介Python排序列表的方法：1、調(diào)用列表的sort方法，輸出原列表，發(fā)現(xiàn)原列表變化了；2、使用sorted方法對列表排序，發(fā)現(xiàn)直接輸出的時候，輸出的列表為排序好的列表。本教程操作環(huán)境：windows7系統(tǒng)、python3.9版，DELLG3電腦。Python排序列表的方法：1、首先我們得知道pyth

下一篇
python字體大小如何設(shè)置

簡介python字體大小設(shè)置的方法：首先打開Python，在工具欄中單擊“Options”選項(xiàng)；然后選擇下拉列表中的“ConfigureIDLE”；最后在“FontFace”中可選擇字體類型，在“Size”中可選擇字體大小。本教程操作環(huán)境：windows7系統(tǒng)、python3.9版，DELLG3電腦。p

相關(guān)資訊

預(yù)約試聽課

已有385人預(yù)約都是免費(fèi)的，你也試試吧...

精品課程

Scratch自學(xué)精品課程(45節(jié)課)目...

官方教程 10、錄制聲音

官方教程 9、制作音樂

官方教程 8、創(chuàng)作故事

官方教程 7、角色動畫

推薦下載

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下載...

scratchlink 下載

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

標(biāo)簽云

Scratch(112) python(56) 少兒編程(44) 藍(lán)橋杯(32) 小升初(20) Scratch教材(19) 清華大學(xué)出版社(19) 電子學(xué)會(17) 等級考試(15) scratch作品(13) 真題(11) 數(shù)學(xué)(10) 人工智能(10) 算法(9) scratch等級(9) 四級考試(9) 三級考試(9) 電子協(xié)會(9) Scratch下載(9) 字典(6)

猜你喜歡

認(rèn)識Scratch的舞臺

Scratch電子學(xué)會等級考試時間和...

Scratch考試將會在近期進(jìn)行全面...

Scratch編程：培養(yǎng)孩子創(chuàng)新思維...

學(xué)Scratch編程的費(fèi)用一般是多少

Scratch教程：進(jìn)階課程-打地鼠

Scratch教程：進(jìn)階課程-打蝙蝠...

scratch教程判斷 if then

Scratch計(jì)算三角形面積

Scratch會飛的巫婆

Scratch迷宮游戲設(shè)計(jì)

竹内纱里奈和大战黑人_欧美成人黄色小视频_91福利影视_欧美在线观看视频网站_h色网站免费观看_97综合

資訊內(nèi)容

python爬蟲：隨心所欲地爬取百度圖片

Python怎么排序列表

python字體大小如何設(shè)置

相關(guān)資訊

預(yù)約試聽課