13161216443

您所在位置: 首頁> 學習課程> python培訓 | 小白學 Python 爬蟲:爬蟲基礎

python培訓 | 小白學 Python 爬蟲:爬蟲基礎

發布百知教育 來源:學習課程 2019-11-28

爬蟲的核心


什么是爬蟲,講點通俗易懂的,爬蟲就是爬取網頁,從中按照一定規則提取信息,重復以上過程自動化重復完成的程序。


一只爬蟲,第一件事情就是要爬取網頁,這里主要是指獲取網頁的源代碼。在網頁的源代碼里,會含有我們所需要的信息,而我們要做的事情就是從源代碼中將這些信息提取出來。


我們請求網頁的時候, Python 為我們提供了很多庫來做這件事情,比如官方提供的 urllib ,以及第三方提供的 requests 、 Aiohttp 等。


我們可以使用這些庫來發送 HTTP 請求,獲取響應的數據,得到響應之后,我們只需要解析其中 body 部分的數據,就可以獲得網頁的源代碼。


獲取到源代碼以后,我們接下來的工作就是解析源代碼,從中提取出我們需要的數據。


提取數據最基礎也是最常用的是使用正則表達式的方式的,但是這種方式比較復雜,也比較容易出錯,不過不得不說,一個正則表達式寫的非常厲害的人,完全用不著下面的這些解析類庫,這是一個萬能的方法。


悄悄的說一句,小編的正則表達式寫的也不好,才會使用到這些由第三方提供的類庫。


用于提取數據的類庫有 Beautiful Soup 、 pyquery 、 lxml 等等。使用這些庫,我們可以高效快速地從 HTML 中提取網頁信息,如節點的屬性、文本值等。


從源代碼中提取到數據以后,我們會對數據進行保存,這里的保存形式多種多樣,可以直接保存成 txt 、 json 、 Excel 文件等等,也可以保存至數據庫,如 Mysql 、 Oracle 、 SQLServer 、 MongoDB 等等。




抓取的數據格式


一般而言,我們抓取到的都是 HTML 的網頁源代碼,這個是我們看得到的、常規的、直觀的網頁信息。


但是有些信息,并不是直接和 HTML 一起返回至網頁的,會存在各種各樣的 API 接口,這種接口返回的數據現在大多數是 JSON 的格式,也有一些會返回 XML 的數據格式,還會有一些個別的奇葩的接口直接返回程序猿自定義的字符串。這種 API 數據接口就需要具體問題具體分析了。


還有一些信息,比如各大圖片站、視頻站(如抖音、 B站),我們想要爬取的信息是圖片或者視頻,這些信息是已二進制的形式存在的,我們需要將這些二進制的數據爬取下來再進行轉儲。


此外,我們還能抓取到一些資源文件,如 CSS 、 JavaScript 等腳本資源,有的還會有一些 woff 等字體信息。這些信息是一個網頁組成不可或缺的元素,只要瀏覽器能訪問到的,我們都可以將其爬取下來。


現代前端頁面爬取


今天核心內容來了?。?!


很多時候,我們使用 HTTP 請求庫爬取網頁源代碼時,爬取到的信息和我們在網頁上看到的信息完全不一樣,只有短短的幾行。


這是因為最近這幾年,前端技術突飛猛進,大量的采用前端模塊化工具來構建前端頁面,比較常用的框架有 Vue 、 React 等等。


導致我們獲取到的網頁只有一個空殼子,例如這種:


<!DOCTYPE html>
<html lang="en" style="background-color: #26282A; height: 100%">
 <head>
   <meta charset="utf-8">
   <meta http-equiv="X-UA-Compatible" content="IE=edge">
   <meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1, maximum-scale=1, user-scalable=no">
   <link rel="icon" href="<%= BASE_URL %>favicon.ico">
   <title>演示項目</title>
 </head>
 <style>
   
html,
   
body,
   
#app {
     
height: 100%
   }
 
</style>
 <body>
   <noscript>
     <strong>We're sorry but xxxxxx doesn't work properly without JavaScript enabled. Please enable it to continue.</strong>
   </noscript>
   <div id="app"></div>
   <!-- built files will be auto injected -->
   <script src=/js/chunk-vendors.84ee7bec.js></script>
   <script src=/js/app.4170317d.js></script>
 </body>
</html>


代碼來源是博主平時做的一些小東西,其中博主已經省略大量引入的 JavaScript。


body 節點里面只有一個 id 為 app 的節點,但是需要注意在 body 節點的最后引入了 JavaScript 文件,它們負責整個網頁的渲染。


在瀏覽器打開這個頁面后,首先會加載這個 HTML 的內容,接著會發現有 JavaScript 的腳本文件加載,獲取到這些腳本文件后,開始執行其中的代碼,而 JavaScript 腳本文件則會修改整個頁面的 HTML 代碼,向其中添加節點,從而完成整個頁面的渲染。


但是當我們使用請求庫去請求這個頁面的時候,只能獲得當前的 HTML 的內容,它并不會去幫我們獲取這個 JavaScript 腳本文件并且幫我們執行這個腳本文件渲染整個 HTML DOM 節點,我們當然也就看不到瀏覽器當中看到的內容。


這也解釋了為什么有時我們得到的源代碼和瀏覽器中看到的不一樣。


當然,遇到這種情況也不要慌,我們還可以使用Selenium、Splash這樣的庫來實現模擬瀏覽器中的 JavaScript 渲染。


后面,我們會慢慢聊這些內容,本文主要先幫各位同學對爬蟲有一個基礎的了解,方便后續的學習。


python培訓班:http://www.akpsimsu.com/python2019











上一篇:關于Java開發匿名類的用法、多線程、同步的實現、 序列化

下一篇:應屆生去公司找個Java程序員的職位需要什么技能?

相關推薦

www.akpsimsu.com

有位老師想和您聊一聊

關閉

立即申請