13161216443

您所在位置: 首頁> 學習課程> python爬蟲入門實戰,爬取app內的數據

python爬蟲入門實戰,爬取app內的數據

發布百知教育 來源:學習課程 2019-11-18


如何獲取手機app內數據源信息?接下來以taptap手機app為例,獲取單機排行榜數據。


   配置環境


首先在電腦上安裝好 mitmproxy ,安裝方法可以參考官網,以下是以macOS為例。


python培訓



python3 和 requests 庫,  openpyxl 庫,國內可以用鏡像安裝,參考如下。


Python培訓


還要引入一些系統庫


python培訓


將手機和電腦連入同一個 wifi , 并在手機上設置網絡代理(一般在設置>>WLAN>>當前詳情 內)。設置代理服務器主機名為電腦的地址,服務端口為8080。


python培訓


手機上用瀏覽器打開網頁,安裝證書。


   數據獲取


安裝好 mitmproxy  之, 直接在電腦命令終端執行 mitmproxy 。

然后在手機上打開TapTap應用,選擇發現->單機??梢栽陔娔X終端看到許多http請求。


python培訓



逐個點擊進去后,選擇 Response ,可以找到我們需要的數據的鏈接。


Python培訓



點擊 Request 可以看到請求鏈接和參數,這些就是獲取數據源的鏈接和參數。


python培訓


在手機上多翻幾頁,多點幾個鏈接詳情,可以發現 from 參數是翻頁參數。那么在 python3 中如何獲取呢?參考如下


    python培訓



    使用 requests 的 get 方法可以傳入 hearders 和 參數。因為返回的是 json 可以直接調用 json() 方法解析結構。


       數據分析


    通過查看返回 json 里的內容和手機應用內的顯示數據,大致可以找出對應數據的字段。



    python培訓


    一起看下在 python 中如何處理的吧。



      python培訓


         數據存儲


      這次我們用 Excel 保存數據,用到 openpyxl 庫的處理。另外,我們還可以插入 icon 圖標,可以先把圖片下載到 icon 文件夾中,再讀取數據時把圖片插入表中。


      先初始化表格第一行的內容,新建一個 icon 文件夾。


      python培訓



      接著在讀取每一條數據時,下載 icon 圖片,將對應數據插入表中。

        python培訓


        結果預覽:


        Python培訓




           小結


        首先通過 mitmproxy 代理獲取數據鏈接和參數,接著對用手機的數據查找我們需要的參數,編寫對應的處理代碼,保存在 excel 表中。


        以上就是我最新學到的東西,如果有錯誤或新想法歡迎留言指出!如果我學到新的東西,會第一時間分享給大家哦!


        python培訓:http://www.akpsimsu.com/python2019




        上一篇:python培訓 | Python網絡爬蟲技術經驗淺談

        下一篇:應屆生去公司找個Java程序員的職位需要什么技能?

        相關推薦

        www.akpsimsu.com

        有位老師想和您聊一聊

        關閉

        立即申請