生活随笔
收集整理的這篇文章主要介紹了
教你如何用python俘获女神芳心
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
教你如何用python爬取豆丁網付費文章俘獲女神芳心。
事情是這樣的
女神想要一篇關于如下的文章:
可一看,下載需要十個米,作為打工人哪舍得花這個錢去下載如此貴的文章,于是她想到了我。
記錄:
這里聊天告一段落,
身兼CV大法的我看了看,怎么可以在女神面前這么無能呢·,分析了一下該網站,好家伙,這算法我不想找了,據我分析,是通過wasm文件加載的算法.
如下是加密數據:
但是可見即可爬,然后又嘗試了selenium也翻車,也不想試其他的了,于是我選擇了另一種查看方式,這下總算被我發現了可行方法,于是擼代碼。
"""
# @Time : 2021/11/2 11:06
# @Author : ChenLvLei
# @Email : 2516455367@qq.com
# @FileName : docin
# @Description :
"""
import os
from fpdf
import FPDF
from PIL
import Image
from pdf2docx
import Converter
from configparser
import ConfigParser
import requestsheaders
= {'Accept': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9',"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36"" (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}def download(**kwargs
):page
= kwargs
.pop
('maxPage')for page
in range(1, page
):print(f
'豆丁文檔下載中......第{page}張')kwargs
.update
({'pageno': str(page
)})response
= requests
.request
("GET",'https://docimg1.docin.com/docinpic.jsp?',headers
=headers
,params
=kwargs
)if not os
.path
.exists
('./豆丁'):os
.mkdir
('./豆丁')with open(f
'./豆丁/{page}.png', 'wb') as f
:f
.write
(response
.content
)def generate_pdf(pdf_file_name
, list_ages
):cover
= Image
.open(list_ages
[0])width
, height
= cover
.sizepdf
= FPDF
(unit
="pt", format=[width
, height
])for page
in list_ages
:pdf
.add_page
()pdf
.image
(page
, 0, 0)pdf
.output
(pdf_file_name
, "F")def pdf_to_word():config_parser
= ConfigParser
()config_parser
.read
('config.cfg', encoding
='utf-8')config
= config_parser
['default']for file in os
.listdir
(config
['pdf_folder']):extension_name
= os
.path
.splitext
(file)[1]if extension_name
!= '.pdf':continuefile_name
= os
.path
.splitext
(file)[0]pdf_file
= config
['pdf_folder'] + '/' + fileword_file
= config
['word_folder'] + '/' + file_name
+ '.docx'cv
= Converter
(pdf_file
)cv
.convert
(word_file
)cv
.close
()def main(file: str,width
: str,sid
: str,pageno
: str,pcimg
: str,page
: int,**kwargs
):key
= {'file': file,'width': width
,'sid': sid
,'pageno': pageno
,'pcimg': pcimg
,'maxPage': page
}download
(**key
)generate_pdf
("人力資源項目計劃書.pdf",['./豆丁/' + imgFileName
for imgFileName
inos
.listdir
('./豆丁')if imgFileName
.endswith
(".png")])if __name__
== '__main__':main
('填入對應參數即可')```
最終不負所托完成了女神交付的任務。
就這樣,我成功忽悠到10米。
你以為事情就這樣結束了嗎???大錯特錯!錯的離譜!不能再錯了!
正當我準備給女神用網上免費的OCR字符識別庫Tesseract,識別一下文字,免得女神復制的如此辛苦,結果:
女神由于被我忽悠了10米,于是氣氛的去上個廁所壓壓驚,結果特喵手機掉廁所了。。。。。。
這時候女神的心情就如同她掉到廁所的手機,一樣沉重.
洗澡睡覺覺啦,覺得不錯的小伙伴點贊關注不迷路
本故事根據真實故事改編
如有侵權 聯系刪除
總結
以上是生活随笔為你收集整理的教你如何用python俘获女神芳心的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。