我是程序员,我用这种方式铭记历史
作者 | kokohuang
責(zé)編 | 晉兆雨
頭圖 |?付費(fèi)下載于視覺中國
?抗戰(zhàn)直播: 以圖文方式“直播”1931年9月18日至1945年9月2日14年間抗戰(zhàn)的日日夜夜
?開源地址:
https://github.com/kokohuang/WarOfResistanceLive
?預(yù)覽地址:
https://kokohuang.github.io/WarOfResistanceLive
前言
在目前浮躁的互聯(lián)網(wǎng)環(huán)境下,做一件好事不難,難的是連續(xù)8年做一件有意義的事。
在微博上有這樣一位博主,從2012年7月7日開始,截至到2020年9月2日,@抗戰(zhàn)直播?以圖文形式,記錄了從1937年7月7日至1945年9月2日中華民族全面抗戰(zhàn)的這段歷史。2980?天,從未間斷,平均每天 12 條,累計(jì) 35214 篇。
2020年9月18日7時(shí)零7分,沉寂了半個(gè)月的?@抗戰(zhàn)直播?恢復(fù)更新,他們將繼續(xù)以圖文的形式記錄1931年9月18日至1937年7月7日這六年的抗戰(zhàn)歷史。
下一個(gè) 6 年,他們已經(jīng)在路上。
歷史是不能被遺忘的。
作為程序員的我,在歷史面前,我能做點(diǎn)什么?
除了敬佩?@抗戰(zhàn)直播?這么多年來的堅(jiān)持,我更想做一點(diǎn)自己力所能及且有意義的事情。
在得到博主?@抗戰(zhàn)直播?的允許與支持后,于是就有了抗戰(zhàn)直播這個(gè)項(xiàng)目的誕生。
抗戰(zhàn)直播
抗戰(zhàn)直播是一個(gè)以圖文方式“直播”1931年9月18日至1945年9月2日14年間抗戰(zhàn)歷史的網(wǎng)站,每天會更新歷史上的今天所發(fā)生的一些重大歷史事件。通過這一條條圖文抗戰(zhàn)內(nèi)容,讓我們仿佛置身于那段從局部抗戰(zhàn)到全面抗戰(zhàn),再從全面抗戰(zhàn)到山河收復(fù)的那14年時(shí)光,與抗戰(zhàn)中的國人一起經(jīng)歷每一個(gè)日日夜夜,感受他們曾經(jīng)的屈辱與絕望,感受他們的光榮與夢想。
(https://kokohuang.github.io/WarOfResistanceLive)
本項(xiàng)目主要由 Python 爬蟲 + Hexo + Github Actions持續(xù)集成服務(wù)組成,開源在 GitHub 上,并且部署于 Github Pages。目前包含以下功能:
每日定時(shí)自動(dòng)同步更新數(shù)據(jù)
查看博主目前所有的微博數(shù)據(jù)
支持RSS訂閱功能
基于Github Actions的持續(xù)集成服務(wù)
...
項(xiàng)目結(jié)構(gòu)如下:
├──?.github/workflows?#?工作流配置文件 ├──?resources?#?微博數(shù)據(jù) ├──?site?#?網(wǎng)站源碼 └──?spider?#?微博爬蟲接下來,我將簡單的給大家介紹該項(xiàng)目的一些核心邏輯與實(shí)現(xiàn)。
Python 爬蟲
該項(xiàng)目使用的爬蟲是基于?weibo-crawler?項(xiàng)目的簡化及修改實(shí)現(xiàn)(僅供研究使用),感謝作者?dataabc。
實(shí)現(xiàn)原理
通過訪問手機(jī)版的微博繞過其登錄驗(yàn)證,可查看某個(gè)博主的大部分微博數(shù)據(jù),如:https://m.weibo.cn/u/2896390104
通過開發(fā)者工具查看得知,通過 json 接口 https://m.weibo.cn/api/container/getIndex 即可獲取微博數(shù)據(jù)列表:
如何使用
安裝依賴:
pip3?install?-r?requirements.txt使用:
python?weibo.py運(yùn)行效果:
注意事項(xiàng)
速度過快容易被系統(tǒng)限制:可通過加入隨機(jī)等待邏輯,可降低被系統(tǒng)限制的風(fēng)險(xiǎn);
無法獲取全部微博數(shù)據(jù):可通過添加 cookie 邏輯獲取全部數(shù)據(jù);
更多內(nèi)容可查看?weibo-crawler。
Hexo
經(jīng)過了一番的抉擇,最終選擇?Hexo?+?Next?主題作為本項(xiàng)目網(wǎng)站的框架。
Hexo 是一款基于 Node.js 的靜態(tài)博客框架,依賴少易于安裝使用,可以方便的生成靜態(tài)網(wǎng)頁托管在 GitHub Pages 上,還有豐富的主題可供挑選。關(guān)于如何安裝使用 Hexo 可詳細(xì)查看官方文檔:https://hexo.io/zh-cn/docs/。
那么,如何實(shí)現(xiàn) RSS 訂閱功能呢?
得益于?Hexo?豐富的插件功能,hexo-generator-feed?可以很方便的幫我們實(shí)現(xiàn)。
首先,在博客根目錄下安裝該插件:
$?npm?install?hexo-generator-feed?--save接著,在博客根目錄下的?_config.yml?文件中添加相關(guān)配置:
feed:enable:?true?#?是否啟用插件type:?atom?#?Feed的類型,支持?atom?和?rss2,默認(rèn)?atompath:?atom.xml?#?生成文件的路徑limit:?30?#?生成最大文章數(shù),如果為?0?或?false?則生成所有的文章content:?true?#?如果為?true?則展示文章所有內(nèi)容content_limit:?#?文章展示的內(nèi)容長度,僅當(dāng)?content?為?false?有效order_by:?-date?#?按照日期排序template:?#?自定義模板路徑最后,在主題根目錄下的?_config.yml 文件中添加 RSS 訂閱入口:
menu:RSS:?/atom.xml?||?fa?fa-rss?#?atom.xml文件路徑地址和圖標(biāo)設(shè)置這樣,我們就可以為自己的博客添加 RSS 訂閱功能。WarOfResistanceLive?的訂閱地址為:
https://kokohuang.github.io/WarOfResistanceLive/atom.xml訂閱效果如下圖:
Github Actions 持續(xù)集成
Github Actions 是由 Github 于 2018年10月?推出的持續(xù)集成服務(wù),在此之前,我們可能更多的使用 Travis CI 來實(shí)現(xiàn)持續(xù)集成服務(wù)。以我個(gè)人的感覺來看,Github Actions 功能非常強(qiáng)大,比 Travis CI 的可玩性更高,Github Actions 擁有豐富的 action 市場,將這些 action 組合起來,我們就可以很簡單的完成很多很有趣的事情。
我們先來看看Github Actions 的一些基本概念:
workflow:工作流程。即持續(xù)集成一次運(yùn)行的過程。該文件存放于倉庫的 .github/workflows 目錄中,可包含多個(gè);
job:任務(wù)。一個(gè) workflow 可包含一個(gè)或多個(gè) jobs,即代表一次集成的運(yùn)行,可完成一個(gè)或多個(gè)任務(wù);
step:步驟。一個(gè) job 由多個(gè) step 組成,即代表完成一個(gè)任務(wù)需要哪些步驟;
action:動(dòng)作。每個(gè) step 里面可包含一個(gè)或多個(gè) action,即代表一個(gè)步驟內(nèi),可執(zhí)行多個(gè) action 動(dòng)作。
了解了?Github Actions?的這些基本概念后,我們來看看?WarOfResistanceLive?的持續(xù)集成服務(wù)是怎樣實(shí)現(xiàn)的,以下是本項(xiàng)目使用的 workflow 完整實(shí)現(xiàn):
#?workflow?的名稱 name:?Spider?Bot#?設(shè)置時(shí)區(qū) env:TZ:?Asia/Shanghai#?設(shè)置工作流觸發(fā)方式. on:#?定時(shí)觸發(fā),在?8:00-24:00?間每隔?2?小時(shí)更新一次(https://crontab.guru)#?由于?cron?設(shè)定的時(shí)間為?UTC?時(shí)間,所以?+8?即為北京時(shí)間schedule:-?cron:?"0?0-16/2?*?*?*"#?允許手動(dòng)觸發(fā)?Actionsworkflow_dispatch:jobs:build:#?使用?ubuntu-latest?作為運(yùn)行環(huán)境runs-on:?ubuntu-latest#?將要執(zhí)行的任務(wù)序列steps:#?檢出倉庫-?name:?Checkout?Repositoryuses:?actions/checkout@v2#?設(shè)置?Python?環(huán)境-?name:?Setup?Pythonuses:?actions/setup-python@v2with:python-version:?"3.x"#?緩存?pip?依賴-?name:?Cache?Pip?Dependenciesid:?pip-cacheuses:?actions/cache@v2with:path:?~/.cache/pipkey:?${{?runner.os?}}-pip-${{?hashFiles('./spider/requirements.txt')?}}restore-keys:?|${{?runner.os?}}-pip-#?安裝?pip?依賴-?name:?Install?Pip?Dependenciesworking-directory:?./spiderrun:?|python?-m?pip?install?--upgrade?pippip?install?flake8?pytestif?[?-f?requirements.txt?];?then?pip?install?-r?requirements.txt;?fi#?運(yùn)行爬蟲腳本-?name:?Run?Spider?Botworking-directory:?./spider??#?指定工作目錄,僅對?run?命令生效run:?python?weibo.py#?獲取系統(tǒng)當(dāng)前時(shí)間-?name:?Get?Current?Dateid:?daterun:?echo?"::set-output?name=date::$(date?+'%Y-%m-%d?%H:%M')"#?提交修改-?name:?Commit?Changesuses:?EndBug/add-and-commit@v5with:author_name:?Koko?Huangauthor_email:?huangjianke@vip.163.commessage:?"已同步最新數(shù)據(jù)(${{steps.date.outputs.date}})"add:?"./"env:GITHUB_TOKEN:?${{?secrets.GITHUB_TOKEN?}}#?推送遠(yuǎn)端-?name:?Push?Changesuses:?ad-m/github-push-action@masterwith:branch:?maingithub_token:?${{?secrets.GITHUB_TOKEN?}}#?設(shè)置?Node.js?環(huán)境-?name:?Use?Node.js?12.xuses:?actions/setup-node@v1with:node-version:?"12.x"#?緩存?NPM?依賴-?name:?Cache?NPM?Dependenciesid:?npm-cacheuses:?actions/cache@v2with:path:?~/.npmkey:?${{?runner.os?}}-node-${{?hashFiles('./site/package-lock.json')?}}restore-keys:?|${{?runner.os?}}-node-#?安裝?NPM?依賴-?name:?Install?NPM?Dependenciesworking-directory:?./siterun:?npm?install#?構(gòu)建?Hexo-?name:?Build?Hexoworking-directory:?./site?#?指定工作目錄,僅對?run?命令生效run:?npm?run?build#?發(fā)布?Github?Pages-?name:?Deploy?Github?Pagesuses:?peaceiris/actions-gh-pages@v3with:github_token:?${{?secrets.GITHUB_TOKEN?}}publish_dir:?./site/public?#?指定待發(fā)布的路徑地址publish_branch:?gh-pages?#?指定遠(yuǎn)程分支名稱執(zhí)行效果圖如下:
workflow 文件的配置字段非常多,配置文件中也給出了詳細(xì)的注釋。接下來,我們主要看下以下幾個(gè)比較重要的配置:
工作流的觸發(fā)方式
#?設(shè)置工作流觸發(fā)方式. on:#?定時(shí)觸發(fā),在?8:00-24:00?間每隔?2?小時(shí)更新一次(https://crontab.guru)#?由于?cron?設(shè)定的時(shí)間為?UTC?時(shí)間,所以?+8?即為北京時(shí)間schedule:-?cron:?"0?0-16/2?*?*?*"#?允許手動(dòng)觸發(fā)工作流程workflow_dispatch:我們可以使用 on 工作流程語法配置工作流程為一個(gè)或多個(gè)事件運(yùn)行。支持自動(dòng)與手動(dòng)兩種方式觸發(fā)。schedule 事件允許我們在計(jì)劃的時(shí)間觸發(fā)工作流程,我們可以使用?POSIX cron 語法?來安排工作流程在特定的時(shí)間運(yùn)行。
計(jì)劃任務(wù)語法有五個(gè)字段,中間用空格分隔,每個(gè)字段代表一個(gè)時(shí)間單位:
┌─────────────?minute?(0?-?59) │?┌─────────────?hour?(0?-?23) │?│?┌─────────────?day?of?the?month?(1?-?31) │?│?│?┌─────────────?month?(1?-?12?or?JAN-DEC) │?│?│?│?┌─────────────?day?of?the?week?(0?-?6?or?SUN-SAT) │?│?│?│?│??????????????????????????????????? │?│?│?│?│ │?│?│?│?│ *?*?*?*?*我們還可在這五個(gè)字段中使用以下運(yùn)算符:
我們可以使用?https://crontab.guru?來生成計(jì)劃任務(wù)語法,你也可以查看更多的?crontab guru 示例。
另外,我們還可以通過配置 workflow_dispatch 和 repository_dispatch字段來實(shí)現(xiàn)手動(dòng)觸發(fā)工作流程。
on?字段也可以配置為?push,即倉庫有?push?操作時(shí)則觸發(fā)工作流的執(zhí)行,詳細(xì)的觸發(fā)工作流配置可以查看?配置工作流程事件。
步驟序列
從配置文件中我們可以看到,該項(xiàng)目的一次持續(xù)集成的運(yùn)行包含了以下步驟:
檢出倉庫 --> 設(shè)置?Python?環(huán)境 --> 緩存?pip?依賴 --> 安裝?pip?依賴 --> 運(yùn)行爬蟲腳本 --> 獲取當(dāng)前時(shí)間 --> 提交修改 --> 推送遠(yuǎn)端 --> 設(shè)置?Node.js?環(huán)境 --> 緩存?NPM?依賴 --> 安裝?NPM?依賴 --> 構(gòu)建?Hexo?--> 發(fā)布?Github Pages
本項(xiàng)目的 workflow 主要有以下幾個(gè)要點(diǎn):
運(yùn)行環(huán)境:整個(gè)工作流運(yùn)行在虛擬環(huán)境 ubuntu-latest。還可以指定其他虛擬環(huán)境,如 Windows Server、macOS 等;
緩存依賴:通過對依賴的緩存,可提升安裝相關(guān)依賴的速度。具體使用可查看:緩存依賴項(xiàng)以加快工作流程;
獲取當(dāng)前時(shí)間:后續(xù)提交修改步驟中的 commit message 中使用到了該步驟中獲取到當(dāng)前時(shí)間,這里就使用到了?step 上下文?的相關(guān)概念,我們可以為 step 指定一個(gè) id,后續(xù) step 中我們就可以通過 steps.<step id>.outputs 來獲取已經(jīng)運(yùn)行的步驟相關(guān)信息;
構(gòu)建 Hexo:即執(zhí)行 hexo generate 命令生成靜態(tài)網(wǎng)頁;
工作流程中的身份驗(yàn)證:提交推送及發(fā)布步驟需要進(jìn)行身份驗(yàn)證。GitHub 提供一個(gè)令牌,可用于代表 GitHub Actions 進(jìn)行身份驗(yàn)證。我們所需要做的就是創(chuàng)建一個(gè)命名為 GITHUB_TOKEN 的令牌。具體步驟如下:Settings --> Developer settings --> Personal access tokens --> Generate new token,命名為 GITHUB_TOKEN ,并勾選中你所需要的的權(quán)限,然后就可以在 step 中通過使用?${{ secrets.GITHUB_TOKEN }}?進(jìn)行身份驗(yàn)證。
更多?Action?可在?Github?官方市場?查看。
結(jié)語
截止今天,抗戰(zhàn)直播收錄了從 2012年7月7日?至今的35000+條博文,我相信,這些珍貴的歷史數(shù)據(jù),一定會不斷豐富著我們對抗戰(zhàn)歷史認(rèn)識,更會讓我們深入地了解了中華民族的民族性。國家雖亂,民族性猶在。
就如?@抗戰(zhàn)直播?的發(fā)起人所說:“我想親身體驗(yàn)這8年,感受他們曾經(jīng)的屈辱、絕望、光榮與夢想。”。也希望你能通過本項(xiàng)目,靜靜的去感受那一段抗戰(zhàn)時(shí)光。
最后,引用博主?@抗戰(zhàn)直播?的一段話:
“我們直播抗戰(zhàn),并非為了鼓動(dòng)仇恨等負(fù)面的情緒,而是想適度喚起遺忘,當(dāng)我們時(shí)刻牢記祖輩們蒙受的苦難、恐懼和屈辱時(shí);當(dāng)我們體味祖輩們是如何在國家民族危亡之際拋棄前嫌,實(shí)現(xiàn)民族和解時(shí),當(dāng)我們目睹著祖輩們是如何從容慷慨的走向死亡,以身體為這個(gè)國家獻(xiàn)祭之時(shí),相信我們對于現(xiàn)實(shí)將有更加成熟和理性的思考。”
銘記歷史,砥礪奮進(jìn)。勿忘國恥,吾輩自強(qiáng)。
更多閱讀推薦
云原生應(yīng)用Go語言:你還在考慮的時(shí)候,別人已經(jīng)應(yīng)用實(shí)踐
一文告訴你霧計(jì)算與云計(jì)算的區(qū)別及對物聯(lián)網(wǎng)的價(jià)值!
你可能也會掉進(jìn)這個(gè)簡單的 String 的坑
教你如何用 Python 三行代碼做動(dòng)圖!
Ethereum2.0:深入了解Lego Money、Sharding、PoS和TPS的真相
總結(jié)
以上是生活随笔為你收集整理的我是程序员,我用这种方式铭记历史的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌这波操作,预警了什么信号??
- 下一篇: 深夜,我偷听到程序员要对session下