从BLOG到电子书——把wordpress备份的WXR转为epub
古人云,敝帚自珍。
雖然自己寫的BLOG都是些沒營養(yǎng)的東西,但還是想收藏起來。
花了點時間研究了一下epub格式,寫了段轉換程序,把Wordpress導出的備份文件WXR轉成epub格式。
本想貼代碼湊數(shù),結果發(fā)現(xiàn)代碼還是多了點,所以還是改成下載吧。
第一個是生成epub的庫:epubbuilder.py
(源碼附后)
之后是解析WXR并調用epubbuilder生成epub的主程序:wxr2epub.py
(源碼附后)
下載:wxr2epub source code 5.4K(GPL)。
使用時在源目錄下放一個叫做wordpress.xml的WXR文件,再創(chuàng)建一個images的子目錄,里面放上文章中所有引用過的圖片,最好有一個叫cover.jpg的,這個圖片將會被作為電子書的封面。生成的電子書每一篇文章及其評論會作為電子書的一個章節(jié),文章多的話,目錄項會很多,某些電子書軟件可能無法完全顯示所有目錄項。
所以說,還是開放好啊。Wordpress的WXR用的是開放的XML格式,epub也是用開放的zip+HTML+XML格式。
像CSDN BLOG這種自己開發(fā)的平臺就沒辦法了……當然也不是完全沒有辦法,可以自己寫一個爬蟲去把頁面全抓下來,再用pyquery之類的解析出內容,然后生成epub。不過這就麻煩得多了,除了程序寫起來麻煩以外,還要防止爬得過猛被網站封IP之類的副作用——這事我也干過,不過不是對CSDN。
總結
以上是生活随笔為你收集整理的从BLOG到电子书——把wordpress备份的WXR转为epub的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QT-2048小游戏
- 下一篇: 推荐最近读的几本不错的书