将微信公众号内容制作成电子书

微信公众号是个毒瘤,因为它封闭的生态系统阻止了信息的流通。
但是的确有一些不错的公众号。最近一个朋友就推荐了我一个写晚清历史的公众号,从宗教战争的角度看晚清,观点很有趣。
但如果在手机上看完这几十篇文章我的眼睛估计会瞎掉。
所以我就花了点时间写了这样一个脚本,可以把微信公众号在传送门上的镜像抓取下来生成电子书。
之所以选择爬传送门,是因为听说腾讯反爬虫很严厉。

源代码在此: https://github.com/fqx/chuansongme2ebook

这个脚本重用了很多我之前另一个项目的代码,因此明显可以看得出来变量命名规则的改变。
我也尝试着用面向对象的方式来写这个脚本,虽然不是很成功。
比较值得高兴的是,这次完成了对图片的处理,方法比之前预期的要简单一些。
对微信公众号这种图片比较多的平台特别有意义。

解析部分(simplify_html 函数)针对我要抓的那个公众号做了优化,各位可根据自己的实际需求修改。
爬完后用kindlegen可以生成mobi格式的电子书。

也谈微信公众帐号

我不喜欢微信公众帐号,不管它是不是一种历史的倒退
但我父母喜欢得要死,每天都特地从里面转一些心灵鸡汤发给我看。
顺便说,除了这些心灵鸡汤,他们并不用微信给我发哪怕一条消息。

IMG_2689

嗯,就是上图这种情况。

我觉得一个人的可获得信息量是分几个阶段的:

  1. 信息量极少。因为信息拥有量极少,不知道自己无知,因此心里很安逸。
  2. 信息量较少。在从极少的信息量突然升级到一些新的信息触手可得的时候,会突然发现自己的无知,无知引发了恐慌,因此不管真假大量的主动获取信息。我父母那一代人,在面对微信公众帐号的时候,也许就是这个阶段,像一个饥饿的人囫囵吞枣。
  3. 信息量较多。经过一段时间的囫囵吞枣以后,终于发现自己不可能处理所有可以获得的信息,也发现了有些信息是谣言,或者没有价值。到了这个阶段,才会真正的去考虑真实性以及重要性的问题。
  4. 信息量非常多。人脑无法处理这么多信息,但是Google等公司在做这些事情,通俗的说这个就是大数据阶段。

父母这代人,从信息全靠报纸和街头巷尾的谣言的时代,到可以主动看门户网站,订阅微信公众号,我觉得不是一种倒退。当然,我说的这个倒退的主体,和Stanley Xu说的,也许并不一样。

而我外婆,到现在仍然坚持着每天看七点半天气预报的习惯,部分原因是她并不识字。另一方面,全家人吃完晚饭,一起看看电视,对老人是一种精神寄托,在这个时代也可以说是一种奢侈品了吧。