将微信公众号内容制作成电子书

微信公众号是个毒瘤,因为它封闭的生态系统阻止了信息的流通。
但是的确有一些不错的公众号。最近一个朋友就推荐了我一个写晚清历史的公众号,从宗教战争的角度看晚清,观点很有趣。
但如果在手机上看完这几十篇文章我的眼睛估计会瞎掉。
所以我就花了点时间写了这样一个脚本,可以把微信公众号在传送门上的镜像抓取下来生成电子书。
之所以选择爬传送门,是因为听说腾讯反爬虫很严厉。

源代码在此: https://github.com/fqx/chuansongme2ebook

这个脚本重用了很多我之前另一个项目的代码,因此明显可以看得出来变量命名规则的改变。
我也尝试着用面向对象的方式来写这个脚本,虽然不是很成功。
比较值得高兴的是,这次完成了对图片的处理,方法比之前预期的要简单一些。
对微信公众号这种图片比较多的平台特别有意义。

解析部分(simplify_html 函数)针对我要抓的那个公众号做了优化,各位可根据自己的实际需求修改。
爬完后用kindlegen可以生成mobi格式的电子书。

统计建模:两种文化

标题其实是 Leo Breiman 于2001年在统计科学杂志发表的一篇论文,而我今天才在机器学习课程的阅读清单里看到它。

我一看到这篇文章就非常喜欢,接下来让我跟你介绍一下这篇文章的主要内容和我的一些感想。

哪两种文化?

作者认为当时统计学有两种文化,他称之为数据模型派(Data Modeling)和算法模型派(Algorithmic Modeling)。其中统计学家有98%是数据模型派的。

数据模型派的主要特点,就是论文先假设统计数据符合某种分布,一般来说是线性回归,然后建模,算显著性水平,得到结论。
数据模型派,更关心的是模型,和模型的可解释性。

而那2%的算法模型派,也假设统计数据符合某种分布,但并不直接对这种分布进行建模,而是通过SVM、分支树等办法(随机森林正是该论文作者发明的)获得模型,并用验证集/测试集确定该模型的预测能力。他们关心的是预测能力,而不是模型的可解释性。

数据模型派有什么问题?

因为数据模型派预设统计数据的分布模型,并且为了可解释性多用线性模型或逻辑回归,用R2作为显著性水平的衡量工具。

但问题在于,即使模型通过了显著性水平测试,对于增加了多项式的线性模型,统计数据也未必真的符合线性回归模型。
David Freedman 和 William Cleveland 等人已经发现了这个问题。

换句话讲,数据模型派的统计学家只是把一个模型套在了数据上,然后说这个模型的显著性水平测试已经通过了,blablabla。
如果增加多项式的话,同一组数据可以回归得到不同的模型,因此也可以得到完全不同的结论。
那么这些统计学家怎么确定哪个模型才是正确的呢?它们都通过了显著性水平测试啊。

对数据模型派更糟糕的是,在应用到复杂系统(例如未知的化学或生物过程)的数据上时,假设数据符合某个模型就更为可笑了。
这一派统计学家为此加上了贝叶斯、蒙特卡洛等方法,然而,如此一来数据模型派的可解释基础就不存在了。

该算法模型派出场了!

算法模型派并不去猜测统计数据的分布模型,因此对于复杂系统的应用没有数据模型派的那个问题。

更好的是,算法模型派支持模型的多样性,(想一想随机森林),并且,由于支持多种模型,在一些实际应用上,其预测的准确性显著高于数据模型派,并且这个效果是通过验证集/测试集证实的。

另一方面,数据模型派经常面对的维度爆炸的问题,算法模型派根本不在乎。数据模型派需要用PCA等方法降低维度,同时也丢弃了一些信息,但是算法模型派可以使用上这些被丢弃的信息。

算法模型就真的是个黑匣子吗?

作者举了三个例子说明,某些时候,因为特征的共线性,随机森林比逻辑回归更能找出关键特征,随机森林还能对特征进行聚类,以及对特征重要性给出更清晰的细节。

因此,作者在最后建议统计学家拥抱算法模型,他认为未来解决实际问题更多得依赖算法模型。(记住这可是2001年)

本人的感想

人工智能(AI)在近几年引起了很多人的关注,有些人认为只是又一个(短暂的)风口,有些人对它目前的能力有一些不切实际的幻想。

我觉得它在这两者之间,它会像互联网一样在相当长的一段时间持续的改变我们的生活,就像90年代互联网浪潮一样,那个时候也没多少人遇见到了目前的移动互联网时代。

而机器学习技术,AI的核心技术,这个源于统计学却又完全不同于传统统计学的东西,正是论文作者所说的算法模型。
作者在那个时候已经看到了机器学习技术的发展潜力,也为机器学习社区贡献了随机森林这种优秀的算法。
*据Kaggle统计,在传统数据分析领域,即非图像非自然语言等领域,随机森林是挑战者最喜欢用的算法之一。

但是我很遗憾的看到,即使在2018年,国内仍有一些学者戴着大数据/人工智能的花环,干着数据模型派的事情。

tweet_status/1074116611089387520

Mail to prof chen

我也很遗憾,现在才看到这篇论文。
但也许是因为我并没有认真的学过统计学,没有数据模型派的成见,我在学习机器学习的过程中已经形成了这样一种感觉。

就像作者试图告诉我们的,摒弃100%的可解释性,去拥抱未知

老股东解禁后频套现 小米怎么了?

敝司到五月一定也面临这个压力。

这两宗交易分别发生于1月9日和1月15日,一宗来自小米早期股东,俄罗斯电信巨头Yuri Milner投资的投资基金Apoletto。另一宗卖家身份未知,帮忙配售老股的投行是摩根士丹利。

截至1月17日,小米在港股收报每股9.74港元,较每股17港元的发行价低逾四成。在老股东解禁后的七个交易日内,小米股价已下跌12.25%。小米的下一轮旧股解禁将是2019年7月9日。

2019年开年至今,小米股价累计下跌24.61%,这一跌幅甚至比小米整个2018年的股价表现还差。公司从2018年7月9日上市起至年底约六个月,股价下跌24%。

小米招股书显示,公司在上市前共进行过九轮融资。其中,E轮融资的每股优先股价格,折算成上市后普通股后,每股成本约为3.07港元,E轮以前的融资成本则更低。但F-1轮和F-2轮的成本却分别高达约15.83港元和14.07港元。

Source: 老股东解禁后频套现 小米怎么了?_公司频道_财新网

中国的房地产泡沫要破了

你还有房价信仰吗?是时候要多想一想了。
本人在私募基金投资房地产五年有余,已经感觉到房地产行业的寒冬。

冬天的痕迹

广东省酝酿取消商品房预售制度,全面实施现房销售_地产界_澎湃新闻-The Paper

广东省酝酿取消商品房预售制度,全面实施现房销售_地产界_澎湃新闻-The Paper

澎湃新闻记者 庞静涛

https://www.thepaper.cn/newsDetail_forward_2463812

为什么房地产协会主动研究取消预售?
大开发商挤出小开发商。融资能力不够强的小开发商,一旦没有预售制度的资金支持,根本转不动。
去杠杆和对影子银行的打击也严重的削弱了小开发商的融资渠道。
如果你买了100强以外开发商的预售房,关注一下工程进度。也许小开发商把项目便宜卖给大开发商是最好的结果。

Continue reading “中国的房地产泡沫要破了”

华平投资拟在华成立合资公司投资房地产类不良资产

敝司从2013年开始类似业务,却错过了最好的发展机会。以至于今年裁员至年初四分之一。
现在(将要成为前任的)董事长被放逐到这个板块,一堆人在打鸡血,然而我只感觉到深深的凄凉。

尽管中国房地产市场在逐渐降温,且面临高负债问题,却吸引了国际投资者的关注,美国私募股权投资公司美国华平投资集团(Warburg Pincus LLC)与一家中国合作伙伴宣布计划出资10亿美元成立合资公司,专门投资房地产类不良资产。

华平投资与总部设在北京的投资公司翰德集团(Hande Group)周三宣布,将寻求收购核心市场优质地段的物业以及与这些房地产资产相关的债务。华平投资称,根据双方的计划,此类物业被收购后将持有至少四、五年,可以直接管理,也可以出租。

Source: 华平投资拟在华成立合资公司投资房地产类不良资产 – 华尔街日报

电脑生成的人脸

上图是机器学习课程中,我使用 DCGAN 生成的人脸。

电脑仅仅通过“观看”几万张名人照片,学习人面部特征,就可以生成类似图像。
机器学习的实力还未完全释放,然而,我相信这一天即将到来。