U.S., China Close In on Trade Deal

你要知道共产党老祖宗发明了辩证法。

BTW,贸易协定里面暂时还没有关于产业政策和补贴的内容。

One wild card in the U.S.-China negotiations is the impact of Mr. Trump’s failed summit in Vietnam with North Korean leader Kim Jong Un. U.S. officials said they hope Mr. Xi learns from that episode that Mr. Trump would reject an offer he considers inadequate. But they fear Beijing might take the opposite lesson: that Mr. Trump is desperate for a win.

“His failure to get a deal in Vietnam increases the pressure on him to get a deal with the Chinese,” said Fred Bergsten, founder of the Institute for International Economics in Washington.

Source: U.S., China Close In on Trade Deal – WSJ

孟晚舟起诉加拿大,称合法权利受到侵犯

孟晚舟在加拿大宣布推进引渡之后提出这项诉讼,暗示中国和加拿大政府已经没有台下交换利益的可能,接下来会打得很难看。

孟晚舟在不列颠哥伦比亚省最高法院(Supreme Court of British Columbia)提起诉讼,称去年12月份一名加拿大皇家骑警和三名边境官员“以例行边境检查的虚假借口”,对她进行了三个多小时的非法拘留、讯问和搜查,之后她才被告知被捕的原因。上述指控中称,相关官员不当拒绝了孟晚舟与律师见面的要求。

该诉讼称,上述官员的行为侵犯了《加拿大权利与自由宪章》赋予孟晚舟的权利。

记者未能立即联系到加拿大司法部发言人。

该诉讼是在上周五提出的。加拿大当天表示,美国已提供举行引渡孟晚舟听证会所需的足够证据。美国已要求引渡孟晚舟,称她和华为违反了美国对伊朗的制裁。

Source: 孟晚舟起诉加拿大,称合法权利受到侵犯 – 华尔街日报

统计建模:两种文化

标题其实是 Leo Breiman 于2001年在统计科学杂志发表的一篇论文,而我今天才在机器学习课程的阅读清单里看到它。

我一看到这篇文章就非常喜欢,接下来让我跟你介绍一下这篇文章的主要内容和我的一些感想。

哪两种文化?

作者认为当时统计学有两种文化,他称之为数据模型派(Data Modeling)和算法模型派(Algorithmic Modeling)。其中统计学家有98%是数据模型派的。

数据模型派的主要特点,就是论文先假设统计数据符合某种分布,一般来说是线性回归,然后建模,算显著性水平,得到结论。
数据模型派,更关心的是模型,和模型的可解释性。

而那2%的算法模型派,也假设统计数据符合某种分布,但并不直接对这种分布进行建模,而是通过SVM、分支树等办法(随机森林正是该论文作者发明的)获得模型,并用验证集/测试集确定该模型的预测能力。他们关心的是预测能力,而不是模型的可解释性。

数据模型派有什么问题?

因为数据模型派预设统计数据的分布模型,并且为了可解释性多用线性模型或逻辑回归,用R2作为显著性水平的衡量工具。

但问题在于,即使模型通过了显著性水平测试,对于增加了多项式的线性模型,统计数据也未必真的符合线性回归模型。
David Freedman 和 William Cleveland 等人已经发现了这个问题。

换句话讲,数据模型派的统计学家只是把一个模型套在了数据上,然后说这个模型的显著性水平测试已经通过了,blablabla。
如果增加多项式的话,同一组数据可以回归得到不同的模型,因此也可以得到完全不同的结论。
那么这些统计学家怎么确定哪个模型才是正确的呢?它们都通过了显著性水平测试啊。

对数据模型派更糟糕的是,在应用到复杂系统(例如未知的化学或生物过程)的数据上时,假设数据符合某个模型就更为可笑了。
这一派统计学家为此加上了贝叶斯、蒙特卡洛等方法,然而,如此一来数据模型派的可解释基础就不存在了。

该算法模型派出场了!

算法模型派并不去猜测统计数据的分布模型,因此对于复杂系统的应用没有数据模型派的那个问题。

更好的是,算法模型派支持模型的多样性,(想一想随机森林),并且,由于支持多种模型,在一些实际应用上,其预测的准确性显著高于数据模型派,并且这个效果是通过验证集/测试集证实的。

另一方面,数据模型派经常面对的维度爆炸的问题,算法模型派根本不在乎。数据模型派需要用PCA等方法降低维度,同时也丢弃了一些信息,但是算法模型派可以使用上这些被丢弃的信息。

算法模型就真的是个黑匣子吗?

作者举了三个例子说明,某些时候,因为特征的共线性,随机森林比逻辑回归更能找出关键特征,随机森林还能对特征进行聚类,以及对特征重要性给出更清晰的细节。

因此,作者在最后建议统计学家拥抱算法模型,他认为未来解决实际问题更多得依赖算法模型。(记住这可是2001年)

本人的感想

人工智能(AI)在近几年引起了很多人的关注,有些人认为只是又一个(短暂的)风口,有些人对它目前的能力有一些不切实际的幻想。

我觉得它在这两者之间,它会像互联网一样在相当长的一段时间持续的改变我们的生活,就像90年代互联网浪潮一样,那个时候也没多少人遇见到了目前的移动互联网时代。

而机器学习技术,AI的核心技术,这个源于统计学却又完全不同于传统统计学的东西,正是论文作者所说的算法模型。
作者在那个时候已经看到了机器学习技术的发展潜力,也为机器学习社区贡献了随机森林这种优秀的算法。
*据Kaggle统计,在传统数据分析领域,即非图像非自然语言等领域,随机森林是挑战者最喜欢用的算法之一。

但是我很遗憾的看到,即使在2018年,国内仍有一些学者戴着大数据/人工智能的花环,干着数据模型派的事情。

tweet_status/1074116611089387520

Mail to prof chen

我也很遗憾,现在才看到这篇论文。
但也许是因为我并没有认真的学过统计学,没有数据模型派的成见,我在学习机器学习的过程中已经形成了这样一种感觉。

就像作者试图告诉我们的,摒弃100%的可解释性,去拥抱未知