精准镇压:新科技将让独裁者如虎添翼

毫无疑问,1984所描述的社会正在到来。

多年来,中国政府一直在花钱雇佣所谓的“五毛党”(成千上万名假装回贴的水军)在网上发布支持政府的讯息,转移网上批评者的注意力。未来,机器人将替代这些“政府雇佣军”的工作。

这些越来越狡猾的机器人将与其他新工具一起工作,方便独裁政权传播虚假信息。这些新工具包括“deep fakes”——无法与真实音频、视频或图像区分开来的伪造音像。音频伪造品目前已经非常完善,可以骗过很多听众: Lyrebird公司称自己可以做出“世界上最逼真的人造声音”。Lyrebird等多家公司的语音合成系统,仅需一分钟的原声录音就能生成听上去与讲话者无差别的音频。

很快,视频技术也能发展到这个程度。在YouTube上,我们已经看到了男演员史蒂夫·布什密(Steve Buscemi)和女演员珍妮弗·劳伦斯(Jennifer Lawrence)令人不太舒服的合成脸,也看到了中国公司科大讯飞(iFlytek)发布的一段不甚完美的视频,视频中特朗普(Donald Trump)和奥巴马(Barack Obama)都在讲着流利的普通话。这样的伪造视频将很快逼真到令人不寒而栗的程度。达特茅斯大学(Dartmouth)的计算机科学教授Hany Farid认为,防守者在这种形势下将“处于劣势”。“开发技术来操纵内容的人数可能是监测虚假内容的人数的100到1,000倍。”今年1月,他对皮尤研究中心(Pew)表示:“突然之间,我们就能说什么都是假的。那我们还能去相信什么吗?”

Source: 精准镇压:新科技将让独裁者如虎添翼 – 华尔街日报

统计建模:两种文化

标题其实是 Leo Breiman 于2001年在统计科学杂志发表的一篇论文,而我今天才在机器学习课程的阅读清单里看到它。

我一看到这篇文章就非常喜欢,接下来让我跟你介绍一下这篇文章的主要内容和我的一些感想。

哪两种文化?

作者认为当时统计学有两种文化,他称之为数据模型派(Data Modeling)和算法模型派(Algorithmic Modeling)。其中统计学家有98%是数据模型派的。

数据模型派的主要特点,就是论文先假设统计数据符合某种分布,一般来说是线性回归,然后建模,算显著性水平,得到结论。
数据模型派,更关心的是模型,和模型的可解释性。

而那2%的算法模型派,也假设统计数据符合某种分布,但并不直接对这种分布进行建模,而是通过SVM、分支树等办法(随机森林正是该论文作者发明的)获得模型,并用验证集/测试集确定该模型的预测能力。他们关心的是预测能力,而不是模型的可解释性。

数据模型派有什么问题?

因为数据模型派预设统计数据的分布模型,并且为了可解释性多用线性模型或逻辑回归,用R2作为显著性水平的衡量工具。

但问题在于,即使模型通过了显著性水平测试,对于增加了多项式的线性模型,统计数据也未必真的符合线性回归模型。
David Freedman 和 William Cleveland 等人已经发现了这个问题。

换句话讲,数据模型派的统计学家只是把一个模型套在了数据上,然后说这个模型的显著性水平测试已经通过了,blablabla。
如果增加多项式的话,同一组数据可以回归得到不同的模型,因此也可以得到完全不同的结论。
那么这些统计学家怎么确定哪个模型才是正确的呢?它们都通过了显著性水平测试啊。

对数据模型派更糟糕的是,在应用到复杂系统(例如未知的化学或生物过程)的数据上时,假设数据符合某个模型就更为可笑了。
这一派统计学家为此加上了贝叶斯、蒙特卡洛等方法,然而,如此一来数据模型派的可解释基础就不存在了。

该算法模型派出场了!

算法模型派并不去猜测统计数据的分布模型,因此对于复杂系统的应用没有数据模型派的那个问题。

更好的是,算法模型派支持模型的多样性,(想一想随机森林),并且,由于支持多种模型,在一些实际应用上,其预测的准确性显著高于数据模型派,并且这个效果是通过验证集/测试集证实的。

另一方面,数据模型派经常面对的维度爆炸的问题,算法模型派根本不在乎。数据模型派需要用PCA等方法降低维度,同时也丢弃了一些信息,但是算法模型派可以使用上这些被丢弃的信息。

算法模型就真的是个黑匣子吗?

作者举了三个例子说明,某些时候,因为特征的共线性,随机森林比逻辑回归更能找出关键特征,随机森林还能对特征进行聚类,以及对特征重要性给出更清晰的细节。

因此,作者在最后建议统计学家拥抱算法模型,他认为未来解决实际问题更多得依赖算法模型。(记住这可是2001年)

本人的感想

人工智能(AI)在近几年引起了很多人的关注,有些人认为只是又一个(短暂的)风口,有些人对它目前的能力有一些不切实际的幻想。

我觉得它在这两者之间,它会像互联网一样在相当长的一段时间持续的改变我们的生活,就像90年代互联网浪潮一样,那个时候也没多少人遇见到了目前的移动互联网时代。

而机器学习技术,AI的核心技术,这个源于统计学却又完全不同于传统统计学的东西,正是论文作者所说的算法模型。
作者在那个时候已经看到了机器学习技术的发展潜力,也为机器学习社区贡献了随机森林这种优秀的算法。
*据Kaggle统计,在传统数据分析领域,即非图像非自然语言等领域,随机森林是挑战者最喜欢用的算法之一。

但是我很遗憾的看到,即使在2018年,国内仍有一些学者戴着大数据/人工智能的花环,干着数据模型派的事情。

tweet_status/1074116611089387520

Mail to prof chen

我也很遗憾,现在才看到这篇论文。
但也许是因为我并没有认真的学过统计学,没有数据模型派的成见,我在学习机器学习的过程中已经形成了这样一种感觉。

就像作者试图告诉我们的,摒弃100%的可解释性,去拥抱未知

阿里研发AI芯片

这个时候放这个消息真的不是凑热点拉股价吗?

美国向中兴发出禁售令后,中国本土芯片研发被寄予厚望。4月19日阿里巴巴集团宣布,公司研发部门达摩院正研发一款神经网络芯片“Ali-NPU”,该芯片将运用于图像视频分析、机器学习等AI推理计算。阿里方面称该芯片的性价比将是目前同类产品的40倍。

Source: AI·硬件|阿里研发AI芯片 全球互联网公司纷纷布局AI底层硬件_公司频道_财新网

关于永生

突然有一个很有趣的想法。

目前的机器学习(例如DeepMind)其实是造了一个黑盒子,对输入信号有特定的输出结果,关于其中的决策过程,其实人们了解的并不多,即并不能还原每一次输出的复杂的决策过程。

人脑其实也是个黑盒子。这一点都不奇怪,DeepMind就是按照人脑工作原理设计出来的。

那比如,我们现在有一个缸中大脑,然后有一个AI完整模拟它的决策,这个AI是不是成为了这个大脑的数码复制品。

换句话说,AI理论上是可以复制人脑思维的。之所以没有成功,除了计算能力,当然还有复制的精确程度的问题。

我知道肯定有人会说人脑有多少神经元,多少凸触连接,也许人的一辈子时间都不够复制。然而,考虑到围棋存在更多种可能性也被简化为现有的AI都能处理的问题,我觉得也许我这个想法并不是痴人说梦。

Google 使用 DeepMind 节约制冷电力

DeepMind下围棋感觉一点用都没有? Naive,DeepMind 创建了自己的围棋流派,拓展了棋手对围棋的认知。
调节制冷系统这个事情也体现出了 DeepMind 无人能及的统筹复杂事物的能力。 
同理,DeepMind 用于城市道路拥堵的预防应该也会有很好的效果。 

我比较好奇的是,人类传统擅长的领域,比如会计/审计,是不是也可以让 DeepMind 试试? 

Google Cuts Its Giant Electricity Bill With DeepMind-Powered AI – Bloomberg: “In recent months, the Alphabet Inc. unit put a DeepMind AI system in control of parts of its data centers to reduce power consumption by manipulating computer servers and related equipment like cooling systems. It uses a similar technique to DeepMind software that taught itself to play Atari video games, Hassabis said in an interview at a recent AI conference in New York. The system cut power usage in the data centers by several percentage points, ‘which is a huge saving in terms of cost but, also, great for the environment,’ he said.”