社会发展的过程：一种机器学习的视角

摘要

本文提出一种类比模型，将社会发展理解为一种优化过程，并用机器学习中的损失函数、梯度、反向传播、随机梯度下降、正则化、学习率等概念进行映射。民主制度被刻画为具有制度化反馈链条的“反向传播式”优化过程；创新、偶然事件与地方试验对应“随机梯度”带来的探索能力；集中决策体制被描述为“定向但脆弱”的搜索机制，短期内可能以高学习率取得快速进展，长期则更易受反馈失真与局部最优的约束。文中讨论了指标选择的偏误（Goodhart定律）、多目标优化与帕累托前沿、制度设计中的“超参数”，并提出若干可检验命题，以提示此类比的解释力与边界。

在复杂社会中，公共决策涉及多主体、多目标与不确定性，如何在演化过程中“做得更好”是一个核心问题。机器学习（尤其是基于梯度的优化）提供了一套形式化的语言：损失函数衡量偏差，梯度指示改进方向，反向传播传递误差信号，随机梯度下降引入探索性扰动，正则化约束过拟合。虽然社会并非可完全量化与可微分的系统，但这种类比为理解反馈、纠错、探索和约束等基本机制提供了清晰的框架，有助于非专业学习者把握制度差异的长期后果。

一、概念对齐：从“损失函数”到“社会福祉函数”

1) 目标函数与损失

社会可被视为在高维状态空间中寻求较优状态。以综合性指标近似社会福祉（如人均收入、健康、教育、环境质量、社会信任等的加权），与之相反的“不满意度”可等价于机器学习中的损失函数。损失下降意味着社会状态改善。

2) 参数与数据

社会的“参数”包括法律与政策、税制与预算、产权与市场规则、教育与科研体系、基础设施、行政能力、文化规范等。训练数据对应现实发生的结果与反馈：就业与物价、公共服务质量、环境变化、技术创新、治安与司法表现，以及公民主观感受。

3) 梯度与反馈来源

梯度在此类比中是各类反馈信号的合成：市场价格、民意调查、媒体报道、学术研究与评估报告、法院判决、跨国比较数据等，这些信息共同指示“更优方向”。

4) 优化机制

反向传播被理解为制度化的误差传导链：由结果出发，经由信息渠道回流至决策中心，从而促成参数更新。随机梯度下降对应社会试验、创新、偶然冲击与地方差异带来的探索性扰动，有助于跳出局部最优。正则化对应宪政约束、权利保障、预算纪律等防止“刷指标”的制度安排。学习率即政策调整的速度与幅度，既影响收敛效率，也影响系统稳定性。

Continue reading →

中国约束互联网算法的开创性举措可能并不现实

31/08/22 ~ [BLT]FQX

确实是个过于野心勃勃的监管措施。

这一里程碑标志着监管机构首次系统性地要求互联网公司披露各自平台所用技术的信息，这些技术已经显示出根本性地改变流行文化和政治等各领域格局的能力。这也使中国政府走上一条在一些技术专家看来很少有政府能应付的道路。

公开版本的文件以简单的语言解释了特定算法使用的数据类型及其对数据的处理。其中许多公司针对其算法披露的细节少于Facebook自愿向用户披露的关于其如何在新闻源中对内容进行排名的信息。

完整的文件没有公开，据知情人士称，完整的文件里包含了对数据和算法的更多描述，包括一些被认为属于商业机密的信息。根据公开文件里阐述的网信办要求企业提供的内容，里面还包含企业对潜在安全风险的自我评估。

（略）

算法专家表示，这个尝试的一个重要问题是，在实际操作中直接监管算法是否可行。

如今大多数互联网平台算法都基于一种被称为机器学习的技术，这种技术借助庞大的数据库来学习预测用户行为，从而实现定向投放广告等决策的自动化。与包含工程师编码的明确规则的传统算法不同，大多数机器学习系统都是黑匣子，很难破译其逻辑或预测其使用的结果。

（略）

数据随着每次用户发帖和互动而变化，据O’Neil说，即使能够完全掌握数据，科技公司的工程师仍难以精确调整其系统的行为。她说，像推广更多的宣传这样有针对性的改变是可行的，“但实际上不可能控制一个推荐引擎的整体行为”。

技术分析人士和业内人士还质疑网信办是否具备技术专长来执行自己的规定。网信办最初是一个宣传部门。

知情人士说，在中国这部新规生效后不久，字节跳动负责政府关系的员工和算法工程师与网信办的官员会面，进一步解释说明他们提交的文件。知情人士说，在其中一次会面中，网信办的官员表现得对技术细节知之甚少，公司代表不得不使用比喻加上简单化的语言来解释推荐算法如何工作。

Source: 中国约束互联网算法的开创性举措可能并不现实 – 华尔街日报

Workera 报告

19/01/20 ~ [BLT]FQX

Workera 报告

Workera，作为一个deeplearning.ai旗下的公司，提供了一份关于AI行业中不同岗位的技能和工具的报告，英文原版在此下载。对于想要进入AI领域的局外人了解这些岗位区别，规划职业发展有很大帮助。

赚钱机器：一位匿名的算法交易者访谈

9/09/1910/09/19 ~ [BLT]FQX

一位内部人士解释了算法如何重塑金融

Logic Magazine

照片：Aditya Vyas/Unsplash

原文作者： Logic Magazine的编辑
翻译：中国特色。NET

近年来，我们越来越多了解到算法在我们生活中的作用。算法有助于决定人们是否获得工作或贷款，他们阅读的新闻（无论真假），甚至是他们的监禁刑期。

但算法也在重塑金融世界，并且产生了极为深远的影响。在金融化资本主义时代，金融在全球财富和工作组织中发挥着重要作用 – 这意味着每个人都会感受到行业转型的影响。

我们与一位算法交易员坐下来了解算法如何重塑金融行业，以及此事的重要性。我们谈到了算法金融实际上是什么，谁是可能会出现在新的大数据淘金热中的赢家和输家，以及为什么我们可能会进入一个非理性的机器人繁荣时代。

让我们先谈谈你的背景。你是如何进入金融业的？

我一直对经济学感兴趣并且具有量化的背景。任何在我学习的专业上取得成功的人最终都会非常靠近量化。毕业后，当我试图找到一个收入较高的职业，同时也允许我学以致用时，我开始关注金融业。我最终在一家投资银行的交易大厅找到工作。

大多数大型银行至少有一个，通常是几个交易大厅。这是一个实际的楼层，大约相当于一个足球场的大小，充满了与寻求交易股票，债券或期货或融资的大型投资者做生意的交易员。银行通过收取佣金或“做市”来赚钱 – 在买卖双方之间进行中介，在等待双方配对的同时用自己的钱来承担一些风险。

当我想到一个交易大厅时，我想到一群人在电话里大喊大叫，类似于”华尔街之狼”-的样子。

现在人们不再对着电话大喊大叫了。交易大厅随着时间的推移已经变化了很多。它过去更多是关注全球市场的实时交易流。但现在则是越来越多的关于如何实现这种交易流，以及允许人们从该流程中赚钱的专利。

我喜欢它。交易大厅仍然事实上是全球市场的许多协议和交易发生的地方。这令人兴奋。如果你想用好你的智力，你会如鱼得水。你不只是坐在某个地方的办公桌前，或者试图通过一些随意的分析来说服巨型企业来支持你 – 这可能更像是一场推销游戏而不是一场智力锻炼。

不久，随着时间的推移，我调到金融行业的投资策略部门。我开始帮助大型资产所有者 – 养老基金和主权财富基金等实体 – 将资金分配给系统化的投资项目。我调去这里，因为这是大多数金融企业在2008年金融危机之后开始重点发展的地方，因为每个人都意识到旧的投资方式并没有真正按照他们的意愿去做。

投资组合依然暴露于相同的潜在风险。但技术现在使投资者能够更好地了解他们的风险，并更直接地控制他们的投资。转变的一部分是，当人类决策没有增加价值的时候就不用它。

Continue reading →

If it’s interpretable it’s pretty much useless.

11/06/19 ~ [BLT]FQX

做机器学习的时候要想清楚自己的目标是什么。是获得模型，还是获得预测能力。
前者是统计学家，后者是数据科学家。

If your model doesn’t have the same performances on the training set and in the live environment is not a matter of trust, but a problem either in your dataset or in your testing framework. Trust is built on performances and performances on metrics: design the ones that work for your problem and stick to them. If you’re looking for trust in interpretability you’re just asking to the model questions you already know the answers, and you want them to be provided in the exact way you are expecting them. Do you need machine learning for building such a system? The need of ML arises when you know questions and answers but you don’t know an easy way to get from one to the others. We need a technique to fake the process, and it might be that an easy explanation for it doesn’t even exist.

（略）

I’m not a fanboy, and the more I know about machine learning, trying to build some real products out of it, the most I loose interest in this kind of discussions. Probably, the only useful thing about ML is in its ability to replicate processes that aren’t easy to describe explicitly: you just need questions and answers, the learning algorithms will do the rest. Asking for interpretability as a condition for real world usages is undermining the foundations of the whole field. If the trained model has good performances and it’s not interpretable we are probably on the right track; if it’s interpretable (and the explanation is understandable and replicable) why loosing weeks and GPU power? Just write some if-else clauses.

Source: If it’s interpretable it’s pretty much useless. – Massimo Belloni – Medium

机器学习项目检查清单

27/05/1927/05/19 ~ [BLT]FQX

Aurélien Géron 所著《Scikit-Learn与TensorFlow机器学习实用指南》附录有份机器学习项目的检查清单，非常实用。
故翻译如下。

描述问题并观察大局（the big picture）

用商业术语描述目标。
你的解决方案要如何运用？
目前的解决方案或变通方法是什么？
你要如何表述这个问题（监督/非监督学习，在线/离线学习等）？
怎样衡量性能？
性能指标与商业目标一致吗？
达到商业目标的最低性能是什么？
有没有类似的问题？你有可重复使用的经验或工具吗？
是否有专业人士的支持？
你如何手工解决这个问题？
列出你（或其他人）到目前为止的假设。
尽量核实假设。

Continue reading →

精准镇压：新科技将让独裁者如虎添翼

19/04/19 ~ [BLT]FQX

毫无疑问，1984所描述的社会正在到来。

多年来，中国政府一直在花钱雇佣所谓的“五毛党”（成千上万名假装回贴的水军）在网上发布支持政府的讯息，转移网上批评者的注意力。未来，机器人将替代这些“政府雇佣军”的工作。

这些越来越狡猾的机器人将与其他新工具一起工作，方便独裁政权传播虚假信息。这些新工具包括“deep fakes”——无法与真实音频、视频或图像区分开来的伪造音像。音频伪造品目前已经非常完善，可以骗过很多听众： Lyrebird公司称自己可以做出“世界上最逼真的人造声音”。Lyrebird等多家公司的语音合成系统，仅需一分钟的原声录音就能生成听上去与讲话者无差别的音频。

很快，视频技术也能发展到这个程度。在YouTube上，我们已经看到了男演员史蒂夫·布什密(Steve Buscemi)和女演员珍妮弗·劳伦斯(Jennifer Lawrence)令人不太舒服的合成脸，也看到了中国公司科大讯飞(iFlytek)发布的一段不甚完美的视频，视频中特朗普(Donald Trump)和奥巴马(Barack Obama)都在讲着流利的普通话。这样的伪造视频将很快逼真到令人不寒而栗的程度。达特茅斯大学(Dartmouth)的计算机科学教授Hany Farid认为，防守者在这种形势下将“处于劣势”。“开发技术来操纵内容的人数可能是监测虚假内容的人数的100到1,000倍。”今年1月，他对皮尤研究中心(Pew)表示：“突然之间，我们就能说什么都是假的。那我们还能去相信什么吗？”

Source: 精准镇压：新科技将让独裁者如虎添翼 – 华尔街日报

统计建模：两种文化

2/03/198/04/19 ~ [BLT]FQX

标题其实是 Leo Breiman 于2001年在统计科学杂志发表的一篇论文，而我今天才在机器学习课程的阅读清单里看到它。

我一看到这篇文章就非常喜欢，接下来让我跟你介绍一下这篇文章的主要内容和我的一些感想。

哪两种文化？

作者认为当时统计学有两种文化，他称之为数据模型派（Data Modeling）和算法模型派（Algorithmic Modeling）。其中统计学家有98%是数据模型派的。

数据模型派的主要特点，就是论文先假设统计数据符合某种分布，一般来说是线性回归，然后建模，算显著性水平，得到结论。
数据模型派，更关心的是模型，和模型的可解释性。

而那2%的算法模型派，也假设统计数据符合某种分布，但并不直接对这种分布进行建模，而是通过SVM、分支树等办法（随机森林正是该论文作者发明的）获得模型，并用验证集/测试集确定该模型的预测能力。他们关心的是预测能力，而不是模型的可解释性。

数据模型派有什么问题？

因为数据模型派预设统计数据的分布模型，并且为了可解释性多用线性模型或逻辑回归，用R²作为显著性水平的衡量工具。

但问题在于，即使模型通过了显著性水平测试，对于增加了多项式的线性模型，统计数据也未必真的符合线性回归模型。
David Freedman 和 William Cleveland 等人已经发现了这个问题。

换句话讲，数据模型派的统计学家只是把一个模型套在了数据上，然后说这个模型的显著性水平测试已经通过了，blablabla。
如果增加多项式的话，同一组数据可以回归得到不同的模型，因此也可以得到完全不同的结论。
那么这些统计学家怎么确定哪个模型才是正确的呢？它们都通过了显著性水平测试啊。

对数据模型派更糟糕的是，在应用到复杂系统（例如未知的化学或生物过程）的数据上时，假设数据符合某个模型就更为可笑了。
这一派统计学家为此加上了贝叶斯、蒙特卡洛等方法，然而，如此一来数据模型派的可解释基础就不存在了。

该算法模型派出场了！

算法模型派并不去猜测统计数据的分布模型，因此对于复杂系统的应用没有数据模型派的那个问题。

更好的是，算法模型派支持模型的多样性，（想一想随机森林），并且，由于支持多种模型，在一些实际应用上，其预测的准确性显著高于数据模型派，并且这个效果是通过验证集/测试集证实的。

另一方面，数据模型派经常面对的维度爆炸的问题，算法模型派根本不在乎。数据模型派需要用PCA等方法降低维度，同时也丢弃了一些信息，但是算法模型派可以使用上这些被丢弃的信息。

算法模型就真的是个黑匣子吗？

作者举了三个例子说明，某些时候，因为特征的共线性，随机森林比逻辑回归更能找出关键特征，随机森林还能对特征进行聚类，以及对特征重要性给出更清晰的细节。

因此，作者在最后建议统计学家拥抱算法模型，他认为未来解决实际问题更多得依赖算法模型。（记住这可是2001年）

本人的感想

人工智能（AI）在近几年引起了很多人的关注，有些人认为只是又一个（短暂的）风口，有些人对它目前的能力有一些不切实际的幻想。

我觉得它在这两者之间，它会像互联网一样在相当长的一段时间持续的改变我们的生活，就像90年代互联网浪潮一样，那个时候也没多少人遇见到了目前的移动互联网时代。

而机器学习技术，AI的核心技术，这个源于统计学却又完全不同于传统统计学的东西，正是论文作者所说的算法模型。
作者在那个时候已经看到了机器学习技术的发展潜力，也为机器学习社区贡献了随机森林这种优秀的算法。
*据Kaggle统计，在传统数据分析领域，即非图像非自然语言等领域，随机森林是挑战者最喜欢用的算法之一。

但是我很遗憾的看到，即使在2018年，国内仍有一些学者戴着大数据/人工智能的花环，干着数据模型派的事情。

Mail to prof chen

我也很遗憾，现在才看到这篇论文。
但也许是因为我并没有认真的学过统计学，没有数据模型派的成见，我在学习机器学习的过程中已经形成了这样一种感觉。

就像作者试图告诉我们的，摒弃100%的可解释性，去拥抱未知。