网络信用系统(四)

本来会有结语的,不过要说的好像在《伟大的读者》里面都说过了,所以这里直接给附录。

五、附录

下面列举一下推荐的新闻源,著名的VOA等媒体就不提了。

  1. 草莓周刊书签 虽然草莓周刊停了,但书签还是有更新
  2. Isaac的twitter 我曾经笑称给Isaac灌一瓶吐真剂就可以抓到中国一大半的右派,这一点都不是戏言。注意他的retweet,以及看他还follow了哪些家伙
  3. 本人的Google Reader Share 如果你喜欢看我的Blog的话,也许也会喜欢我共享的文章
  4. 河蟹上岸 站如其名,专门列举“和谐”之故事
  5. 连岳的第八大洲 我犹豫这个要不要算到VOA那种不必提的行列
  6. 人渣经济笔记 经济方面的分析,相当的有水平
  7. RSSmeme中文 Google Reader中当日被分享最多的文章,前段时间更新过后偶尔会冒出广告,但大部分情况下文章都不错

以上面这些新闻源作为起点,相信你可以建立起自己的可信新闻源。

(全文完)

伟大的读者

今天又看到了song的评论,让我知道他不会像五毛党一样扔下评论就走掉,而确实是认真的读过我的文章,认真的在研究问题。
在写《网络信用系统》之前,我没有怎么去搜集已有的文献,只是感觉没有见到关于这个问题的中文文章,因此才决定写这个东西。如果说我的目的是抛砖引玉的话,那么,目的似乎已经达到了。
订阅本站评论的读者好像不多,所以我全文转载song的评论,并且以斜体加上我的注解。

你的网络信用系统,我觉得说了两个事:
第一:
新闻源划分
”新闻源可以分为两类:自主提供新闻来源的一手新闻,和参考其他一手新闻来源的二手新闻。
而新闻的内容又分为两部分:新闻事件本身,和附加在新闻中的媒体的主观态度。 “
第二:
新闻信用评级:
新闻信用阈值:sum(一手新闻源信用度)=>用可信的二手修正
新闻源信用度:审查过去记录直接评定+根据引用关系将信用度推广。
基本上就是说网上有报料也有传言。做考证要找到报料的,看他信不信得过。信得过的人相信的人一般也信得过。
几点看法:
1.你触及了一个很重要的问题。
2.很多猛料是草根爆的。而且他们是以后暴料的主力。很多传统媒体也认同这一点,比如cnn的ireport。他们的信用度无法用历史考证。很多草根一生就报一个猛料。
3.你忽略了网上很重要的一个东西:聚合新闻的场所:wiki,著名论坛,一些rating system.很多料是因为在这些地方浮起来才得以为我们所知,而这些地方也有及其重要的鉴定真伪的功能。wiki的策略做的就很非常好,当然我们知道不是足够好。(我其实有提到过社会性媒体的)
4.对于传统媒体来说,一般一个事很少有两个以上一手爆料者,特别是国内。大家都有默契和平衡。而且相加这个运算不是很合适。比较合适的是可信概率运算:
1-p=(1-p1)(1-p2) (国内媒体多使用新华社通稿不能算多个新闻源,而且你肯定知道我对国内媒体的态度。至于可信概率运算,在数学上把可信概率设为0~1之间当然没错,不过我个人倾向于不设定它的上限)
5.你提出了一个原始的没有外界用户参与的信用系统,供个人使用。但站在开发者的角度,开发一个多用户参加的信用系统放网上更划算(software as a service),而且可以利用的信用甄别信息更多。我假使你提出这个系统的目的是要做一个支持软件/网站,因为你这个“系统”跟“浏览常识”的主要区别在于你尝试把事情量化,逻辑化。(其实我的本意就是希望能依此完成Google Reader之类阅读器的评价插件,或是Digg类站点。但是,我没有这个编程的能力。)
6.一些比较专业的相关资料,供参考:(有时间我会看)
Trusted Systems; March 1997; Scientific American Magazine; by Stefik; 4 Page(s)
TrustMe: anonymous management of trust relationships in decentralized P2P systems
Aameek Singh   Ling Liu
Coll. of Comput., Georgia Inst. of Technol., Atlanta, GA, USA;
Peer-to-Peer Computing, 2003. (P2P 2003). Proceedings. Third International Conference on Publication Date: 1-3 Sept. 2003
Reputation systems
Communications of the ACM  archive
Volume 43 ,  Issue 12  (December 2000) table of contents
Computing and using reputations for internet ratings
Electronic Commerce  archive
Proceedings of the 3rd ACM conference on Electronic Commerce table of contents
Year of Publication: 2001
Bayesian Network Trust Model in Peer-to-Peer Networks
Book Series     Lecture Notes in Computer Science
Book    Agents and Peer-to-Peer Computing
Measuring Levels of Trust
Laurie L. Coucha and Warren H. Jonesb
http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6WM0-45K13RV-D&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_version=1&_urlVersion=0&_userid=10&md5=5414de0294d46d97ad01e0a6c1dfc8c0
Towards a Generic Trust Model – Comparison of Various Trust Update Algorithms
Book Series     Lecture Notes in Computer Science
Book    Trust Management
http://en.wikipedia.org/wiki/EigenTrust
Google的page rank也是在跟这些人比较近的一个research community的工作基础上做出来的。
7. 一些实验性的系统:
http://trust.cse.ucsc.edu/
http://trust.mindswap.org/
http://www.advogato.org/article/261.html

其实我自己也曾想过在这方面写点东西,但是一直没时间。也可能就不写了,因为已经有人已经把我能做的都做了。
你思考的很多问题是好的,但是鉴于网上一般有n个以上牛人同时专业研究那个问题,你最好把问题表述的简单平实一些,这样有利于可持续性的建设性思考。并在提出自己看法前多看看已有成果,这样你才不用做重复脑力劳动。(使用那种艰涩的数学式表达的原因在上面第5条的注解已经提出)

“如果你读了The Meme Machine就会知道,Blog作为一个Meme聚合体,在本质上就是要寻求自身的复制。说简单一点,写Blog本质就是布道。况且我又不是没开评论。”
是的,没错。你想说什么是你的自由。我说我不喜欢你的腔调也是我的自由。
http://www.rongshuxia.com/channels/zj/channelz/acheng/wen5.htm
(王朔):“说到文章,你一提这问题,我脑子里就有一比:我和陈村是那种油全浮在水面上的,阿城,是那种油全撇开只留下一汪清水的。论聪明,这个不好说谁更聪明;论见识,阿城显然在我辈之上。谁像他那样十年都在世界上跑,而且现在还在跑,这在文章中就显出来了。我看去年他在《收获》开的专栏,讲常识,句句都是断根儿的道理。同时在上面开专栏写“霜天话语”的余秋雨跟他一比,就显出力绌,不过是一些世故的话,家常看法,不说也罢。这个人对活着比对写文章重视,幸亏如此,给我们留下了活着的空间。”
接触到国内很多对网络感兴趣的年青人,可惜都很热心用概念和名词把自己的脑子给填的凌乱不堪,一路高歌猛进的成为网络织成的巨大Meme Machine中没有个性的个体之一。有灵魂的人,不该满足于此啊。(如果你看到上面我对第5条的注解,也许就会稍微改变一点看法。)

我对我在上篇文章中的恶言道歉,你是一位伟大的读者。
PS:网络信用系统还有最后一节,将会是最实用的一节:附录。

网络信用系统(三)

在正文之前必然有废话。
song说我在灌输不是在讨论,如果你读了The Meme Machine就会知道,Blog作为一个Meme聚合体,在本质上就是要寻求自身的复制。说简单一点,写Blog本质就是布道。况且我又不是没开评论。
说我《网络信用系统》幼稚,对这点我完全的接受,我在(一)里面就说过,这篇文章本来就是初学者入门级的文章,你觉得幼稚,你可以反馈给我一些更深刻的内容啊。一方面说我在布道,另一方面又不肯参与,好像是我没给你机会?

和菜头最近提到在网络上甄别信息真假的难度空前提高,我仍然认为这篇文章有必要继续下去。
有意见和建议,可以在评论中提出来。
觉得实在臭不可闻,也可以退订。

三、信用系统模型

有了前文的基础,这个模型的建立非常简单。
每个新闻源都有自己的信用度,每个新闻也有对应的信用阈值。
对于某个事件来说,将所有发表了该新闻的新闻源的信用度相加,如果超过了该新闻所需的信用阈值,则该新闻判别为真。这是一个数学化的表达方法,换作日常的表达,四个字:三人成虎。
唉,三人成虎不是这么用的吧?
所以这个模型当然有修正的地方。

根据新闻源的分类,二手新闻源相互转载是不会重复累计信用度的。甚至可以说,二手新闻源自身是没有信用度的,它的信用度完全来自于它所转载的一手新闻源。
但另一方面,二手新闻源又是相当重要的,因为一个良好的二手新闻源,其实已经对一手新闻进行了甄别。而且毫不夸张的说,这种甄别相当的耗费时间。(保守的说,我每天都会花掉3个小时阅读各种新闻,然后评论和共享之。)

每个新闻也有不同的信用阈值,这点不可忽略。
举例来说,贵州瓮安市民放火烧了警察局,和深圳市民放火烧了警察局,这两条消息,需要的信用度是不一样的。我不是说深圳市民就比瓮安的要文明,我的意思是,大城市的警察比小地方的密度高,想要烧掉警察局,那还真是很不容易的一件事情。

四、信用度的建立和传递

依靠什么来判断一个新闻源是否值得信赖?这个问题和Google判别垃圾网页有着相似的地方。
传统来说,判断一个新闻源的信用度,只要从这个新闻源已经发表而且被证实为真的新闻数量/比例来看就对了。这样做显然有些麻烦,你必须回头去找每一个新闻源的历史存档,看看他们报道过什么。而且还得警惕他们可能作弊删除或修改以前的稿件。
因此有一个变通的办法,假设你已经确定一个高信用度的二手新闻源,可能是你的朋友,可能是某份网络杂志如草莓周刊。那么这个新闻源经常引用的前一个新闻源也是可信的。是不是像PageRank或是人际关系的传递呢?
依据这个传递的原则,你可以找到大量的可信新闻源,多到你信息过载。
由此可以看到,retweet在twitter的意义。

天龙八部操

今天在移动的网站看到这个东西

天龙八部操

看到那个闪着”new”的红色天龙八部操没有?
链接是一个压缩的视频,我第一反应是移动被黑了?
结果下载以后才发现是一个巨雷的东西。
推荐你们去土豆看就好了,免得伤了硬盘。

选举

Obama Victory Speech

我猜谢长廷会胜结果马英九胜了。
我猜麦肯恩会胜结果奥巴马胜了。

一对比,我发现这两次选举多么的相似。
前任政府因为经济不振受到质疑,因此改由另一党执政。
被选举出的领导人被认为是没有经验和书生气的,他们比另一党候选人承诺了一个更加美好的未来,他们都以“变化”作为重要的主题,他们都承诺他们会照顾最底层的劳动人民。

不过马英九上台后,台湾受到美国金融风暴的影响,不要说“马上就会好”了,甚至有越来越惨的趋势。
奥巴马呢?我总是很怀疑这个说了一堆很好听的话的黑男人,能不能兑现他所有的诺言,能不能让美国人民满意。

管他呢,我先下载奥巴马获胜感言的高清看了再说……

Badges for you

为感谢本站的读者一直以来对该Blogger的支持,现由本人亲自(没钱请设计师)设计徽章一枚,准备在08年中文网志年会上发放。

徽章的效果图

2008-11-04-221542

已经预订十来枚,准备送给忠诚读者。
如果你以前在本站留过言(五毛去死),或是在IM上和我说过话,或是在Twitter上和我唠过嗑。
恭喜你,如果你想要这个徽章,赶紧在这儿占个座。
虽然我不一定会按沙发板凳地板的顺序来发的说……

而本人,则是会戴上下面这个徽章,不要认错人。

2008-11-04-221507

网络信用系统(二)

我知道把一个文章分成多篇很不讨人喜欢,但是我没时间一次写完。

二、信用模型的元素

新闻源可以分为两类:自主提供新闻来源的一手新闻,和参考其他一手新闻来源的二手新闻。
而新闻的内容又分为两部分:新闻事件本身,和附加在新闻中的媒体的主观态度。

经过这样划分以后,很明显,一手新闻源基本上都是传统媒体,只有少量的Blogger(如Zuola)作为职业的公民记者可以算一手新闻源。其他大部分Blogger,作为草根媒体,都是转述和引用各种一手新闻源的消息,综合之后成为二手新闻源。

对于网络信用系统的模型来说,对于二手新闻源的主观态度其实是不看重的。虽然作者的态度会影响到你看文章的心情,但因为二手新闻源作为远处的第三者,无论态度如何,对于事实本身没有任何重要影响。
然而一手新闻源的主观态度就很关键,因为无论是文字新闻还是视频新闻,都难以100%再现整个事件,因此,作为近处观察的第二者,其主观态度影响到他的能见范围,通俗来说就是他注重什么和忽视什么,甚至,严重的说,给他了隐瞒关键事实的动机。

新闻事件本身的真实性和完整性毫无疑问在哪一种新闻源都是重要的,这个世界上存在喜欢造谣的无良媒体,传统媒体和草根媒体都有。
草根的性质本来是与造谣无关的,但是五毛党的出现严重的改变了这种局面。不得不说,五毛党作为新时期的游击队队员,在这场没有硝烟的战争中还是产生了相当明显的效果。

至于可信度以及信用阈值这种单纯从字面都能理解的概念,就直接放到下一节去解释。