今天昨天夜里去了年会会场,给大家带来一些人物照片。
还有一段视频……不知道什么时候能被Youtube处理完……
本来会有结语的,不过要说的好像在《伟大的读者》里面都说过了,所以这里直接给附录。
五、附录
下面列举一下推荐的新闻源,著名的VOA等媒体就不提了。
以上面这些新闻源作为起点,相信你可以建立起自己的可信新闻源。
(全文完)
今天又看到了song的评论,让我知道他不会像五毛党一样扔下评论就走掉,而确实是认真的读过我的文章,认真的在研究问题。
在写《网络信用系统》之前,我没有怎么去搜集已有的文献,只是感觉没有见到关于这个问题的中文文章,因此才决定写这个东西。如果说我的目的是抛砖引玉的话,那么,目的似乎已经达到了。
订阅本站评论的读者好像不多,所以我全文转载song的评论,并且以斜体加上我的注解。
你的网络信用系统,我觉得说了两个事:
第一:
新闻源划分
”新闻源可以分为两类:自主提供新闻来源的一手新闻,和参考其他一手新闻来源的二手新闻。
而新闻的内容又分为两部分:新闻事件本身,和附加在新闻中的媒体的主观态度。 “
第二:
新闻信用评级:
新闻信用阈值:sum(一手新闻源信用度)=>用可信的二手修正
新闻源信用度:审查过去记录直接评定+根据引用关系将信用度推广。
基本上就是说网上有报料也有传言。做考证要找到报料的,看他信不信得过。信得过的人相信的人一般也信得过。
几点看法:
1.你触及了一个很重要的问题。
2.很多猛料是草根爆的。而且他们是以后暴料的主力。很多传统媒体也认同这一点,比如cnn的ireport。他们的信用度无法用历史考证。很多草根一生就报一个猛料。
3.你忽略了网上很重要的一个东西:聚合新闻的场所:wiki,著名论坛,一些rating system.很多料是因为在这些地方浮起来才得以为我们所知,而这些地方也有及其重要的鉴定真伪的功能。wiki的策略做的就很非常好,当然我们知道不是足够好。(我其实有提到过社会性媒体的)
4.对于传统媒体来说,一般一个事很少有两个以上一手爆料者,特别是国内。大家都有默契和平衡。而且相加这个运算不是很合适。比较合适的是可信概率运算:
1-p=(1-p1)(1-p2) (国内媒体多使用新华社通稿不能算多个新闻源,而且你肯定知道我对国内媒体的态度。至于可信概率运算,在数学上把可信概率设为0~1之间当然没错,不过我个人倾向于不设定它的上限)
5.你提出了一个原始的没有外界用户参与的信用系统,供个人使用。但站在开发者的角度,开发一个多用户参加的信用系统放网上更划算(software as a service),而且可以利用的信用甄别信息更多。我假使你提出这个系统的目的是要做一个支持软件/网站,因为你这个“系统”跟“浏览常识”的主要区别在于你尝试把事情量化,逻辑化。(其实我的本意就是希望能依此完成Google Reader之类阅读器的评价插件,或是Digg类站点。但是,我没有这个编程的能力。)
6.一些比较专业的相关资料,供参考:(有时间我会看)
Trusted Systems; March 1997; Scientific American Magazine; by Stefik; 4 Page(s)
TrustMe: anonymous management of trust relationships in decentralized P2P systems
Aameek Singh Ling Liu
Coll. of Comput., Georgia Inst. of Technol., Atlanta, GA, USA;
Peer-to-Peer Computing, 2003. (P2P 2003). Proceedings. Third International Conference on Publication Date: 1-3 Sept. 2003
Reputation systems
Communications of the ACM archive
Volume 43 , Issue 12 (December 2000) table of contents
Computing and using reputations for internet ratings
Electronic Commerce archive
Proceedings of the 3rd ACM conference on Electronic Commerce table of contents
Year of Publication: 2001
Bayesian Network Trust Model in Peer-to-Peer Networks
Book Series Lecture Notes in Computer Science
Book Agents and Peer-to-Peer Computing
Measuring Levels of Trust
Laurie L. Coucha and Warren H. Jonesb
http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6WM0-45K13RV-D&_user=10&_rdoc=1&_fmt=&_orig=search&_sort=d&view=c&_version=1&_urlVersion=0&_userid=10&md5=5414de0294d46d97ad01e0a6c1dfc8c0
Towards a Generic Trust Model – Comparison of Various Trust Update Algorithms
Book Series Lecture Notes in Computer Science
Book Trust Management
http://en.wikipedia.org/wiki/EigenTrust
Google的page rank也是在跟这些人比较近的一个research community的工作基础上做出来的。
7. 一些实验性的系统:
http://trust.cse.ucsc.edu/
http://trust.mindswap.org/
http://www.advogato.org/article/261.html其实我自己也曾想过在这方面写点东西,但是一直没时间。也可能就不写了,因为已经有人已经把我能做的都做了。
你思考的很多问题是好的,但是鉴于网上一般有n个以上牛人同时专业研究那个问题,你最好把问题表述的简单平实一些,这样有利于可持续性的建设性思考。并在提出自己看法前多看看已有成果,这样你才不用做重复脑力劳动。(使用那种艰涩的数学式表达的原因在上面第5条的注解已经提出)“如果你读了The Meme Machine就会知道,Blog作为一个Meme聚合体,在本质上就是要寻求自身的复制。说简单一点,写Blog本质就是布道。况且我又不是没开评论。”
是的,没错。你想说什么是你的自由。我说我不喜欢你的腔调也是我的自由。
http://www.rongshuxia.com/channels/zj/channelz/acheng/wen5.htm
(王朔):“说到文章,你一提这问题,我脑子里就有一比:我和陈村是那种油全浮在水面上的,阿城,是那种油全撇开只留下一汪清水的。论聪明,这个不好说谁更聪明;论见识,阿城显然在我辈之上。谁像他那样十年都在世界上跑,而且现在还在跑,这在文章中就显出来了。我看去年他在《收获》开的专栏,讲常识,句句都是断根儿的道理。同时在上面开专栏写“霜天话语”的余秋雨跟他一比,就显出力绌,不过是一些世故的话,家常看法,不说也罢。这个人对活着比对写文章重视,幸亏如此,给我们留下了活着的空间。”
接触到国内很多对网络感兴趣的年青人,可惜都很热心用概念和名词把自己的脑子给填的凌乱不堪,一路高歌猛进的成为网络织成的巨大Meme Machine中没有个性的个体之一。有灵魂的人,不该满足于此啊。(如果你看到上面我对第5条的注解,也许就会稍微改变一点看法。)
我对我在上篇文章中的恶言道歉,你是一位伟大的读者。
PS:网络信用系统还有最后一节,将会是最实用的一节:附录。
在正文之前必然有废话。
song说我在灌输不是在讨论,如果你读了The Meme Machine就会知道,Blog作为一个Meme聚合体,在本质上就是要寻求自身的复制。说简单一点,写Blog本质就是布道。况且我又不是没开评论。
说我《网络信用系统》幼稚,对这点我完全的接受,我在(一)里面就说过,这篇文章本来就是初学者入门级的文章,你觉得幼稚,你可以反馈给我一些更深刻的内容啊。一方面说我在布道,另一方面又不肯参与,好像是我没给你机会?
和菜头最近提到在网络上甄别信息真假的难度空前提高,我仍然认为这篇文章有必要继续下去。
有意见和建议,可以在评论中提出来。
觉得实在臭不可闻,也可以退订。
三、信用系统模型
有了前文的基础,这个模型的建立非常简单。
每个新闻源都有自己的信用度,每个新闻也有对应的信用阈值。
对于某个事件来说,将所有发表了该新闻的新闻源的信用度相加,如果超过了该新闻所需的信用阈值,则该新闻判别为真。这是一个数学化的表达方法,换作日常的表达,四个字:三人成虎。
唉,三人成虎不是这么用的吧?
所以这个模型当然有修正的地方。
根据新闻源的分类,二手新闻源相互转载是不会重复累计信用度的。甚至可以说,二手新闻源自身是没有信用度的,它的信用度完全来自于它所转载的一手新闻源。
但另一方面,二手新闻源又是相当重要的,因为一个良好的二手新闻源,其实已经对一手新闻进行了甄别。而且毫不夸张的说,这种甄别相当的耗费时间。(保守的说,我每天都会花掉3个小时阅读各种新闻,然后评论和共享之。)
每个新闻也有不同的信用阈值,这点不可忽略。
举例来说,贵州瓮安市民放火烧了警察局,和深圳市民放火烧了警察局,这两条消息,需要的信用度是不一样的。我不是说深圳市民就比瓮安的要文明,我的意思是,大城市的警察比小地方的密度高,想要烧掉警察局,那还真是很不容易的一件事情。
四、信用度的建立和传递
依靠什么来判断一个新闻源是否值得信赖?这个问题和Google判别垃圾网页有着相似的地方。
传统来说,判断一个新闻源的信用度,只要从这个新闻源已经发表而且被证实为真的新闻数量/比例来看就对了。这样做显然有些麻烦,你必须回头去找每一个新闻源的历史存档,看看他们报道过什么。而且还得警惕他们可能作弊删除或修改以前的稿件。
因此有一个变通的办法,假设你已经确定一个高信用度的二手新闻源,可能是你的朋友,可能是某份网络杂志如草莓周刊。那么这个新闻源经常引用的前一个新闻源也是可信的。是不是像PageRank或是人际关系的传递呢?
依据这个传递的原则,你可以找到大量的可信新闻源,多到你信息过载。
由此可以看到,retweet在twitter的意义。
今天在移动的网站看到这个东西
看到那个闪着”new”的红色天龙八部操没有?
链接是一个压缩的视频,我第一反应是移动被黑了?
结果下载以后才发现是一个巨雷的东西。
推荐你们去土豆看就好了,免得伤了硬盘。