Author Archives: chengdazhi

信息量与信息价值

信息量与信息价值

最近读了《信息简史》一书,很有收获,刷新了信息量和信息价值这两个概念的理解。

读这本书的原因

读这本书的原因说起来有两点:

第一是在读吴军老师的《数学之美》时接触到了信息论的相关概念,顿时感觉自己虽然身处信息时代,对于信息这个概念还真的没有一个清晰的认识。前些时参加李笑来老师的live,他说到:现在信息爆炸,爆炸的是垃圾。我虽然并不认同这种说法(数据的地位的确空前的高),但他的说法的确引出了一个问题,即哪些信息是有价值的?

第二是最近学习机器学习时学到了降维算法,所谓降维,就是说我们在描述物品时,所用的特征不全是必须的,我们可以通过去掉这些非必需特征来降低存储空间,加快计算速度。简单举几个例子:1. 对于奔驰轿车,是不需要统计轮子数的,因为所有的奔驰轿车都是4个轮子,这是最基本的情况,类似的情况有:奔驰轿车车场以厘米和米为单位,这两个特征本身就是一个,去掉任何一个没有任何影响。2. 对于北京西二旗的房子,发现卧室数基本可以由房子面积推算出,比如a = 0.02S + 1(a是卧室数,S是房子面积,这个叫线性关系),如果计算结果与真实数据偏差很小,那么去掉卧室数这个特征对于结果影响不大。这种情况是从二维降到一维,类似的还可以从三维降到二维,从n维降到m维。但在此时问题就出现了,新的m个特征很可能是根据旧的特征计算出来的,与原来的n个特征不同,而计算公式是由机器学习算法决定的,我们很难知道新的特征的具体意义。换言之,我们知道原先的数据中有一部分是多余的,但哪些是多余的我们不知道,我们只知道它所实际包含的信息量要小于直接呈现给我们的信息量,而真正包含的信息的意义是什么我们却不知道。

读书后的收获

读完这本书主要有两点收获:

一、信息量与信息含义无关

《信息简史》里信息论一章中讲到:信息量这个概念本身就与信息承载的意义无关。比如,明天北京是否下雨是一个true/false问题,我明天是否会在九点前起床也是一个true/false问题,虽然两者的含义完全不同,但信息量是一样大的。

这个概念的根源在于信息的意义,信息的意义就在于消除不确定性,或者说,信息就是消除不确定性的单元。我没有系统的学习过信息论,不敢往下乱说,我的理解是:一件事情的不确定性越大,那么确定它所需要的信息量也就越大。北京是否会下雨这个问题只有两种可能,那么其信息量就是一比特(前提是两种可能可能性均等,具体参见香农信息论),而对于明天我写下的第一个英文字母是什么这个问题,有26种可能,其答案的信息量就要大于北京下雨的问题。

这种剥离意义的思考方式有些违背直觉,举两个例子:1. 真命题与正相反的伪命题所含信息量是一样大的,虽然一个是对的,一个是错的。2. 一句正常的英语比由随机字母组成的等长句信息量要小,原因在于英语有冗余,比如字母q后面99%是u,也就是说,当看到字母q后面有一个u时,字母u几乎不携带信息。很难想象一句头撞键盘写出的话比精心写出的句子信息量大。

二、信息价值体现在获取成本

经过思考我发现,这里真正困扰我的是信息量与信息价值这两个概念的关系。之前我一直将这两个概念等同了,以为价值越大信息量就越大。分清这两个概念的区别后我才豁然开朗。但这又带来一个问题,我去看一本全是随机字母的书对我能有什么好处呢?换言之,什么样的信息能对我有价值?其价值又如何衡量?

《信息简史》里的观点是:信息的价值体现在获取该信息的成本。如果一个人告诉我明天的天气信息,那么这则信息对我的价值等同于我上网查天气的成本。

读到这个观点我豁然开朗,与之前有关信息价值的一系列观点都联合上了。比如信息对于不同的人价值是不一样的,这是因为不同的人获取信息的成本不同。再比如一则信息知道的人越多其价值就越低,这是因为知道的人越多,我去询问并得知的成本也就越低。

结语

总结我的两点收获:1. 信息量由信息能消除的不确定性度量,与信息携带的意义无关。2. 信息对人的价值在于获取成本。以上是我的主要收获,读完本书还有一些其他收获,比如对于语言的使用方式如何反过来塑造人的说法方式,再比如信息革命带给人们的是一种新的思维方式。

由于我是带着问题去读书,没有完全消化书中的内容,不过对我理解信息是什么很有帮助,推荐阅读《信息简史》。