博文

课堂点名和最大熵原理精选

已有 7359 次阅读 2014-4-8 07:39 |系统分类:教学心得|关键词:学者| 点名, 最大熵

先说课堂点名的必要性。对于一个课讲得好的老师来说，似乎点名不点名都很有道理。不过楼主根据自己一边当学生一边当助教的感觉是，至少在本科课堂上，点名还是有必要的。

说到旷课的原因，至少有以下两种：

1. 理工科的课程，往往都比较抽象。总有一部分人陷入听不懂，不感兴趣，不想上课，更听不懂这样的怪圈。

2. 另一种恰恰相反，有些人觉得课堂内容似乎不难，反正自己看看书也就会了，今天早上实在起不来了，不去就不去了。（我大一大二经常犯这种二，线性代数期末远低于平均分，然而它却是我学过的最重要的课，还没有之一。）

我个人感觉，我在概率习题课上就算讲的口吐莲花，跟说单口相声一样，他们也不一定来。说白了，我讲的不是历史，也没那么多小故事来逗闷子。伯努利们的故事挺多，可也出场不了几次。我就算如同新东方老师一般能扯，概率论就是概率论，要学明白就是要费脑子。其他那些信号系统通信原理之类更难的课，不点名上座率更低呀。当然当然，不喜欢点名的老师也有道理，强扭的瓜不甜。

言归正传，我觉得因为这两种原因旷课的同学，都需要一个强制机制帮助他们克服惰性。点名就不错。一个紧接着的问题就是，点名特别费时间，不可能每次都点，那怎么样来优化点名的策略呢？宽泛的说，我们希望用更少的点名次数来达到尽量多的威慑力。

我们来比较一下两种点名方式：

A. 随心情来，或者挑人少的时候点名。

B. 每次课都带个骰子，扔之，扔到4以上就点名。

我个人采用的是第二种办法，不过我们是做随堂测验，就一个题，我课前打印好，下课前五分钟发，五分钟后收卷。假设一学期有18次课，采用策略A，点名6次（为了比较，假设两种策略付出代价一样）。从学生角度考虑（我有经验，上过好多年学了），上周刚点过名，这周点名几率应该不大吧，那就不去啦。何也？因为每次点名与否是相关的，我可以根据点名的历史来推断今天会不会点名，我也可以根据上课同学发给我短信知道今天上座率，上座率高我就直接去网吧了。

再看策略B，每次点名都是独立的，场外信息完全帮不上忙，点名的历史记录也不能提供信息。我是学生，我绝对怕呀。不过策略B的问题是有可能点名次数会超过6次。长远来看，平均值就是6次，大数定律嘛。

语言分析结束，后面分析一下硬币另一面的数学。学生眼中的点名，是一个伯努利随机向量：（A1, A2,..., A18）。其中每一个元素都是一个0或1的随机变量（标量）。对于这样一个随机序列，我们约束其元素和的期望为6。可以证明，当每个元素都独立并且每个元素为1的概率是1/3的时候，该随机序列的信息熵最大【1】。也就意味着这个系统（信源）最复杂，最难以预测，难以捉摸。

有一个很符合直觉的道理是，我们不希望两次点名之间有关联，因为我们不希望别人可以通过发生过的一次点名来预测下一次的点名。对应到信息论，我们希望互信息熵为零。摇骰子的妙处就在于，既保证了独立，又保证了等概率。

实际上，本例中，目标函数是最大化点名这个随机事件的信息熵（尽量多的威慑力），约束条件是随机序列的和的期望为6（固定的点名次数）。

扯点题外话：这么点名也不是我想出来的，是代课教授想出来的。学生后来叫我骰子王，我也就呵呵了。实际操作的时候呢，最好让学生选个志愿者，上讲台来摇骰子，现场直播，非常high。每次摇以前，我感觉我就是大庄家，一人跟一个班赌。挺有意思。

还有个更刺激的玩法，就是把点名时间也设成随机的，在电脑上设个随机闹钟，可以防止有些人到快下课了才来。

我也碰见过无敌的，就是不来，扣分挂科都不在乎。那碰见这种物理免疫魔法免疫的大神，代课老师也没办法。

当然当然，要想成为一名好老师，最重要的还是好好备课。点名这些都是些歪门邪道，愿博诸君一笑。

%%%%%%%正文结束%%%%%%%%%%%%%%%%

后面的是我稍微介绍一下信息量和信息熵的概念，方便读者阅读本文。都是我个人的理解，不一定对啊，说错了请告诉我。首先需要定义消息，我对消息的理解是，随机事件的结果。比如我们得到一组数据，很典型，实验结果是非确定的，否则就不做实验了。比如某班男生的平均身高，在我知道结果之前，对我来说这是随机的。我可以想象成有个上帝，它用某种方法决定了本班男生的身高，对于他来说，结果是确定的，但对于我来说，平均身高是随机的。一摞洗好的扑克牌，第一张是什么牌，对洗牌的人来说可能是确定的，但是至少，我把第一张牌的可能性建模成了一个随机试验的结果。不拉不拉不拉，关于随机的本质可以扯很多，有点哲学的复杂性，我就不多说了。总之我理解的就是，对于未知的东西，观察者就把它建模成一个随机事件，观察者得到一个结果，那这个结果就是提供给观察者的消息了。

信息就是对于消息的抽象，有时候会混为一谈。比如一组关于某股票的时间序列。维基上说：Information is that which informs。啊，定义不重要，理解就行。别问我消息和信息的区别，我也不知道。消息这个词可能是老师用来帮助学生理解的吧。

信息量就是说这个消息够不够猛料。概率越小，信息量越大。我们先假设随机事件是离散的。假设某个随机事件X 出现某种结果 $x_i$ 的概率是 $p_i$ 。那么“得到了这样的结果”这条消息的信息量就定义成：

$I(X=x_i)=-\log_2p_i$

显然，随机事件不可能只有一个结果（否则就成确定事件了），我们可以用信息熵这样一个概念来衡量某个随机事件的复杂程度。如果这个随机事件是一个信源，打个比方，把信源想象成一大堆小球，如果需要用若干个小盒子把这些小球全部装起来，信息熵告诉我们需要多少个小盒子，其中每个盒子对应一个码字【2】。请注意信息量也是随机变量，由随机事件的结果决定，于是随机变量X的信息熵可以被定义成信息量的期望：

$H(X)=\sum_{i=1}^N-p_i\log_2 p_i$

在本例中 $N=2^{18}$ 。

对于连续分布的随机变量，也有信息熵的定义。但是因为牵扯到积分收敛的问题，比较麻烦，我就不多说了。

本来只是说点名的，结果扯得太远了，。有兴趣的读者可以搜一下“最大熵原理”，我觉得非常复杂，因为优化的变量是函数。本文只是提供了基于“最大熵原理”的一个小小例子。

【1】这个证明应该不难，虽然我没证，但是课本上有简化版的。第一步，Ai之间肯定是相互独立的，因为不希望有互信息。第二步，任意其他分布的信息熵都小于均匀分布。

【2】这其实是香农第一定律：

http://baike.baidu.com/view/497143.htm

转载本文请联系原作者获取授权，同时请注明本文来自王云龙科学网博客。
链接地址：https://m.sciencenet.cn/blog-624263-782946.html

上一篇：英语不狠，论文不稳。
下一篇：从概率课考试想到的

收藏分享

yunlongwang的个人博客分享 http://blog.sciencenet.cn/u/yunlongwang

博文

课堂点名和最大熵原理精选

当前推荐数：15 推荐人：赵婧 尤明庆 陆泽橼 刘立 曹建军 王国强 王春艳 王桂颖 戴德昌 强涛 向桂君 郭战胜 biofans chenhuansheng xuexiyanjiu

该博文允许注册用户评论请点击登录评论 (24 个评论)

王云龙

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

yunlongwang的个人博客分享 http://blog.sciencenet.cn/u/yunlongwang

博文

课堂点名和最大熵原理 精选

当前推荐数：15 推荐人： 赵婧 尤明庆 陆泽橼 刘立 曹建军 王国强 王春艳 王桂颖 戴德昌 强涛 向桂君 郭战胜 biofans chenhuansheng xuexiyanjiu

该博文允许注册用户评论 请点击登录 评论 (24 个评论)

王云龙

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

课堂点名和最大熵原理精选

当前推荐数：15 推荐人：赵婧尤明庆陆泽橼刘立曹建军王国强王春艳王桂颖戴德昌强涛向桂君郭战胜 biofans chenhuansheng xuexiyanjiu

该博文允许注册用户评论请点击登录评论 (24 个评论)