科学网

 找回密码
  注册

tag 标签: 分层

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

粘片工艺对QFP封装可靠性的影响-《电子与封装》2019年第11期
EPjournal 2019-12-17 16:16
作者:张未浩;刘成杰;蔡晓东;范朗 单位:衡所华威电子有限公司 摘要:集成电路封装行业的快速发展对粘片后产品的质量与可靠性提出了更高的要求,粘片工艺对集成电路可靠性有着至关重要的影响。采用单一控制变量法,研究硅微粉含量对qfp(quad flat package)封装可靠性的影响;利用正交试验工具,探究在粘片工艺中,不同的胶层厚度和胶层面积对qfp封装后可靠性的影响。研究发现,添加适量的硅微粉有助于提高环氧模塑料对qfp封装后的可靠性;粘片工艺中,当胶层厚度为30μm、胶层面积大于或等于芯片面积时,qfp封装后的可靠性最好。 关键词: 环氧模塑料;胶黏剂;粘结强度;分层 引用本文:张未浩;刘成杰;蔡晓东;范朗;.粘片工艺对qfp封装可靠性的影响 .电子与封装,2019,19(11):1-3,8. 点击 这里 阅读全文
217 次阅读|0 个评论
科技工作者的分层
热度 2 jlpemail 2019-6-1 07:14
科技工作者的分层 可以有多重方式。 撰文、发布日期:2019年6月1日。 方式一:从业年限(大学起算)。 5 、 10 、 20 、 30 、 40 、 50 、 60 、 70 ,等。 方式二:进入某机构的年限?考虑到起点高低。 5 、 10 、 20 、 30 、 40 、 50 等。 方式三:服务的科技机构的数量。 1-10 个 . 方式四:从业者的职务。 方式五:从业者的职称。 六:论文数量。语种数?母语论文的占比? 七:带某个学术级别的学生数量。男女比例? 八:学术谱系,系哪个名人的高足?学士、硕士、博士学位的授予机构? 是否某某大牛的第一个硕士、博士、博士后。是否同性?年龄差距? 师徒学术友谊的维持年限 ?( 可以参考合作发表论文的频次、时段。 ) 师徒是否在同一机构任职?或者徒弟是否在师兄弟姐妹主导的机构任职? 徒弟的行业分布情况?有无学术不端被发现者、被曝光者?师徒的表态。 九:一直为本国服务,还是为他国服务过?他国是否科技大国?强国? 是否被从其他机构(含国外)引进? 十:国际、国家、省部级、院所校级别的各种称号数量? 十一: 10 、 20 、 30 年内调级(行政、技术、职称)的频次? 十三:代表性学术作品的被引频次?有无撤稿的?有无一稿两投、多投的? 十四:掌握外语的种类?非母语发表论文、专著的数量?引用情况? 十五:获得各种基金的种类?金额? 十六:创造经济价值的总额 ? 此总额与经费(消费)之比? 十七:学术剩余价值的获取量?剩余价值率? 十八:第一作者论文数在总论文数量中的占比? 十九:第二作者论文数在总论文数量中的占比? 二十:第三作者论文数在总论文数量中的占比? 二十一:专职和兼职比例?兼职为虚职和实职的比例? 二十二:实际收入和公开收入的对比。 二十三:研究论文、综述论文的占比? 二十四:科普文章与论文的比例? 二十五:同行眼中的人文、道德和学术口碑? 二十六:行业主要学术会议的曝光率 ? 学术报告率?是否主席、分会主席、主持人等。 二十七:最高学位和职称获取的年龄?地点与机构? 二十八:最高科技奖励的获取的年龄?地点与机构? ...... 等等。 假如每一个 “指标”都可以赋值 1-10 ,并且给定某个数值的“权” 1-10 。可以构建至少为 28 阶的矩阵 ...... 。
个人分类: 思维秀场|2523 次阅读|4 个评论
生活 中的 哲学(62) -- 人的 能力 与 分层
热度 1 张能立 2018-6-12 15:12
人类 这个 物种 非常 奇特。一方面,上天 赐予 人类 这个 物种 认识 大自然 和 人 与 人类 社会 规律的 天赋;另外 人类 社会的 分层 不是 大自然 中 动物 分层 那样 固定不变,而是 “三十年河东,三十年河西”,人类 社会的 分层 随着 人的 能力的 变化 而 变化。 我 出生于 革命 老区 红安县的 一位 农民 家庭,虽然 1980年 通过 高考 上了 大学,改变了 农民 身份,最终 成为 一名 大学 老师,但是,随着 年龄的 增大,对 故乡的 思念 和 过去 在 农村 成长的 过程的 回味,日渐 浓厚。虽然 自己 是 农民的 儿子,但是,因为 过去的 贫苦 和 自己 曾经 所谓的 “西化”导致的 无知,自己 内心 多多少少 怠慢 自己 出生的 地方 和 乡土 文化。不过,好在 在 上天的 点化 之下,我 认识到 轻视 自己 出生的地方 和 乡土 文化 是 一种 无知,重新 回 家乡 体验 乡土 文化,回溯 小时候的 乡村 生活,竟然 又 可以 产生 有点 意思的 认知。 毛主席 曾经 说过:“只要 有 人群的 地方,就 存在 左中右”。毛主席 这是 从 政治 立场 分类 人群的。事实上,撇开 政治 立场,从 个人 能力 方面,也能 分类 人群。中国 过去 一直 是 农耕 文明 社会,农民 无论 是 人数,还是 “拥有”的 土地,远远 超过 市民。正因如此, 农民 和 乡村 文化 沉淀着 很多 真知,需要 有志之士 去 挖掘、提炼 和 分享 。 作为 农民 这个 庞大的 群体 而言,从 所能 做的 事情 分类,分为 3类 农民: “老实巴交式 农民”、“打牛鞭式 农民” 和 “袁隆平式 农民” ;从 个人 拥有的 做事 能力 分类,也 分成 3类 农民: “模仿型 农民”、“预见型 农民” 和 “创造型 农民” 。 图 1 农民 阶层 分类 有 意思的 是 这 两种 不同的 分类 是 一 一 对应的: “老实巴交式 农民” -- “模仿型 农民” 。这类 农民 就只 具有 模仿 能力。别人 家 种 什么 庄稼,我们 家 种 什么 庄稼;别人 家 喂猪,我们 家 也 喂猪.......。这类 农民 只能 靠 勤劳 从 土地 上 获取 很少的 报酬。 “打牛鞭式 农民” --“预见性 农民” 。这类 农民 具有 预见 能力。基本 能够 预见 哪个 地方的 牛(崽 和 成牛) 和 奶猪 行情 是 什么 情况,将 甲地的 牛 和 猪崽 贩卖到 乙地。这类 农民 可以 通过 这种 预见 能力,利用 商品 交换 获得 较高的 报酬。 “袁隆平式 农民” --“创造型 农民” 。这类 农民 具有 创造 能力。通过 搞出 高产 杂交稻 什么 新品种,通过 出售 种子 赚取 最大的 利润。 从 生存的 艰难度 来说, “老实巴交式 农民” “打牛鞭式 农民” “袁隆平式 农民” 。从 个人 发展的 空间 来说, “老实巴交式 农民” “打牛鞭式 农民” “袁隆平式 农民” 。 从 上述 农村 社会 农民的 层次 分类,可以 看出 一个 真知:除去 其它的 因素,个人 能力 最终 决定了 自身 所处的 社会 层次 。 由于 当今 社会 急剧 变化,不确定的 因素 越来 越多,客观上 要求 人才 不能 仅仅 只是 具有 模仿 能力,而是 要 具有 预见 能力 和 创造 能力。因此,显而易见,我们 让 学生 仅仅 具有 模仿 能力,哪怕 模仿 能力 高超,都是 远远 不够的,我们 必须 培养 孩子的 预见 能力 和 创造 能力。 前 两天 与 孩子 交流的 时候,孩子 兴奋地 告诉 我,她 有 成功地 获得 一次 预见 能力。我 与 她 交流 学习的 时候,再次 谈到 relationship thinking(关系 思维)的 重要性。她 愉快地 告诉 我:“爸爸,我 在 宝通寺 等 公汽的 时候,我 发现了 一个 relationship。根据 这个 关系,我 能够 提前 得知 是否 有 公汽 过来。” 如 图 2 所示。 图 2 预见 能力 自我 培养 - 1 孩子 解释 说:“我 在 站台 等 公共 汽车的 时候,观察 远处(大约 100 多米) 人行天桥 上的 红绿灯。如果 向左 转向的 灯 是 绿灯,那么,马路 右侧 就 不会 有 公汽 过来;如果 向左 转向的 灯 是 红灯,那么,马路 右侧 就会 有 公汽 过来。于是,我 就 可以 做好 上 公汽的 心理 准备。” 如图 3 所示: 图 3 预见 能力的 自我 培养 - 2 中国 近代 教育,当代 教育,都是 着重(也 可以 说 几乎) 培养 孩子的 模仿 能力,忽视 预见 能力 和 创造 能力的 培养。模仿 能力 教育的 直接 表现 就是 分数 教育(应试 教育),分数 越高的 孩子,模仿 能力 越强。注意,模仿 能力 并不能 自动 升级 为 预见 能力;预见 能力 并不能 自动 升级 为 创造 能力。作为 孩子 来说,有的 孩子 是 模仿 能力 强,但 预见 和 创造 能力 差;有的 孩子 是 模仿 能力 差,但 预见 和 创造 能力 强。前一类 孩子 被 当下 教育 视为 学霸,后一类 孩子 被 当下 教育 视为 学渣。后一类 孩子 要是 没有 遇到 真正 理解 教育的 家长 和 老师,非常 有可能 被 当下 所谓的 “现代化 教育” 所 扼杀。 当今 中国 社会,国内 面临 经济 转型,从 模仿型 经济 升级 到 创造型 经济;国外 面临 芯片 封锁,从 购买 国外 核心 芯片 到 自主 生产 核心 芯片,因此,中国 教育 必定 要 进行 一次 重大的 革命:从 应试 教育(分数 教育) 到 预见 和 创造式 教育!没有 这样的 一次 重大 教育 革命,中国 经济 不可能 升级,芯片 封锁 问题 不可能 被解决!
个人分类: 哲学 与 生活|763 次阅读|2 个评论
【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】
liwei999 2016-2-23 06:49
以前论过 ( 【NLP主流最大的偏见,规则系统的手工性】 ),(有监督)机器学习的知识瓶颈是需要大量的带标数据(labeled data),以克服稀疏数据(sparse data)的困扰。很多时候,学习算法的改进远不如数据量增加带来的好处明显。这在带标数据普遍不足的情况下是机器学习界大家公认的痛点。然而,不能因此认为,只要带标数据足够多了,NLP 的任务就基本解决了,至少对于高端的NLP任务,譬如 deep parsing 或舆情分析,任务的痛点不仅仅是数据量。接着昨天的话说, 不单是 cases 不够,所以需要 R(推理), cases 再多,也还只是一个切面的呈现。 如果对象的本质不是平面的,而平面的呈现只是表象的话, 那么再多的案例也不能根本解决问题。SMT (统计机器翻译)如今遭遇的结构瓶颈的实质就在这里。 换一个角度看案例或labeled data,它们本身就是组合爆炸发生以后现象中的一个子集。 解决问题的钥匙在于了解这种组合爆炸背后的领域算法,模拟这种爆炸的背后的领域知识的推理或逻辑,而不是绕过它,以为一个超领域的算法可以包打一切, 只要根据结果,就可以倒推出来合适的领域处置来。 领域是绕不过去的坎儿。 至少语言学作为一个领域,这种体会是太深了。 对语言学不求甚解一样可以玩nlp的黄金时代终将过去。 什么叫领域算法? 先说个自身经历的事儿。搞过NL parsing的人都知道, 并列结构(conjunctive construction)是公认的 parsing 拦路虎,是真正的痛点。它打破了依存关系的日常秩序,是个难缠的东西,我跟它斗了一辈子。 并列结构与其他依存关系譬如主谓宾定状补之间的纠缠,可以发生在语言现象的任一层次,从词法一直到子句。并列打乱了所有的依存规则正常运作,而且并列结构的边界极难确定,没有“优选语义”的对比权衡很难搞定它。 我一辈子做过三个大规模real-life的英语parsers, 在国内为MT做第一个英语 parser,到美国为IE做第二个parser,都一直没处理好 conjunctive 的结构,就是凑合事儿,头痛医头地对付而已。直到现在做第三个 parser,天道酬勤, 事不过三, 才终于受到上天的眷顾,琢磨出一套一时讲不清也不愿意讲清的语言学算法,把这个问题解决得比较圆满,从结构上“逮住”它们,并与其它依存关系协调好了。这就是我说的领域算法,是领域专家根据领域的自身体系和结构知识,经过艰苦努力求解出的做法。 解决这个语言学的结构纠缠的难题,花费了几十年的时间,做了无数尝试,栽了许多跟头,这才找到合理有效的算法。这样的东西在通用算法中怎么绕得过去?通用算法面对领域难题,想要取得类似的有效性,光靠调试语言学的参数或features,而不是做算法上的领域化,这是不可想象的。 大而言之,无论自然语言多么复杂,里面的关系如何相互纠缠,很多现象怎样的相互依赖,但这一切都不能否认语言处理总体上的由浅入深的过程性。很多分析可以恰到好处地捕捉不同层次的关系,得益于内部处理的分层而行。这些分层既遵循语言学的一些大的原则,也需要融合很多具体现象的处理次序的确定。哪一步先做哪一步后做、在何时做何种补救等等,这一切都是领域算法的反映。这种东西必须用某种方式参与到系统中,NLP的深层paring才可指望。单层的统计路线的parsing,用到了形式语言的formalism,谈不上语言学算法的利用。多层的统计路线,对于parsing的研究,似乎刚刚开始,怎样合适地吸收利用语言学算法,值得引起注意。 要点就是,cases 和 labeled data 不能从本质上解决组合爆炸问题,最多是逼近常见的组合呈现。这实际上也是乔姆斯基一直居高临下看统计派的根本理由。这也是 Church 《 钟摆 》一文( 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 )中一再反思(机器学习)近似方法的局限性所提的主要论点。 类似观点也包括 AI历史上著名的神经网络的 敏斯基 批判:当年他的批判是说,无论你有多少data,如果你的方法就是线性可分性质的算法,那么当客观世界的现象是线性不可分的时候,你就死定了( 【读书笔记:异或门是神经网络的命门】 )。 传统的理性学派,符号逻辑派,语言学结构派,等等,他们探索的路子,是不是真地就是客观现象合适的模型,或者从本质上模拟了人的大脑的工作原理呢?虽然难以证实这些路数模拟就是大脑的工作原理的模型,但是,比起传统统计派(如今的 DL 可能不同了)把AI和NLU看成黑箱子,只从输入输出配对的data中去训练一个单层或浅层的模型,不得不说,传统理性派接近大脑工作原理和逻辑,要比统计派近得多。 传统 AI 的符号逻辑派没落的主要原因是不能 scale up,大多是一个极为狭窄的领域里面的toy系统,无论从量上还是从领域化的扩展上,要想实用,路途尚远。 统计派于是登堂入室,鸠占鹊巢,开始还不屑用 AI 的名称,如今是全面拥抱这个媒体自来亲的术语了。 但是,作为 AI 分支的 NLU 却不同,比起传统AI符号逻辑派的不能scale up,NLU 的规则派却能做到可以与统计派抗衡,同样可以 scale up 到真实的大数据场所。 这里面的奥妙就在,语言学是一个相对 self-contained 的世界。几百年积累下来的语言结构的理论及其结构分析方法,譬如依存结构、短语结构等,有一个相对明确的框架,可以形式化地加以利用。这种形式结构对付语言现象的组合爆炸非常有效。就目前的认识来看,这应该是人脑的语言机制的最接近本质的模型了(参见: 【自然语言parsers是揭示语言奥秘的LIGO式探测仪】 )。 因此,一切绕过语言结构的NLP统计方法,在本质上就处于劣势,再多的样本也不能弥补结构阙如的局限,除非是“带入”结构到统计模型去。带入结构到NLP统计模型去,虽然早有人探索,一直到最近也不是成熟的做法。原因就是鸡和蛋问题的困扰。带入结构做NLP(无论什么应用),先得有结构,先得有一个靠谱的 parser,而 parser 本身的问题还没有在统计内解决,如何依赖它呢?这只是必要条件,还没提充分条件。 接下的一个难点就是,带入了结构,结构的信息与其他的evidence怎样协调和smoothing,也是个 challenge,至少以前一直是。 这说的是可以带入,其实即便有了parser,能不能带入还难说呢。探索表明,off-shelf的一律不好用,把parser看成一个边界清晰的组件来plug-in用,举步维艰。等到这些沟沟坎坎都一一被克服了,“窃喜”的规则派也许已经大行其道了,也未可知。(当然,寿终正寝也是很多人预见到的可能,assuming统计路线可以一路走到天黑和黎明的话。) 总结一下,对付语言现象组合爆炸的法宝是分层操作,层层深入结构,这一点无论是规则的路数还是最近的DL统计的研究,大概没有什么好争的:统计也做多层的神经网络了。本文的要点是在,分层作业的算法要不要采用领域原则和经验为基础的领域算法,还是指望通用算法来包打天下。笔者的结论是,对于复杂任务,后者很难行得通。而要做到前者,或者是由领域专家自己做规则系统(这个早就处于现在完成进行时),或者是统计派放下身段与领域专家亲密合作。一言以蔽之,我不需要你,但你可能需要我 -- 除非你是白老师那样不世出的两栖大牛。 【相关博文】 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 《新智元笔记:再谈语言学手工编程与机器学习的自动编程》 没有语言学的 CL 走不远 【泥沙龙笔记:从民科谈到五代机及其AI历史与现状】 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》 《新智元笔记:NLP 系统的分层挑战》 《泥沙龙笔记:连续、离散,模块化和接口》 《立委随笔:语言自动分析的两个路子》 【科普随笔:NLP主流最大的偏见,规则系统的手工性】 泥沙龙笔记:语言处理没有文法就不好玩了 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5368 次阅读|0 个评论
《新智元笔记:NLP 系统的分层挑战》
热度 3 liwei999 2015-12-9 04:45
斌: 主要看气质,请分词 白: 这个太应景了 我: 过去分词还是现在分词?过去分词用的是 longest principle, 现在分词发现这个 principle 也有不灵光的时候。所谓 hidden ambiguity 是专门与这个著名的 principle 唱反调的。无论过去还是现在,分词总是做不到完美。怎么办 将就着呗 人不能被分词憋死。 邬: agreed 昊: 分词其实也不是必要的 白: -ed vs. -ing,过去分词现在分词都有歧义…… 我: 英语不同,现在分词和过去分词都有形态标记,汉语分词没有标记,分起来就难。 白: 哈,越发双关了 我: 汉语分词都玩了半个多世纪了,不能再玩下去了,应该轻轻放下。所以我呼吁过几次 要立法禁止分词。否则绕进去就出不来了,本末倒置,一切为分词服务。我几篇相关博文: 应该立法禁止切词研究:=) 再谈应该立法禁止切词研究 白: 看什么应用,很多应用分词就够了。 我: 是,关键词系统,词典系统,分词就是终点。不像 POS,POS 本身不是终点 只是桥梁。分词本身可以是终点 譬如对于搜索引擎。 作为桥梁,不值得动用太多资源,就为了那么个分词。还有用到常识推理的,据说。分词的本质是需要给 token 查词典, 因为只有查对了词典 才会有 lexical features。只有有 features 系统才有抽象度。lexical features 不仅仅是 POS 类,尤其对汉语 这些 lexical semantic features (譬如 HowNet 的前 1000 个) 对分析很重要。 白: 应该倡导给分析器输入词图,而不是词序列。 斌: 或者说 分词对其他研究工作的价值 大于 其对应用的价值? 白: 如果输入是词图,分析器还麻烦了 邬: 输入should be 词图,分析器should be 麻烦 我: 对于分层系统,词图的确有难处。对于传统的 CFG parsing 就没有,反正是一锅煮,哪条路径最后走通算数,根本就不要什么分词了,只需要把所有可能的词查一遍即可,包括 hidden ambiguity。理论上 无效的词 走不通 parse 的,所以 parsing 本身就决定了切词。但实际上并不是这样的轻松。还是要分层,一锅煮做不了高质量的分析器。 邬: define quality for analyzer? 白: 词图和分层,这是两件事情。适当编码下,它们不矛盾。 我: define?天知地知,你知我知。 开个玩笑。。。xiaoyun。 其实弄了个什么 PennTree 标准,叠床架屋的,然后大家都拿这个说事儿。还不如彻底简化:来一个语料库,把里面的主谓关系列出一个表来,动宾列出一个表来。然后就数数,算算哪个系统摘出来的关系符合度最高。这多简便, 任何 native speaker 可以做判断,都不用语言学研究生去标注。 一种是句法上的主谓宾标准,另一种可以是包括逻辑的主谓宾, 也就是把那些隐含的主谓宾也算上。当然也可以加上修饰关系,状语关系,同位语关系,并列关系。 一共不超过一打的依从关系。 邬: 我是认真的 我: 我也是认真的。我就觉得这样最简便易行,反映最客观。 邬: 我觉得也许我们对分析器的要求有点过分。 我: 不过分的标准也可以 config 出来,譬如一种是主谓宾,另一种可以是 possible 主谓宾。用后者的话就是开了一个门,允许系统输出 non-deterministic 的关系来。这样 PP-attachement 可以输出两条关系出来,不强求消歧。 白: 叠加态 邬: right 我: 因为实际上在使用的时候,语用的 IE (Information Extraction)层面,这些 Possible 关系非常好用。它保证了 recall,而且可以不牺牲 precision。怎么讲?保证 recall 是因为结构歧义 被句法保留了,precision 为啥不牺牲?道理很简单,到了 IE 进入了 domain,你的任务可以有两个支点,而不是只有关系 (arc) 一个支点。node 方面的支点在一个domain里面是很容易搞定的,这样就弥补了关系不确定。 白: 输入输出都是图,但都采用线性表示是可能的 邬: the main issue is analyzers actually do not have enough information to decide. 白: 只要是线性表示就可以分层 我: 这才是parsing和IE的正道。 白: 伟哥的应用场景,后面是有后续手段的,分析器不需要太确定。 我: 就是。parsing 的时候,你面对的是语言大海, 你凭什么要求确定,自己难为自己。可是到了 IE 的时候,这个大海就变成了一条小溪,这时候,ontology, lexical semantics, terminology, word embeddings, word-driven rules, 这一切都可以拿来了,因为语言已经聚焦了,完全的 tractable 了,你当然就不怕那种不确定性了。 群里有后学的话,研究生的话,记住,看懂了这个, 你做NLP应用,就不会碰得头破血流。否则你就会跟我们老姜一样 千辛万苦 才摸索出革命解放的道路。 白: CFG虽然一锅粥, 经典算法仍假定token线性输入而不是图输入。 如果图输入是一个ground truth,很多事情会不一样的。 我: 那么查词典呢 exhaustively 地查,所有可能的词全部是起点,其中有些词是hidden的,有些是相交的。这肯定不是线性的起点吧。 邬: Lattice input should be the key. if we are not sure, we should not pretend that we are sure. just leave the option open. 我: exactly,keep ambiguity untouched,do not jump to conclusions. 雷: 不丢人 白: 图表示如能结合k-best 用同一种线性机制表示,就完美了。 邬: k-best can be extracted from forest. the problem is of the kbest is it is not that efficient in encoding choices. 雷: 所以 就玩森林。在人的认知中,这森林是静态还是动态存在的? 邬: maybe dynamic. We are always looking for reasonable interpretations, we will pick mostly reasonable path and back track when we have to. 雷: 我也是这么认为的!我们可以有,不过要推导。 白: 保留所有结果和所有回溯可能不是问题, 在这同时还要分层才是问题。 我: 所以说分层难在接口。分层第二难是interdependency,哪里分, 不管怎么切一刀都感觉不周全。如果赶上了完美主义者,就寸步难行了,然后回到一锅粥来。而一锅粥与软件工程和模块化是背道而驰的。一锅粥搞 NLP 成不了气候,很难深入,不好持续发展(incremental enhancement)。总之,分层才是正道。 【相关】 《新智元笔记:【Google 年度顶级论文】有感》 2015-12-09 中文处理的模块化纠结 应该立法禁止切词研究:=) 再谈应该立法禁止切词研究 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5667 次阅读|5 个评论
凝聚法层次聚类之ward linkage method
热度 1 Songjinghe 2015-9-18 22:22
凝聚法分层聚类中有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和) 其他的好像都挺好理解,就是最后这个有点麻烦。。。 这个方法说白了叫离差平方和(这是个啥?)。是ward写那篇文章时候举的一个特例。这篇文章是说分层凝聚聚类方法的一个通用流程。在选择合并类与类时基于一个object function optimise value,这个object function可以是任何反应研究目的的方程,所以许多标准的方法也被归入了。为了阐明这个过程,ward举了一个例子,用的object function 是error sum of squares(ESS),这个例子就成为ward's method。 找了N多资料,终于把这个算法的过程搞清楚了。首先输入的是一个距离矩阵,知道每两个点之间的距离。然后初始化是每个点做为一个cluster,假设总共N组,此时每个组内的ESS都是0,ESS的公式,如下(从原稿《Hierarchical Grouping To Optimize An Objective Function》上摘的): 我当时还有点蒙ESS是个啥?——我现在知道了,凡是蒙的都是概率没学好(我是说我)……先从wiki上转个公式过来: 这是方差的公式,写的再通俗点,就是: 等号两边同时乘上n,好了,你应该知道ESS是啥了——ESS就是【方差×n】!so easy了~~ 但是等下——这看起来是个一维的公式啊——因为你已经知道ESS是【方差×n】了,那多维的还不会算吗?先求所有点的均值点 ,然后再算所有点到这个均值点(central)的距离(距离公式你得自己定,见开头,但是最后算出来就是一个数),然后把所有距离平方后加起来(此时即为方差乘上n),就得到ESS了。 说了半天光说ESS了,列位看官,人只有一张嘴,故ESS此处按下不表,接着说ward method。ward method是要求每次合并后ESS的增量最小,这怎么讲呢?还是上图吧(图是从youtube上的一个 教程 里截的): 只看最下面ward's method的两个图好了,先看下面的图,合并前红色组和黄色组分别能算各自的ESS,总的ESS是什么呢?很简单,加起来就好了,即: ESS(总-合并前)=ESS(红)+ESS(黄)+ESS(其他没画出来的组) 如果合并这两个组,则可以作为一个新组再算一个ESS,此时 ESS(总-合并后)=ESS(红黄)+ESS( 其他没画出来的组) 你注意这里还没有真的合并,只是算了一下合并红黄两组的“成本”(即:ESS(总-合并后)-ESS(总-合并前),当然这个成本肯定是增加的),如果总共有N个组,必须把每两个组合并的成本都算一遍,也就是算N×(N-1)/2个数出来(是不是感觉运算量很大?不要紧,有 快速算法 ),然后找里面合并后成本最小的两组合并。然后再重复这个过程。 我说清楚了吧!? 嗯,至于画的那个树状图的高度,可以认为是上面说的这个“成本”。 对了,还得说一下这个公式: 啥意思呢,就是说,如果用ward's method来度量两个cluster之间的距离,那么两个cluster之间的距离就是把这两个cluster合并后新cluster的ESS,其中x就表示合并前两个cluster中所有点,而 就是合并后那个新cluster的中心点(均值点), 就表示每个点x到中心点的距离,平方后加起来,就是ESS了。 好了,总结一下,ward's method是凝聚法分层聚类中一种度量cluster之间距离的方法。按照这个方法,任意两个cluster之间的距离就是这两个cluster合并后新cluster的ESS——说了这么多还真是惭愧,估计这些东西随便找一个数据挖掘的视频教程估计都有,我居然搞了这么长时间才弄懂。。。。 PS:附一段代码上来(快速算法): http://my.oschina.net/songjinghe/blog/508553
35774 次阅读|1 个评论
TRIZ随想:探索更本源的发明原理
热度 1 anhz 2011-1-4 10:31
刚学习TRIZ的时候,感觉40个发明原理很有趣,每一条发明原理都像一扇窗,遇到问题时打开每一扇都可能有惊喜。但是进一步思考,就提出一个问题:这些貌似关联不大的发明原理有没有更深一层的原理,能够严密的推导出现在的40个原理?这个问题时常萦绕在脑际,虽然没有花专门时间去研究,但也挥之不去,经过了两年多的琐碎时间的思考也没有找到答案。 前一阵,有一次猛然想到,与其反推发明原理的原理,不如从日常生活中找找看有没有更基本的原理。经过思考和验证,略有收获,在此提出希望能够抛砖引玉。 宇宙的运行有其客观规律。可见可验证的最基本规律可以说是物理规律。于是牛顿三定律、统计物理学、爱因斯坦相对论和波尔等人的量子力学就成为人们研究物质行为的依据和理论基础,是为原理。 而TRIZ现今已被认为是解决问题的科学方法论,即研究和应用解决问题所遵循的客观规律的方法。这些方法中是否有最基本的原理?我相信很多人在学习TRIZ的时候会问这个问题。其实从TRIZ的目标,或TRIZ这种方法学的历史使命看,它是要发现解决问题的规律,并成功应用规律。而人类的发展的每一天都遇到无数的问题,解决问题成了人们的日常生活,解决问题的规律肯定古已有之并已经沿用了几千几万年,这些本源的规律相信我们今天依然在应用,也永不过时,就像上述的物理定律一样。通过我的思考和感悟,发现了几个解决问题的本源的原理,相信大家将其铭刻在心,在任何问题中用这些原理去考虑,肯定会有些收获。 说了很多废话,言归正传,本人发现的这几个规律是:分类,分层,分步,关联。当然这远远不够。但目前我发现的就这么多。 大家看了肯定笑了,哈哈,以为是什么呢!老生常谈,没有新意。都是常用的东西。不说我也知道。没错。鄙人认为真正的规律肯定是没有新意的。这些规律早就存在着,并为大家早已熟悉,就像树上掉下的苹果,就像破了底的鸡蛋可以站立一样为大家所熟悉。您可能问了,那你干嘛还要将它们提出来呢?因为我认为很多人忽视了这些最常用的规律。而将这些已知的、常用的、同时也是被忽视的规律从尘封中提出来,拍掉灰尘和蜘蛛网,呈现给大家,我认为这是每个研究TRIZ规律,研究解决问题规律的人应该做的事。 相信很多人下一个问题是:这几个(目前是四个)所谓规律真的那么本源吗?有何特殊之处? 那么我来一一解释,不管您同意与否,希望对您有所帮助,如果大家都来思考这个问题,我这篇文章的目的也就达到了。 首先,说一下分类、分层和分步。这三个规律其实是在解决一件事情,就是以层次的观念处理问题。分类是从宽度、分层是从深度、分步是从时间上处理问题。我们常说,眉毛胡子一把抓,试想眉毛和胡子距离远,长短不一,粗细不一,真要一把抓还真没法抓。所以很多事情都是因为同一待遇造成的。当然,同一待遇是有原因的,就是图省事,图省钱。这就是一个矛盾。但是规律在这里,谁也避不过,为了解决问题,就必须分层次、分类别、分步骤的区别待遇。因此我们看到,分层、分类、分步就像窗户一样,按照这个思路办事,就是按照规律办事,就能办成事。 再说关联。哲学上讲,事物是普遍联系的。这还真不是空话。当大家遇到问题时,请默念这句话,相信会有所启迪。我们讲本体论是时候讲到事物间的联系,那其实只是一种关联。我们讲蝴蝶效应感觉很玄,那也只是一种关联。关联无处不在无时不在,其重要性相信不需要我在此废话了。直到目前我写专利,有个心得就是:除了把主要的构成要素说清楚(说清楚的过程中要应用分层、分类、分步的规律)外,最重要的就是说清这些要素的相互关系,即关联。如果是机械类的,要说清组件之间的连接关系;如果是电子类的,就说清模块间的连接关系;如果是系统,就说清各个功能单元间的联系(当然说这些联系的时候,也要应用分层、分类、分步的规律;特别是方法类专利,一定要用分步的方法说明哪个在先,哪个在后)。 总之,世间万物至少脱不了上述的四个规律。那么可能您会问,既然分类、分层、分步都是解决的以层次的观念处理问题这一件事情,为何要分成3个规律来说呢?因为TRIZ还有个特点是实用性,我觉得这是TRIZ的精髓之一。只说以层次的观念处理问题是很抽象的,而这些本源的规律应该是具体的可操作的。于是大家看到我总结的所谓本源的规律的两个特点是:1.足够本源,适应于万事万物;2.足够实用,让任何有常识的人看了就能用。 写出这些随想的目的,正如本文一直强调的,不是设立一种标准,而是希望越来越多的人开始考虑创新的规律,挖掘真正的规律,并且勇于说出来。我是个实用主义者,我希望自己的文字没有浪费大家的时间,我也欢迎大家的批评。我相信大家的批评和讨论是对于研究和应用TRIZ规律的有力推动。 姑且也将这些不成熟的想法归于TRIZ之中吧。希望TRIZ真的如其原来的意义:发明问题解决理论。
个人分类: TRIZ发展|4886 次阅读|2 个评论
接收机软件开发3(接收数据分层处理)
yhc511025 2010-4-30 22:10
接收机程序中对串口收到的数据分成了 3 层进行处理。 1 )第一层(串口层):完成串口数据处理功能。 在串接缓冲区收到数据的时候,程序执行串口消息响应函数 OnComm() ,在该函数中先判断是否是串口接收到数据的消息,如果是则读取缓冲区中的数据并将之转换为字符串存到一个 CString 类的 str 变量中,上传给短信层,不是则返回。 2 )第二层(短信层):完成短信处理功能。 在接收到下层传输来的 str 后,进行如下处理: ( a )判断 str 是否符合接收短信格式 LC4:+SIM 卡号 +,+LC3:+ 数据,如果不符合条件返回 0 ,符合条件跳转到 (b) 。 ( b )提取出 SIM 卡号,判断 SIM 卡号是否是系统设定的卡号,如果不是则返回 0 ,是则跳转到 (c). ( c )提取出数据,存入 CString 类的 str1 变量中,上传给控制层。 ( d )结束,返回 1 。 3 )第三层(控制层):完成控制命令处理功能。 在接收到短信层传输来的 str1 后,进行如下处理: (a) 判断数据头和数据尾是否分别 ** 和 # ,如果都符合,则跳转到 (b) , 不符则返回 0 。 (b) 提取出第三个字符,判断出命令类型(下位机的反馈命令为 a 、 b 、 c 、 d 、 e 、 f 、 y 、 z ,请求命令为 w 、 v 、 u )如果为反馈命令则跳转到 (c) ,为请求命令则跳转到( d ),都不是则返回 0 。 (c) 将提取出来的反馈命令字符与等待的反馈命令 m_cOrder (等待发送机反馈的命令变量)和 m_cOrder (等待控制器反馈的命令变量)进行比较。如果与这两者之中的一个相等,则代表该反馈命令是刚发送出命令的反馈,跳转到( d );如果都不等则返回 0 。 (d) 按照命令字符确认分隔符的个数并与数据中分隔符的个数进行对比,如果相等则提取中间的参数并给相应的变量赋值、刷新显示出来,并跳转到( e ),不等则返回 0 。 (e) 按照命令字符对软件界面上的控件进行操作,有提示信息的显示提示信息。 (f)结束,返回 1 。
个人分类: 项目开发|3971 次阅读|0 个评论
电磁场的谱域法简单归纳和总结
williammilo 2010-1-28 09:16
我的博客已经搬家到 xiongbox.com 欢迎访问熊伟博士的网站! 本文永久链接 http://xiongbox.com/电磁场的谱域法/ 1.电磁场的谱域法借助傅里叶变换将电磁场边值问题转化为在(空间)谱域中求解的方法之一,适用于分层结构的边值问题。 2.谱域法仅适用于符合下列条件的分层边值问题:①介质 只沿一维 有分层变化,沿另外二维无界或受导体边界限制;②场域内 只有平行于分层界面的零厚度 导体片;③导体片的几何形状应该在场域边界所适合的 正交坐标系 中是可分离变量的。 3.在分析棱柱形导体对 电磁波散射 的问题中,谱域法也是高频近似的方法之一。它将远区的散射场按散射体上感应电流的傅里叶变换作谱域展开,然后解出该电流的谱函数,并得出散射场的谱域积分表达式。此式不仅可以经渐近展开导出与射线法一致的几何绕射公式,而且在影区边界处依然有效。
个人分类: 电子信息工程与计算机科学|4151 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 07:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部