《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《新智元:挖掘你的诗人气质,祝你新年快乐》

已有 5170 次阅读 2016-1-1 04:14 |个人分类:立委科普|系统分类:科研笔记|关键词:学者| 诗词, 对联, 人工智能, 机器人, 电脑

机助对联和诗词,祝你新年快乐!微软机器人帮助你成为对联手和诗人。领导这个项目的首席科学家周明老师是我老朋友了,他是精通国学的自然语言学者。待会儿咱们到群里去与他直接对话,听听他的愿景。

元旦了,先写对联,图个大吉大利,或博千金一笑。这是我利用这个微软亚洲研究院的在线免费智能工具为中学老同学做的对联,她们都很开心。微软对联神器:http://couplet.msra.cn/, 春节将临,你不妨也去一试?

   

 

献给127的仙女们

机助诗人在这儿:http://couplet.msra.cn/jueju/

     

我: @周明微软 第一次用你这一款,好玩。洪爷油诗推广事业终于有竞争对手了。
ZhouMing: 伟哥的诗写得很合本群。
洪: 完了,我要黔驴技穷穿帮
微软周明诗引擎,
李维试用予高评。
油翁雕虫技穷尽,
汗淋追来机器人
迈: 油诗人遇到了新对手
我: @周明微软 怎么回事 有些提示的句子平仄似乎不对不是135不论246分明么?譬如: 五风上天成外山、一人入天成外乡。仄平仄平平仄平,七言诗(第三句)允许这样的么? 很久以前浏览过一点格律简介,也许我记错了。
白: @wei 你跟个机器较什么真啊……
ZhouMing: 你的观察超准。格律对近体诗属于铁律。我现在格律的权重比较低。这是因为一卡格律就导致候选下句数目锐减。以后会在增加候选能力之上调格律。目前你可以理解为古体诗创作。
我: 最好是让人写一句大白话,然后转成诗。这个路子应该是可以走通的。大白话进来,删去stop words, 成了关键词了。然后每个核心关键词找一批同义词进来,按照格律排列组合成候选诗句。可能有 nonsense 出来,但是总会有歪打正着的,反正是经过人选这一关。这个算法是直接抢洪爷饭碗的路数。要让人人成诗人,不仅仅满足于做油翁。
刘: 我们这里有个UCD的中国学生在做英语自动写诗,导师是Tony Veale,思路就是把一段话用诗的形式重新写出来。
我: 当然,不仅仅是把input的同义词列按照格律组合出来,那样可能缺乏诗意。还需要掺沙子。要从诗词里面统计出一批 “雅词” 出来,给这些雅词做一些分类:适合用在什么地方。把这些沙子掺进造句的过程。语言中总有一批莫名其妙的雅词,万金油一样,用了它就显得提升了档次。
诗词是好玩意儿,不怎么需要考虑文法,反正有 poetic license,不合法的句子往往更具跳跃性,很可能更富有诗意。这里面有的可挖。
什么叫诗意?其实,我们中的大多数之所以没有成为诗人,主要是从小受到语言的捆绑太多,有了点诗意都被条条框框束缚住出不来了。借助机器,我们成为诗人的潜质就可以较易发掘出来。算法要敢于把不同意向的词组合在一起,人为造成跳跃,在 input 的语义场上下翻滚。
ZhouMing: 我跟立委思路有类似之处。其实写诗就是一个风格的变换过程。由随兴的词语或者大白话添油加醋变得满足诗词格律字数平仄的转换。这样俗人也变成雅士。
白: 奥义无边慧海深,神机妙算第一群。新元聚智多才俊,踏破雄关是暖春。
ZhouMing: 才高八斗
我: @白老师自己写的吧,还是也借助了周明的工具?
白: 工具不好用,索性自己写了。刚才吐过槽,第二句死活输不进去。
我: 我觉得周明才刚开始,后面改进余地大着呢。机器胜过99%的人是几乎可以肯定的,白老师是1%或千分之一以内的,不算。我们这些当年为了附庸风雅硬着头皮学了点格律,背诵过几百首诗词的人,怎么可能打败机器?
白: 空的皮儿?这回带馅儿不?
阮: 我们可以在机器基础上改进,机器不能。
ZhouMing: 这里吹个牛。再过几年我的系统在人机交互下可与唐诗一比高下。
我: 这个牛比较保守。应该可以超越 50% 的唐诗,如果以《全唐诗》做 scope 的话。可以让国内的诗人组成一个评判小组。把机助诗与唐诗分别拿出来比赛。古代的诗人不得不背诵几千首诗,然后在肚子里凑,他一个脑子要管两件事儿。现在分工合作,机器管形式,人管内容和情趣。这样的话,举行一个大奖赛,让借助机器发挥得最好的现代诗人,与古人比一比。有一半以上的胜算,是保守的。
ZhouMing: 是呀。我觉得诗词可能是 nlp 人可以突破的领域。其实这方面电脑跟人比,对人不公平。
我的对联和猜谜语基本完胜多数人了。这些方面对人都不公平。跟算数一样都是机器胜过人的领域。
白: 问题是现代人对非古人写的古诗已经基本上无感了。供给越充沛,越无感。
ZhouMing: 所以要抢救中国文化瑰宝。包括诗词和书法以及民族音乐的写作和欣赏水平,是全社会的事情。否则互联网导致社会整体格调低俗化。我们要是能用AI帮助一下,也算做点贡献。唐诗是一个高峰。但是难保今后不出现另一个高峰。

我: 白老师是说物以稀为贵。泛滥了就不贵了,哪怕水平是真地提高了。这个无解。这种工具对我这样的半瓶醋最合适,可以一下子把自己形象提升,包装成很秀才的样子。在中学同学群里秀了秀,妈呀,那些当年的仙女们都纷纷夸赞大才子,虽然我声明了,是利用了朋友的工具。

 

ZhouMing: 立委写得好

我最近给老师祝贺的时候附庸风雅写了几首诗,请人写字,装裱好送去觉得很得体。我觉得社会是有需求的。而且很大需求。

送清华张钹院士,我博士后导师之一。另一位是黄昌宁老师。

送大学班主任的诗。

送李生老师的诗。学会理事长。也是我硕博导师。
体会:诗一定要讲格律。第二,诗配字可提升视觉效应。第三一定要装裱。
马: 怎么设定诗的内容啊,我看到的是只有一个主题选项?
ZhouMing: 目前只能按照系统规定的分类选一个。分类用的清代诗学汉英分类。然后生成第一句。你可以修改。然后再逐句生成。每一句都可改。现在还没有自由关键词输入。以后会加。
马: 你的那些诗是怎么写的呢?用的是没有发布的版本?
ZhouMing: 我自己写的。不过道理很简单。想一个题目,派生出若干词汇。类似于query suggestion。然后组合排列,满足格律和字数。就行了。我的系统就是这么做的。只不过系统还不允许自由关键词。有时候也可以搜索出一些名句用人家框架换成自己的内容。基于山寨的写诗。文雅点是基于实例的诗词创作。以上计算机都可以模拟。理论上确实应该比人牛。只不过我们水平有限目前还不完善。
马: 有辅助功能就可以,只要用起来方便
ZhouMing: 现在用起来还不那么顺手。我会慢慢改。这是微软非主流工作所以只能业余时间玩。
白: 感觉你们的写诗策略缺了点宏观的东西
ZhouMing: 同意呀。宏观实际上就是立意谋篇。这个对计算机最不好把握了。如果有一个篇章级的标注语料可以学习篇章结构和意图结构。目前没有。人们在写诗的时候很少能够一开始就定义下来立意,写完第一句,立意就发生变化。然后每写一句再变化。最后看到了一个宏观的篇章宏旨。
白:这个,你的观察可能也有局限
ZhouMing: 革命要一步一步来。写诗也是如此,它是一个对人思维活动的递进模拟。有的东西人可以讲,但是数学上怎么计算?选特征并可解码。最重要是可自动学习并未来特征可扩展的模型。一个靠数据,数据要积累。一个靠model,model要能model从词到句到两句到语篇。
谢: 绿蚁新醅酒/红泥小火炉/晚来天欲雪/能饮一杯无
比如这首,白老爷子当时创作的 时候应该是有了情绪、氛围,最终通过这些词汇组合起来,格律、对仗乃至色彩,就倾泻而出了。比大白话好玩的地方在于多组强对比渲染了这种情绪、氛围,所以打动人。而且,格律诗词的好处是便于吟诵,平仄限制了自由度,但带来了新的自由。上面这首,看着平白,但格律严格,吟诵上口。所以,如果每个有个强烈的情绪想表达,像文艺一把,但不懂格律,没有那么的想象力,但提供一种可能性让他可以选择白居易、李白、李商隐风格,就像这些人在世为其创作一样,多爽。我们之前讨论过,但限于人力物力,在足迹火的时候用高频词做了宋词创作,居然也偶有妙句。可惜就这样了。
吉: “晚来天欲雪/能饮一杯无”不对仗吧?
ZhouMing: 绝句不一定在末尾对仗。
谢: 对,五言绝句对仗更多看前两句。比如平仄上:仄仄平平仄,平平仄仄平,仄仄平仄仄,平平仄平平。后面两句需有变化,也可有些灵活

我: 哈 原来 @周明微软 对的是 李白鲁棒。


周老师,这是个好路子,希望不断看到新进展。

哪家小伙子要是掌握了这工具,会迷倒文艺女青年的,大大提高恋爱成功率。唉,当年我们年轻的时候,咋没有呢?

洪:

我想未来真可怕,娃跟机器学说话。翻来覆去语浮夸,邯郸学步学到傻。




【相关】

微软对联神器:http://couplet.msra.cn/

微软绝句律诗:http://couplet.msra.cn/jueju/

《朝华点滴:“那宝贵的点滴,无法忘怀”》

【置顶:立委科学网博客NLP博文一览(定期更新版)】 



https://m.sciencenet.cn/blog-362400-947266.html

上一篇:《旧文翻新:立委流浪图》
下一篇:【泥沙龙笔记:再谈知识图谱和知识习得】

4 徐令予 武夷山 陆泽橼 邓小钊

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 05:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部