wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

按标题搜索
如何正确使用机器学习中的训练集、验证集和测试集?
热度 3 2019-7-3 10:53
训练集、验证集和测试集,林林总总的数据集合类型,到底该怎么选、怎么用?看过这篇教程后,你就能游刃有余地处理它们了。 问题 审稿的时候,不止一次,我遇到作者 错误使用 数据集合跑模型准确率,并和他人成果比较的情况。 他们的研究创意有的很新颖,应用价值较高,工作可能也做了着实不少。 但因对比方法错误 ...
12483 次阅读|4 个评论 热度 3
如何免费获得高质量标注数据?
2019-6-12 09:46
用第一性原理,破解科研数据获取难题。 标注 自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。 请你再次回顾一下这张图。 我多次外出讲座时,这张图总能让与会者感到眼前一亮。 图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引 ...
6255 次阅读|没有评论
如何用 Pandas 存取和交换数据?
2019-5-31 10:08
本文为你介绍 Pandas 存取数据的3种主要格式,以及使用中的注意事项。 问题 在数据分析的过程里,你已经体会到 Python 生态系统的强大了吧? 数据采集、整理、可视化、统计分析……一直到深度学习,都有相应的 Python 包支持。 但是你会发现,没有任何一个 Python 软件包,是全能的。 这是一种非常好的设计思维— ...
2342 次阅读|没有评论
如何用 Python 和 BERT 做多标签(multi-label)文本分类?
2019-5-21 09:08
10余行代码,借助 BERT 轻松完成多标签(multi-label)文本分类任务。 疑问 之前我写了《 如何用 Python 和 BERT 做中文文本二元分类? 》一文,为你讲解过如何用 BERT 语言模型和迁移学习进行文本分类。 不少读者留言询问: 王老师,难道 BERT 只能支持二元分类吗? 当然 不是 。 BERT 是去年以来非常流行的 ...
4944 次阅读|没有评论
那本 Tensorflow 2.0 奇书,你可以限时免费下载了
2019-5-12 10:49
还记得在《 文科生 Python 与数据科学入门教材推荐 》一文里,我推荐给你的这本书吗? 它的第一版,是数据科学出版史上的奇迹。 就连放在 Github 上 的配套代码,居然都获得了超过 14000 星。 还专门有人,做了一期视频。给你讲为什么这是他读过的,关于深度学习的 最好的一本书 。 视频的链接在 这里 ( http:/ ...
3130 次阅读|没有评论
数据科学入门后,该做什么?
热度 2 2019-5-10 10:28
三种学习方式,助你建构多重网络,获得能力与价值的非线性增长。 疑问 有不少读者,在我的数据科学教程下留言,问我类似这样的问题: 王老师,我已经跟着您的全部教程,从头到尾实践了一遍。中间不懂的地方,也专门看书或者上网查找,补充了知识。感觉数据科学算是入门了。但是之后我该做什么呢?有没有什么进阶教 ...
12173 次阅读|2 个评论 热度 2
你的机器“不肯”学习,怎么办?
热度 1 2019-5-1 08:30
给你讲讲机器学习数据预处理中,归一化(normalization)的重要性。 前情回顾 Previously, on 玉树芝兰 …… 我给你写了一篇《 如何用 Python 和 Tensorflow 2.0 神经网络分类表格数据? 》,为你讲解了 Tensorflow 2.0 处理结构化数据的分类。 结尾处,我给你 留了一个问题 。 把测试集输入模型中,检验效果。 ...
7645 次阅读|1 个评论 热度 1
文科生 Python 与数据科学入门教材推荐
2019-4-22 10:50
从入门到精通,给你推荐几本 Python 与数据科学好书。 需求 最近读者数量增长了不少。有许多新读者留言,说自己想入门 Python 与数据科学,希望我能够推荐一些教材书籍。 老读者们都知道,我经常会在教程末尾的“资源”或者“小结”章节,推荐相关的书目。我推荐的书籍,有个特点,就是写得简明易懂,适合文科生阅 ...
8765 次阅读|没有评论
如何用 Python 和 Tensorflow 2.0 神经网络分类表格数据?
热度 1 2019-4-15 11:51
以客户流失数据为例,看 Tensorflow 2.0 版本如何帮助我们快速构建表格(结构化)数据的神经网络分类模型。 变化 表格数据,你应该并不陌生。毕竟, Excel 这东西在咱们平时的工作和学习中,还是挺常见的。 在之前的教程里,我为你分享过, 如何利用深度神经网络,锁定即将流失的客户 。里面用到的,就是这样的表 ...
6151 次阅读|1 个评论 热度 1
如何用 Python 和 BERT 做中文文本二元分类?
2019-4-8 08:59
兴奋 去年, Google 的 BERT 模型一发布出来,我就很兴奋。 因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《 如何用 Python 和深度迁移学习做文本分类? 》一文分享给你)。ULMfit 和 BERT 都属于预训练语言模型(Pre-trained Language Modeling),具有很多的相似性。 所谓语言模型,就是利 ...
6012 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-5-28 22:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部