33 周刊 | 这周我看见的

HackPython 致力于有趣有价值的编程教学

33 周刊 | 这周我看见的

1.80 亿参数的 GPT-2

前面以谈及多次，目前深度学习领域的一个趋势就是「大力出奇迹」，当然，「大力」也是有一些技巧的，只是这些技巧更多是工程上的细节，而不是论文观点上的突破，如去年的「BigGAN」，使用「大」的 Batch 让 GAN 生成超高清的逼真图片，如下：

33 周刊 | 这周我看见的

而 GPT-2 最近也迎来了自己的参数巅峰 (80 亿)，通常而言，模型参数越多，模型的泛化能力也就越强，所以，不用多说 80 亿参数的 GPT-2 表现非常好。

与传统 GPT-2 模型使用的 Transformer 不同，英伟达为了快速训练超多参数的 GPT-2 自己编写了 Faster-Transformer，与旧 Tranformer 的主要区别在于其前向计算的实现，目前我也没有去看其具体的代码，不多评论。

1.80 亿 GPT-2 Github: https://github.com/NVIDIA/Megatron-LM 2.Faster-Transformer github: https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

2.微软小冰全新框架

8 月 15 号，微软发布了 Avatar Framework (虚拟助理框架)，据说可以让你从零开始轻松创造并训练专属于自己的 AI，这里所谓的从零开始并不是说由你来提供语料数据进行训练，而是类似于游戏定制角色那样，拖动一下选项条定制头发颜色等等。

33 周刊 | 这周我看见的

这种方式其实就是改变了模型中对不同领域语料的权重，从而在回答问题时实现不同的回答效果。这点如何在工程上做到，我很感兴趣。

3.使用 Handout，将 Python 转为 HTML 展示

Handout 库可以将 Python 文件中注释中 markdonw 部分转为 html 中相应的样式，从而方便演讲者使用。

简单使用，效果如下：

33 周刊 | 这周我看见的

注意，Python 中块注释，必须使用 """ """。

Handout 主要方法如下

33 周刊 | 这周我看见的

本周金句

如果你研究的技术提前了 10 年，在这十年中都会很孤独。我们一直在注意避免过于超前的研究 -- 微软小冰负责人李笛

结尾

个人阅读以及精力有限，欢迎大家留言将有趣的内容分享出来，最后欢迎学习 HackPython 的教学课程并感觉您的阅读与支持。

????????