面向初学者的 BERT 文本分类任务答案

【问题标题】：BERT Text Classification Tasks for Beginners面向初学者的 BERT 文本分类任务
【发布时间】：2021-12-24 13:39:56
【问题描述】：

谁能简单地列出为第一个项目的 CS 新手构建 BERT 文本分类器所涉及的任务？我的方法是获取一个段落长度的人道主义援助活动描述列表（在 CSV 文件中具有相应的标题和部门代码），并使用单独的部门代码列表及其句子长描述构建一个能够将部门代码分配给描述的分类器。对于训练、测试和评估，我会将分类器生成的代码与 CSV 文件中的代码进行比较。

对帮助我制定项目任务清单所涉及的高级任务/步骤有什么想法吗？我启动了一个谷歌 CoLab 笔记本，制作了两个 CSV 文件，将它们放在谷歌云存储桶中，我想我必须提取文件，标记数据，然后？理想情况下，我也想坚持使用 Google 工具。

【问题讨论】：

这样的一般问题最好通过博客文章或教程来回答。我建议从那里开始，如果您有与编程错误相关的狭窄、具体的问题，请再回来
请注意：作为计算机科学的第一个项目，与 Bert 一起进行机器学习是非常雄心勃勃的。假设您想了解自己在做什么，则需要获取大量背景知识。我建议从更简单的开始。通常 SO 也适用于编程问题，而您的问题是关于项目的完整设计。如果您可以更具体地提出问题，我建议您改用datascience.stackexchange.com 提问。
感谢您的意见。

标签： python google-colaboratory text-classification bert-language-model

【解决方案1】：

正如 cmets 所说，我建议您从博客或教程开始。使用tensorflowBERT 的模型的常见任务是使用tensorflow_hub。那里有 2 个模块：BERT preprocessor 和 BERT encoder。 Bert 预处理器准备您的数据（使用标记化），下一个将数据转换为数学语言表示。如果您尝试在 2 个话语之间使用余弦相似性，我不得不说，BERT 不适用于此类过程。使用BERT 作为达到目标的步骤是正常的，而不是目标本身。也就是说，构建一个使用 BERT 的模型，但一开始只使用 BERT 来了解它的工作原理。

BERT 预处理

它有多个键（它的输出是一个字典）：

dict_keys(['input_mask', 'input_type_ids', 'input_word_ids'])

分别有“令牌在哪里”、“输入的形状”和“它们的令牌数量”

BERT 编码器

它有多个键（它的输出是一个字典）：

dict_keys(['default', 'encoder_outputs', 'pooled_output', 'sequence_output'])

依次为“与 pooled_output 相同”、“编码器的输出”、“每个话语的上下文”、“话语中每个标记的上下文”。

Take a look here（搜索bert）

Also watch this question I made

【讨论】：