【发布时间】:2021-10-19 09:35:52
【问题描述】:
我搜索了很多,但仍然没有一个明确的想法,所以我希望你能帮助我:
我正在尝试将德语文本翻译成英语!我使用了这段代码:
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-de-en")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-de-en")
batch = tokenizer(
list(data_bert[:100]),
padding=True,
truncation=True,
max_length=250,
return_tensors="pt")["input_ids"]
results = model(batch)
这给了我一个尺寸错误!我解决了这个问题(感谢社区:https://github.com/huggingface/transformers/issues/5480),将最后一行代码切换为:
results = model(input_ids = batch,decoder_input_ids=batch)
现在我的输出看起来像一个很长的数组。这个输出到底是什么?这些是某种词嵌入吗?如果是的话:我该如何继续将这些嵌入转换为英语文本?非常感谢!
【问题讨论】:
标签: translation bert-language-model huggingface-transformers word-embedding