【发布时间】:2021-09-02 19:41:10
【问题描述】:
我有两个张量:
a = torch.randn((1, 30, 1220)) # represents text embedding vector (30 spans, each with embedding size of 1220)
b = torch.randn((1, 128, 256)) # represents image features obtained from a pretrained CNN (object detection)
-
如何将
b中的所有内容连接到a的 30 个跨度中的每一个? -
如何将整个
b连接到整个a?
这就是我想要做的:
作者只提供了以下文字:
我正在从 3d 点云(类似于 CNN,但用于 3d)中提取特征(红色轮廓),如下所示:
【问题讨论】:
-
[...]
128, 256):这些是你的空间维度吗? -
是的,这些是代表图像中所有对象位置的空间维度。
-
他们不是更详细地描述了
e_n的尺寸吗? -
这是我为 e_n 找到的(这是矢量化的跨度表示)
Shape: (batch_size, num_spans, embedding_size + 2 * encoding_dim + feature_size) -
好吧,似乎有一个缺失的部分,如果你想连接
axis=2上的那些,你需要在你的CNN输出中的某个地方有num_spans。你知道num_spans对应什么吗?是随便选的吗?
标签: python machine-learning deep-learning pytorch concatenation