【发布时间】:2013-07-03 20:06:48
【问题描述】:
我有一个大型数据集X,其中包含调查对象的人口统计信息。数据主要是分类数据,因此X 中的每一行都包含一组字符串值特征,例如单个受访者的性别、种族、兴趣等。 X 的每一列都是一个响应类别。我已将此数据集加载到 MATLAB/Octave 中的一个大单元格数组中(两者都进行了测试)。我想测量数据集中每个样本与每个其他样本之间的 Jaccard 距离。基本上我想做的是这样的:
dist = zeros(size(X,1)); % Initialize my distance matrix
for ii = 1:size(X,1)
for jj = ii:size(X,1) % Only need the upper triangle since dist is symmetric
% Find the Jaccard distance between the ii-th and jj-th respondent
dist(ii,jj) = 1 - numel(intersect(X(ii,:), X(jj,:))) / numel(union(X(ii,:), X(jj,:)));
end
end
显然我想对代码进行矢量化处理。我曾尝试使用cellfun 和bsxfun 进行矢量化,但是当我执行以下操作时:
res = cellfun('intersect', X, X, 'UniformOutput', false);
我得到一个与X 大小相同的单元格数组,其中 (i,j) 元素等价于intersect(X(i,j), X(i,j));基本上是 (i-j) 单元格中的唯一字符。这对我没有帮助。当我尝试时:
res = bsxfun('intersect', X, X);
我得到一个长单元数组,其中包含(我认为)X 中的任何单元格采用的所有唯一值。这对我也没有帮助。
我想要一个解决方案,使我能够在讨论开始时对代码进行矢量化。如果这样做更容易,那么找到X 的子集与X 中任何一行的最小(或最大)Jaccard 距离的代码将正是我所需要的。
提前致谢!
编辑: 将循环代码更改为仅计算 dist 的上三角形。仍然需要很长时间,而且它是非矢量化的事实让我在哲学层面上感到困惑。
编辑:X 的第一个元素,通过键入 X(1,:) 给出:
ans =
{
[1,1] = Non - U.S. Citizen
[1,2] = Denied
[1,3] = M
[1,4] = CHINA
[1,5] = Full Time
[1,6] = D-Asian American or Pacific Islander
[1,7] =
[1,8] =
[1,9] = MSME
[1,10] =
}
这只是我在等待实际调查结果时用于开发算法的测试数据,但调查结果将具有相似的形式。
编辑:来自X 的更多数据,但为CSV 格式,如下所示:
Non - U.S. Citizen,Denied,M,INDIA,Full Time,E-Other,,,MSME,
Non - U.S. Citizen,Denied,F,INDIA,Full Time,D-Asian American or Pacific Islander,,,MSME,DESIGN
Non - U.S. Citizen,Denied,M,INDIA,Full Time,E-Other,,,MS,
Non - U.S. Citizen,Denied,M,IRAN,Full Time,B-Caucasian American Non-Hispanic,,,PhD,NANO
Non - U.S. Citizen,Left Without Degree,M,JORDAN,Full Time,E-Other,,,,
Non - U.S. Citizen,Denied,F,IRAN,Full Time,E-Other,,,PhD,BIOENG
,Not Attending,M,,Full Time,,,,PhD,
Non - U.S. Citizen,Not Attending,F,IRAN,Full Time,I-International Student,,,PhD,
Non - U.S. Citizen,Denied,M,BANGLADESH,Full Time,E-Other,,,PhD,NANO
Non - U.S. Citizen,Denied,M,BANGLADESH,Full Time,E-Other,,,MS,
【问题讨论】:
-
您发布的 for 循环代码是否有效?
-
确实如此,但在数千个元素长的数据集上运行需要太长时间。我想我可以通过只计算对称距离矩阵的上(或下)三角形来节省一半的时间,但这仍然需要几个小时。
-
你能给出一个 X 的小样本,比如说 10 行吗?
-
你有统计工具箱吗?它包括一个名为
pdist的函数,它有一个选项'jaccard' -
@Schorsch 我不知道
pdist。我现在正在尝试使用它,但收到错误“x 必须是非空矩阵”。我认为这意味着我不能在X中包含空元素,所以我将它们全部替换为X(cellfun('isempty',X)) = 0并且我仍然得到相同的错误。pdist是否适用于字符串值向量?
标签: matlab set octave vectorization