【发布时间】:2021-01-29 00:56:38
【问题描述】:
我正在尝试找到可以最大化我的总和值的最佳组合,但它必须在 2 个特定约束下,因此我假设线性规划将是最合适的。
问题是这样的: 一些世界性的教育活动希望聚集世界上最聪明的青少年学生。 每个州都在以下考试中测试了 10 万名学生:“数学”、“英语”、“计算机”、“历史”、“物理”.. 并且每门考试的评分为 0-100。
每个州都被要求从测试的 100K 学生中发送他们最好的 10K 参加此次活动。
您作为法国代表,被要求从您所在国家/地区的 100K 学生中选出前 10K 名学生。为此,您需要优化他们的 MAX VALUE 以获得最佳的 TOTAL SCORE。
但有 2 个主要限制:
1- 从总共 10,000 名选定的学生中,您需要分配特定学生,这些学生将在上述 5 门科目中仅针对 1 门特定科目进行测试。 需要的分配是:['MATH': 4000, 'ENGLISH':3000,'COMPUTERS':2000, 'HISTORY':750,'PHYSICS':250]
2- 每个“考试科目”分数的权重都必须不同。因为 exp:97 是数学在历史上的价值超过 97。 重量是:['数学':1.9,'英语':1.7,'计算机':1.5,'历史':1.3,'物理':1.1]
我的解决方案: 我尝试将 PULP (python) 用作 LP 库并正确解决它,但运行时间超过 2 小时。 你能找到更好(更快、更简单..)的方法来解决它吗? 有一些 NUMPY LP 函数可以代替使用,也许会更快? 它应该是一个简单的优化问题,因为我让它变得太慢和复杂。 --请仅使用 Python 解决方案
例如,让我们从小范围内看一下同一个问题: 有 30 名学生,您只需要选择 15 名学生,这将为我们提供与以下学科分配需求相关的最佳组合。 所需的分配是- ['MATH': 5, 'ENGLISH':4,'COMPUTERS':3, 'HISTORY':2,'PHYSICS':1]
这是所有 30 名学生和他们的成绩:
运行算法后,输出解为:
这是我原始问题的完整代码(100K 学生):
import pandas as pd
import numpy as np
import pulp as p
import time
t0=time.time()
demand = [4000, 3000, 2000, 750,250]
weight = [1.9,1.7, 1.5, 1.3, 1.1]
original_data= pd.read_csv('GRADE_100K.csv') #created simple csv file with random scores
data_c=original_data.copy()
data_c.index = np.arange(1, len(data_c)+1)
data_c.columns
data_c=data_c[['STUDENT_ID', 'MATH', 'ENGLISH', 'COMPUTERS', 'HISTORY','PHYSICS']]
#DataFrame Shape
m=data_c.shape[1]
n=data_c.shape[0]
data=[]
sublist=[]
for j in range(0,n):
for i in range(1,m):
sublist.append(data_c.iloc[j,i])
data.append(sublist)
sublist=[]
def _get_num_students(data):
return len(data)
def _get_num_subjects(data):
return len(data[0])
def _get_weighted_data(data, weight):
return [
[a*b for a, b in zip(row, weight)]
for row in data
]
data = _get_weighted_data(data, weight)
num_students = _get_num_students(data)
num_subjects = _get_num_subjects(data)
# Create a LP Minimization problem
Lp_prob = p.LpProblem('Problem', p.LpMaximize)
# Create problem Variables
variables_matrix = [[0 for i in range(num_subjects)] for j in range(num_students)]
for i in range(0, num_students):
for j in range(0, num_subjects):
variables_matrix[i][j] = p.LpVariable(f"X({i+1},{j+1})", 0, 1, cat='Integer')
df_d=pd.DataFrame(data=data)
df_v=pd.DataFrame(data=variables_matrix)
ml=df_d.mul(df_v)
ml['coeff'] = ml.sum(axis=1)
coefficients=ml['coeff'].tolist()
# DEALING WITH TARGET FUNCTION VALUE
suming=0
k=0
sumsum=[]
for z in range(len(coefficients)):
suming +=coefficients[z]
if z % 2000==0:
sumsum.append(suming)
suming=0
if z<2000:
sumsum.append(suming)
sumsuming=0
for s in range(len(sumsum)):
sumsuming=sumsuming+sumsum[s]
Lp_prob += sumsuming
# DEALING WITH the 2 CONSTRAINS
# 1-subject constraints
con1_suming=0
for e in range(num_subjects):
L=df_v.iloc[:,e].to_list()
for t in range(len(L)):
con1_suming +=L[t]
Lp_prob += con1_suming <= demand[e]
con1_suming=0
# 2- students constraints
con2_suming=0
for e in range(num_students):
L=df_v.iloc[e,:].to_list()
for t in range(len(L)):
con2_suming +=L[t]
Lp_prob += con2_suming <= 1
con2_suming=0
print("time taken for TARGET+CONSTRAINS %8.8f seconds" % (time.time()-t0) )
t1=time.time()
status = Lp_prob.solve() # Solver
print("time taken for SOLVER %8.8f seconds" % (time.time()-t1) ) # 632 SECONDS
print(p.LpStatus[status]) # The solution status
print(p.value(Lp_prob.objective))
df_v=pd.DataFrame(data=variables_matrix)
# Printing the final solution
lst=[]
val=[]
for i in range(0, num_students):
lst.append([p.value(variables_matrix[i][j]) for j in range(0, num_subjects)])
val.append([sum([p.value(variables_matrix[i][j]) for j in range(0, num_subjects)]),i])
ones_places=[]
for i in range (0, len(val)):
if val[i][0]==1:
ones_places.append(i+1)
len(ones_places)
data_once=data_c[data_c['STUDENT_ID'].isin(ones_places)]
IDs=[]
for i in range(len(ones_places)):
IDs.append(data_once['STUDENT_ID'].to_list()[i])
course=[]
sub_course=[]
for i in range(len(lst)):
j=0
sub_course='x'
while j<len(lst[i]):
if lst[i][j]==1:
sub_course=j
j=j+1
course.append(sub_course)
coures_ones=[]
for i in range(len(course)):
if course[i]!= 'x':
coures_ones.append(course[i])
# adding the COURSE name to the final table
# NUMBER OF DICTIONARY KEYS based on number of COURSES
col=original_data.columns.values[1:].tolist()
dic = {0:col[0], 1:col[1], 2:col[2], 3:col[3], 4:col[4]}
cc_name=[dic.get(n, n) for n in coures_ones]
one_c=[]
if len(IDs)==len(cc_name):
for i in range(len(IDs)):
one_c.append([IDs[i],cc_name[i]])
prob=[]
if len(IDs)==len(cc_name):
for i in range(len(IDs)):
prob.append([IDs[i],cc_name[i], data_once.iloc[i][one_c[i][1]]])
scoring_table = pd.DataFrame(prob,columns=['STUDENT_ID','COURES','SCORE'])
scoring_table.sort_values(by=['COURES', 'SCORE'], ascending=[False, False], inplace=True)
scoring_table.index = np.arange(1, len(scoring_table)+1)
print(scoring_table)
【问题讨论】:
-
看一眼,这似乎是很多价值,但约束相对较少,所以我想无论你做什么都需要很长时间。
-
您好,谢谢!你会建议不同的方法然后线性规划吗?外部想法可能会改善它吗?
-
我不清楚。你想要作为第 1 步:就考试总分选出 10k 最好的学生(以
sum作为汇总函数)和第 2 步:创建可能的最佳组 [4k、3k、2k、1k、0.5k](警告在这里它们是重复的)以最大化您所在国家/地区的每次加权考试的分数? -
嗨!它假设是在 1 个步骤上完成的。你应该从 100K 中选择 10K 学生,并从 5 个可能的科目中为每个学生选择一种要测试的科目。主要目标是选择 10K 学生中最好的组合,并为他们提供最好的考试科目(与他们在考试中获得的分数有关..)。可能的最佳组合将最大化可能的分值。
-
我有两个问题:1. 你说你需要 10,000 名学生每人参加一次考试,但你列出的考试分配总和超过 10,000。这只是一个错字,还是那些考试分配是一个上限,而不是严格的平等。 2. PulP 使用什么求解器?您指定的问题是线性的,但求解器可能会被整数约束绊倒。这实际上是一个网络/分配优化问题,因此该结构可能允许您在没有整数约束的情况下求解,并且如果边界和系数都是整数,则仍然可以获得整数值。
标签: python pandas optimization linear-programming maximize