【发布时间】:2011-05-29 04:14:28
【问题描述】:
我提出这个问题是为了寻求有关如何设计系统的实用建议。
amazon.com 和 pandora 等网站拥有并维护着庞大的数据集来运营其核心业务。例如,亚马逊(以及其他所有主要电子商务网站)有数百万种产品可供出售,这些产品的图片、价格、规格等等等。
忽略来自第三方卖家的数据和用户生成的内容,所有“东西”必须来自某个地方并由某人维护。它也非常详细和准确。如何?他们是怎么做到的呢?是只有一大群数据录入员,还是他们设计了系统来处理繁重的工作?
我的公司也有类似的情况。我们维护着一个庞大的(10 万条记录)汽车零件目录及其适合的汽车。我们已经有一段时间了,并提出了许多程序和流程来保持我们的目录不断增长和准确;但是,似乎要将目录增长到 x 个项目,我们需要将团队增长到 y。
我需要想出一些方法来提高数据团队的效率,希望我可以从其他人的工作中学习。任何建议都表示赞赏,但更多的是指向我可以花一些时间阅读的内容的链接。
【问题讨论】:
标签: database dataset large-data