将 n 组文件组合在一起（随机且不重复）答案

【问题标题】：Combine n sets of files together (randomly and no repetition)将 n 组文件组合在一起（随机且不重复）
【发布时间】：2015-01-06 15:38:25
【问题描述】：

我有以下几组文件：

每个文件都被描述为type-ID-pageNumber-R.xml，即jugement_017_3

第 1 组：

 - Conclusions-009-1-R.xml   
 - Conclusions-010-1-R.xml 
 - Conclusions-011-1-R.xml

第 2 组：

 - Assignation-043-1-R.xml    
 - Assignation-043-2-R.xml 
 - Assignation-045-1-R.xml

第 3 组：

 - Jugement-017-1-R.xml     
 - Jugement-017-2-R.xml  
 - Jugement-017-3-R.xml 
 - Jugement-018-1-R.xml 
 - Jugement-018-2-R.xml

我想使用以下规则将set 1、set 2 和set 3 组合成set 4：

随机组合顺序（每次我们要组合文件时，set 4 中的顺序都会改变）
类型相同的文件可以一个接一个地放置如果它们具有相同的ID

第 4 组：

- Conclusions-009-1-R.xml 
- Jugement-018-1-R.xml 
- Jugement-018-2-R.xml 
- Assignation-043-1-R.xml    
- Assignation-043-2-R.xml
- Conclusions-010-1-R.xml 
- Assignation-045-1-R.xml 
- Conclusions-011-1-R.xml
- Jugement-017-1-R.xml     
- Jugement-017-2-R.xml  
- Jugement-017-3-R.xml

【问题讨论】：

只是让数据结构更能反映语义并打乱来源；选择一个循环来填充集合 4。确保“链接”章节是源中的单位
问题我是否也应该改变文件的到达顺序？含义：即使在源头上洗牌，我也需要洗牌的顺序对吗？
你可以。但是你需要以某种方式保护那里的不变量
@sehe 抱歉，您能解释一下不变量是什么意思。 e
您在问题中列出的限制条件。

标签： c++ algorithm sorting merge

【解决方案1】：

这是我的 0.05 美元实施，以详细说明我的评论：

将所有章节存储在由唯一键（节，章节号）键控的集合中：

using Section = std::string;
using Page    = int;
using Chapter = int;
using Pages   = icl::interval_set<Page>::type;

struct Module {
    Section section;
    Chapter chapter;

    bool operator<(Module const& o) const;
};

using Table = std::map<Module, Pages>;

如您所见，我选择了一个间隔集来存储页面范围。这使得无论输入顺序如何都可以更轻松地进行合并。

那么让我们这样做吧。我以“随机”顺序填写表格：

 struct Fill { Section s; Chapter c; Page p; };
 for (auto& fill : std::vector<Fill> { 
     { "Jugement",    18 , 2 },
     { "Conclusions", 11 , 1 },
     { "Assignation", 43 , 1 },
     { "Assignation", 43 , 2 },
     { "Conclusions", 10 , 1 },
     { "Jugement",    17 , 3 },
     { "Assignation", 45 , 1 },
     { "Jugement",    17 , 1 },
     { "Conclusions", 9  , 1 },
     { "Jugement",    17 , 2 },
     { "Jugement",    18 , 1 },
 })
 {
     table[{fill.s, fill.c}] += fill.p; // add page to (existing) range
 }

就是这样！

现在我们可以像这样按节/章打印模块：

 std::cout << "------------- table: \n";
 for (auto& r:table)
     std::cout << r << "\n";

打印：

 ------------- table: 
 Assignation    43  {[1,2]}
 Assignation    45  {[1,1]}
 Conclusions    9   {[1,1]}
 Conclusions    10  {[1,1]}
 Conclusions    11  {[1,1]}
 Jugement   17  {[1,3]}
 Jugement   18  {[1,2]}

现在我们创建了所需的顺序，让我们添加一些不可预测性（这与混乱略有不同）。

using rv = rw<Table::value_type>;
std::vector<rv> vw(begin(table), end(table));

// blind shuffle
srand(time(0));
std::random_shuffle(vw.begin(), vw.end());

巴姆。我们有一个对模块表条目的引用的打乱视图。 但是！ 随机不是目标。

所以我们从匹配的部分中找到相邻的对，并尝试通过旋转它们来移除它们。当然，有可能没有东西可以交换（来自另一部分），在这种情况下，我们将重复项留在尾随位置：

// try to avoid subsequent modules from equal sections (dup)
auto dup     = [](rv a, rv b) { return a.get().first.section == b.get().first.section; };
auto it      = vw.begin();
auto const e = vw.end();

while(it != e) { // bit redundant, could be while(true)
    it = std::adjacent_find(it, e, dup);
    if (it == e) 
        break;

    auto m = std::find_if(it+1, e, [&] (rv r) { return r.get().first.section != it->get().first.section; });

    if (m == e) {
        it = m;
    } else {
        std::rotate(it+1, m, e);
        it = std::adjacent_find(it, e, dup);
    }
}

当然，打印结果选择：

std::cout << "------------- selection: \n";
for (auto& r : vw)
    std::cout << r.get() << "\n";

可以在此处查看打印一些诊断/跟踪信息的版本：

Live On Coliru

完整列表

Live On Coliru

#include <boost/bind.hpp>
#include <boost/icl/interval_set.hpp>
#include <boost/tuple/tuple_comparison.hpp>
#include <iomanip>
#include <iostream>
#include <map>

namespace icl = boost::icl;

template<typename T> using rw = boost::reference_wrapper<T>;

using Section = std::string;
using Page    = int;
using Chapter = int;
using Pages   = icl::interval_set<Page>::type;

struct Module {
    Section section;
    Chapter chapter;

    bool operator<(Module const& o) const { return boost::tie(section,chapter) < boost::tie(o.section,o.chapter); }
};

using Table = std::map<Module, Pages>;

static inline std::ostream& operator<<(std::ostream& os, Table::value_type const& p) {
    return os << p.first.section << "\t" << p.first.chapter << "\t" << p.second;
}

int main()
{
    std::cout << std::unitbuf;
    Table table;

    {
        struct Fill { Section s; Chapter c; Page p; };
        for (auto& tup : std::vector<Fill> { 
            { "Jugement",    18 , 2 },
            { "Conclusions", 11 , 1 },
            { "Assignation", 43 , 1 },
            { "Assignation", 43 , 2 },
            { "Conclusions", 10 , 1 },
            { "Jugement",    17 , 3 },
            { "Assignation", 45 , 1 },
            { "Jugement",    17 , 1 },
            { "Conclusions", 9  , 1 },
            { "Jugement",    17 , 2 },
            { "Jugement",    18 , 1 },
        })
        {
            table[{tup.s, tup.c}] += tup.p; // add page to (existing) range
        }
    }

    std::cout << "------------- table: \n";
    for (auto& r:table)
        std::cout << r << "\n";

    {
        using rv = rw<Table::value_type>;
        std::vector<rv> vw(begin(table), end(table));

        // blind shuffle
        srand(time(0));
        std::random_shuffle(vw.begin(), vw.end());

        // try to avoid subsequent modules from equal sections (dup)
        auto dup     = [](rv a, rv b) { return a.get().first.section == b.get().first.section; };
        auto it      = vw.begin();
        auto const e = vw.end();

        while(it != e) // bit redundant, could be while(true)
        {
            std::cout << "------------- STATE: \n";
            for (auto& rv:vw)
                std::cout << rv.get() << (it->get_pointer() == rv.get_pointer()? "*\n":"\n");

            it = std::adjacent_find(it, e, dup);
            if (it == e) 
                break;

            std::cout << "------------- dupes: \n";
            std::cout << "\t" << (it+0)->get() << "\n";
            std::cout << "\t" << (it+1)->get() << "\n";

            auto m = std::find_if(it+1, e, [&] (rv r) { return r.get().first.section != it->get().first.section; });

            if (m == e)
            {
                it = m;
            } else
            {
                std::cout << "------------- rotating to: \n";
                std::cout << "\t" << m->get() << "\n";

                std::rotate(it+1, m, e);

                it = std::adjacent_find(it, e, dup);
            }
        }
        std::cout << "------------- selection: \n";
        for (auto& r : vw)
            std::cout << r.get() << "\n";
    }
}

【讨论】：

我试图了解@sehe 算法的功能。我的意思是技术部分，它真的很有趣。 "using, "get_pointer()","get()" 对我来说是新的。算法很简单，但要理解它
如果您愿意，可以使用指针向量。我很懒。 See On Coliru

【解决方案2】：

如果您能以某种方式消除连续放置具有相同 ID 的文件的第二个要求，您的问题可能会简化为 well-known algorithm for random shuffling。

您可以通过改组文件组而不是单个文件来解决此问题（当然，组可能由单个文件组成）。

创建一个数据结构，表示具有特定类型和 ID 的文件组以及一组页面
将您的文件列表组合成组
对一组组运行随机洗牌
将结果展开回单个文件列表

以下是该组结构的外观：

class FileGroup {
    string name;
    string id;
    set<int> pages;
public:
    FileGroup(const string& _name, const string& _id) : name(_name), id(_id) {}
    void addPage(int pg) { pages.insert(pg); }
    ...
};

您的示例数据如下所示：

"Assignation" - "043" - { 1, 2 }
"Assignation" - "045" - { 1 }
"Conclusions" - "009" - { 1 }
"Conclusions" - "010" - { 1 }
"Conclusions" - "011" - { 1 }
"Judgement"   - "017" - { 1, 2, 3 }
"Judgement"   - "018" - { 1, 2 }

现在相关文件的页面将保持在一起，无论您以何种方式随机分组。

【讨论】：

我不完全确定我得到了这个答案。您基本上是在说“放弃要求”吗？然后你建议 Fisher-Yates，而标准库有 std::random_shuffle。随便吧。我实现了您在此处绘制的内容（加上启发式尽力而为，以从相同部分删除相邻模块）
@sehe 这个想法是用可以以统一方式处理的对象（即文件组）替换需要不同处理的对象列表（即可能单独打乱或保存在一起的文件））。在某种程度上，这个解决方案直接来自Dijkstra's railroad fable。这与您实施的想法相同:)
我知道我实现了它 :) 除非我遗漏了什么，否则我会留下两句话，对吧？