【问题标题】:What is the best way to read and then update record in a binary file with c#用c#读取然后更新二进制文件中记录的最佳方法是什么
【发布时间】:2021-03-04 10:29:39
【问题描述】:

我正在尝试编辑二进制文件中的一些记录,但我似乎无法掌握它。

我可以读取文件,但是找不到我想要编辑记录的位置,所以我可以替换。

这是我目前的代码:

public MyModel Put(MyModel exMyModel)
{
        List<MyModel> list = new List<MyModel>();

        try
        {
            IFormatter formatter = new BinaryFormatter();

            using (Stream stream = new FileStream(_exMyModel, FileMode.Open, FileAccess.Read, FileShare.Read))
            {
                while (stream.Position < stream.Length)
                {
                    var obj = (MyModel)formatter.Deserialize(stream);
                    list.Add(obj);
                }
            
                MyModel mymodel = list.FirstOrDefault(i => i.ID == exMyModel.ID);
                mymodel.FirstName = exMyModel.FirstName;
                mymodel.PhoneNumber = exMyModel.PhoneNumber;
                
                // Now I want to update the current record with this new object
                // ... code to update
            }

            return phoneBookEntry;
        }
        catch (Exception ex)
        {
            Console.WriteLine("The error is " + ex.Message);
            return null;
        }
}

我真的被困在这里了,伙计们。任何帮助将不胜感激。

我已经检查了这些答案:

提前谢谢你:)

【问题讨论】:

  • 你不能替换序列化流上的字符串值,除非至少重写该记录和 all 记录,因为长度可能已经改变。为什么不直接使用 DB?
  • 真的很重要:不要使用BinaryFormatter。几乎从来没有。这是非常危险的,它伤害你——唯一的问题是“何时”。当前的 .NET 版本(即:.NET 5、.NET Core 等)也不支持它
  • “我只有 2 小时的时间来交付” - 你想要做的事情需要从根本上重新考虑你正在做的 what - 这似乎不仅仅是 2对我来说小时问题(我对二进制序列化“有点熟悉”)
  • BSON 是 JSON 的二进制等价物,这使得序列化相对容易。协议缓冲区是另一种类似的格式。 HDF5 是允许修改的大型数据集的二进制格式。类似的大数据格式有 Avro、Orc 和 Parquet。有了大数据,你无法通过重写文件来修改记录,甚至无法读取整个文件来查找记录
  • “更好”是主观的和上下文的;但是,几乎任何东西都比使用BinaryFormatter 更好;存在一系列支持良好的序列化框架,使用多种格式——文本和二进制;但是编辑文件的中间而不重写之后的所有内容:需要认真的设计

标签: c# asp.net .net asp.net-core binaryfiles


【解决方案1】:

我建议只将所有对象写回流。您也许可以只写更改后的对象和每个对象,但我不会打扰。

首先重置流:stream.Position = 0。然后,您可以编写一个循环并使用 formatter.Serialize(stream, object) 序列化每个对象

如果这是一项编码任务,我猜你在这件事上别无选择。但是您应该知道 BinaryFormatter 存在各种问题。它或多或少地以与存储在内存中的方式相同的方式保存对象。这是低效、不安全的,并且对类的更改可能会阻止您反序列化存储的对象。今天最常见的序列化方法是json,但也有像protobuf.net这样的二进制替代方法。

【讨论】:

  • 哦,乔纳斯,要是你早点出现就好了:P... protobuf.net 似乎是一个不错的选择,但我只是没有时间深入研究它。我想我会尝试使用你的第一个选择。我会告诉你进展如何
【解决方案2】:

您如何更新文件将在很大程度上取决于您的记录是否序列化为固定长度。

可变长度记录

由于您在记录中使用字符串,因此字符串长度(作为序列化字节)的任何更改或影响序列化对象长度的任何其他更改都将导致无法对记录进行就地更新。

考虑到这一点,您将不得不做一些额外的工作。

首先,测试读取循环中的对象。在反序列化每个对象之前捕获当前位置,测试对象的等效性,在找到要查找的记录时保存偏移量,然后反序列化流中的其余对象......或将流的其余部分复制到MemoryStream 实例供以后使用。

接下来,将stream.Positionstream.Length 设置为您正在更新的记录的起始位置,截断文件。将记录的新副本序列化到流中,然后将保存其余记录的MemoryStream 复制回流中...或捕获并序列化其余对象。

换句话说(未经测试但显示一般结构):

public MyModel Put(MyModel exMyModel)
{
    try
    {
        IFormatter formatter = new BinaryFormatter();
        using (Stream stream = File.Open(_exMyModel))
        using (var buffer = new MemoryStream())
        {
            long location = -1;
            while (stream.Position < stream.Length)
            {
                var position = stream.Position;
                var obj = (MyModel)formatter.Deserialize(stream);
                if (obj.ID == exMyModel.ID)
                {
                    location = position;
                    stream.CopyTo(buffer);
                    buffer.Position = 0;
                    stream.Position = stream.Length = position;
                }
            }
            formatter.Serialize(stream);
            if (location > 0 && buffer.Length > 0)
            {
                buffer.CopyTo(stream);
            }
        }
        return phoneBookEntry;
    }
    catch (Exception ex)
    {
        Console.WriteLine("The error is " + ex.Message);
        return null;
    }
}

请注意,与反序列化记录然后再次序列化它们相比,保存序列化数据的MemoryStream 通常会更快且占用更少的内存。

静态长度记录

这不太可能,但如果您的记录类型被注释为 总是 序列化为相同的字节数,那么您可以跳过与 MemoryStream 相关的所有内容并截断二进制文件。在这种情况下,只需读取记录,直到找到正确的记录,将流倒回到该位置(读取后)并写入记录的新副本。

您必须自己检查类以查看字符串属性上的序列化修饰符属性的类型,我建议使用不同的字符串值对此进行广泛测试,以确保您实际上获得相同的数据长度为他们所有人。添加或删除单个字节将搞砸文件中的其余记录。

边缘情况 - 相同长度的字符串

由于用相同长度的数据替换记录只需要覆盖而不是重写文件,因此在获取文件的其余部分之前测试记录长度可能会有一些用处。如果幸运并且修改后的记录长度相同,那么只需回到正确的位置并就地写入数据。这样,如果您有一个包含大量记录的文件,只要长度相同,您将获得更快的更新。

更改格式...

您说这是一项编码任务,因此您可能无法选择此选项,但是如果您可以更改存储格式……我们就说BinaryFormatter 绝对不是您的朋友。 如果您可以选择,还有更好的方法来做到这一点。 SQLite 是我选择的二进制格式 :)

实际上,由于这似乎是一个编码测试,您可能需要指出这一点。编写他们要求的代码,然后如果您有时间编写不依赖于BinaryFormatter 的更好的格式,或者将 SQLite 扔给问题。使用像 LinqToDB 这样的 ORM 使 SQLite 变得微不足道。向他们解释他们使用的文件格式本质上是不稳定的,应该用稳定、受支持和高效的文件格式替换。

【讨论】:

  • 科里您好,感谢您的回答。我接受了它,进行了一些调整,并对其进行了测试,但是代码会创建一条新记录,它不会更新当前记录。其他要求之一是不要使用 SQLite,因为我想到了这一点。您认为在这种情况下,在我加载所有文件后更新记录,通过 linq 更新它,然后用更改再次重写所有文件,这是一个好主意吗?
  • @IdevDev 这将执行更新或追加操作。如果它总是追加一条新记录,则在文件中找不到所提供记录的 ID。
  • 它找到了 id,并且仍然继续在文件上附加具有相同 id 的另一条记录,以及更改的数据。
  • 您是如何解决stream.Position = stream.Length = position; 的错误的?应该是stream.SetLength(stream.Position = position); 或将其分成两行。我刚刚在 LINQPad 中测试了这个东西,除此之外它都可以工作。哦,还有一个非常简单的记录类型。
  • 你好Corey,我把它分成了两部分。我设法使它工作。谢谢你。我会多测试几次,然后接受你的回答。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2011-10-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-10-29
  • 2019-09-12
相关资源
最近更新 更多