LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

C#.NET4.0使用超大Dictionary内存不足问题

admin
2021年3月5日 11:45 本文热度 3874
最近需要实现将 XML 文件中存储的数据统一读取入内存,并快速查询指定数据的功能。当 XML 中的数据量不大时,这个功能非常简单,选择 Dictionary 数据结构,按键值对的方式存储数据就好了,查询也十分便捷。然而,我处理的 XML 数据小则几百万条,大则几千万条,使用传统的方式在 .NET4.0 下会报 “System.OutOfMemory” 的错误。这主要是因为 .NET4.0 下有个硬性限制,单个对象不能超过 2G 。而在 .NET4.5 之后,则可以通过配置程序的 *.exe.config 文件开启超大对象支持,来解决这个问题。当然,必须保证你是 X64 的程序,并且物理内存足够。由于我的程序由于一些第三方开发库限制,必须是基于 .NET4.0 ,虽然物理内存足够,这种方法并不适用。

研究了一下,最后我的解决方案还蛮 Tricky 的,分享给大家。

使用固定长度的Dictionary
可变长度的 Dictionary 在后台实现时,超过某个长度就会自动扩展容量。当数据量很大的时候,这个扩容的过程非常耗费时间和内存,有时候甚至它会占用两倍于当前数据大小的内存。为了避免这种问题,应该使用定长的 Dictionary ,防止它增长。在我的程序中,最大可以将这个长度设置为 4000000 。读者可以按需调整。

// 示例:
Dictionary<long, string> dic = new Dictionary<long, string>(4000000);
创建Dictionary列表对象
既然单个对象不能超过 2G ,那么可以使用多个对象拆分存储不就好了。于是,我试着创建了几个 Dictionary 对象,当前一个 Dictionary 对象的长度超过固定值时,我就将后面的数据存储在下一个 Dictionary 对象中。经过测试,这种方法是可行的。之所以说这个解决方案蛮 Tricky ,就是这个原因。

这里又引申出几个问题,拆分成多少个 Dictionary 对象合适?每个查询数据的地方都需要写循环查询每个 Dictionary 的代码,比较冗余。于是,我将这种方法封装成了一个单独的类,重写了添加、查询的方法。我没有写删除的方法,因为我不需要删除,有需求的读者可以自己写,比较简单。

类代码如下,可参考。

public class NodeDicList
{
    private int capacity; // 每个Dictionary的固定容量
    public List<Dictionary<long, string>> dicList;
    
    public NodeDicList(int cap = 4000000)
    {
        capacity = cap;
        Dictionary<long, string> dic = new Dictionary<long, string>(cap);
        dicList = new List<Dictionary<long, string>>();
        dicList.Add(dic);
    }

// 统计列表总长度
    public int count()
    {
        int count = 0;
        foreach (Dictionary<long, string> dic in dicList)
        {
            count += dic.Count;
        }
        return count;
    }

// 添加新数据,会自动创建新的Dictionary对象
    public void addItem(long key, string p)
    {
        if (dicList.ElementAt(dicList.Count - 1).Count < capacity)
        {
            dicList.ElementAt(dicList.Count - 1).Add(key, p);
        }
        else
        {
            Dictionary<long, string> dic = new Dictionary<long, string>(capacity);
            dicList.Add(dic);
            dic.Add(key, p);
        }
    }

// 查询是否包含某个数据
    public bool containsKeyItem(long key)
    {
        foreach (Dictionary<long, string> dic in dicList)
        {
            if (dic.ContainsKey(key))
            {
                return true;
            }
        }
        return false;
    }

// 获取某个数据的值
    public string getItemByKey(long key)
    {
        foreach (Dictionary<long, string> dic in dicList)
        {
            if (dic.ContainsKey(key))
            {
                return dic[key];
            }
        }
        return null;
    }
}
最后,如果你的对象不是 Dictionary ,是 Array 、List 等等,应该都可以借鉴这个思路。

该文章在 2021/3/5 11:45:14 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2024 ClickSun All Rights Reserved