问题现象

表面现象是系统登录突然失效,排查原因发现,使用redis查询用户信息异常,从而定位到redis问题

if (PassWord.equals(dbPassWord)) {
        map.put("rtn", 1);
        map.put("value", validUser);
        session.setAttribute("username", user.getUsername());                                       
        redisWarehouseControlUtil.addObjectData(user.getUsername(),user.getUsername(),30);
}

排查原因

我的redis使用的是华为云的redis分布式缓存服务,所以在问题排查方面,我们可以结合华为云提供的丰富的分析诊断工具来辅助排查解决问题。

1、问题定位到redis上,登陆redis服务器,发现服务器内存使用率100%。

2、使用华为云的性能监控功能,查询指定时段的内存使用率信息。发现“内存利用率”指标持续接近100%。查询内存使用率超过95%的时间段内,“已逐出的键数量”和“命令最大时延”,均呈现显著上升趋势,表明存在内存不足的问题。

当内存不足时,可能导致Key频繁被逐出、响应时间上升、QPS(每秒访问次数)不稳定等问题,基本上redis服务已经瘫痪。

3、先使用实例诊断功能,大体分析一下可能得问题原因:主要还是内存占用过高问题。

4、使用华为云的缓存分析功能,执行大Key扫描,发现另一个项目的ErrorMeterData key,他是一个list队列,竟然存储数据占了2.6G,还有两个key存储数据占用了几百M,就是这三个key把服务器的内存占满了。

5、分析查找原因:去代码中查找ErrorMeterData key对应的功能,找到了问题所在,这个key存储的是解析出现异常的数据队列,但问题是,开发这个功能的同事,并没有给这个key设置过期时间也没有对这个异常数据队列的数据进行其他处理就一直存在这个队列中,随着时间的增长,以及异常数据的日复一日的不断累加,会导致存储数据太多,终于内存被占满。这是一个非常严重的bug。

问题就出在:redisMeterDataUtil.AddErrorMeterDataList(baseMessage);这一步

private void MeterDataExtractProcess()  {
    boolean rtn = false;
    while (!needClose) {
      // 普通表数据的解析
      try {
        BaseMessage baseMessage = redisMeterDataUtil.getMeterData();
        if (baseMessage != null) {
          if (!baseMessage.getFunctionCode().equals("") && baseMessage.getFunctionCode() != null) {
            switch (baseMessage.getFunctionCode()) {

                // 温控面板解析 --主动上传 批量
              case FunctionCode.UploadTcStateData:
                UploadTcStateDataMessage tcStateDataMessage =
                    new UploadTcStateDataMessage(baseMessage);
                rtn = tcStateDataService.addUploadTcStateDataDataMessage(tcStateDataMessage);
                break;
                //  //根据表号读取,单条    温控面板解析
              case FunctionCode.getTcStateData:
                ReplyTcStateDataMessage replyTcStateDataMessage =
                    new ReplyTcStateDataMessage(baseMessage);
                rtn = tcStateDataService.addTcStateDataMessage(replyTcStateDataMessage);
                break;

              default:
                break;
            }

            if (rtn == false) {
              // 解析方法存储失败,将数据添加到错误队列
              redisMeterDataUtil.AddErrorMeterDataList(baseMessage);
            }
          } else {
            // 若队列数据为空,则线程休眠1s后继续执行
            ThreadSleep(1000);
            continue;
          }
        }
      } catch (Exception e) {
          logger.error("MeterDataExtractServer--表数据redis解析出错"+e.getMessage());
          ThreadSleep(1000);
      }
public void AddErrorMeterDataList(BaseMessage baseMessage) {
        addData(ErrorMeterDataListSign, baseMessage);
    }


private void addData(String type, Object data) {
        String key = type;
        redisTemplate.opsForList().leftPush(key, data);

    }

6、如果你没有使用华为云或者阿里云的专门的redis服务,而是自己在服务器搭建的Redis服务。那么排查问题的步骤和方法,大体可以分为几步:

  1. 查询诊断服务的CPU、内存、硬盘、网络等是否正常
  2. 查看日志分析异常问题
  3. 如果是内存占满问题,则可以在Redis-cli客户端连接实例后,执行大key扫描命令或者执行过期key扫描(过期key扫描会对键空间进行Redis的scan扫描,释放内存中已过期但是由于惰性删除机制而没有释放的内存空间),并查看key的内存占用情况。并对内存占用过大的key进行处理。

如果你想扫描Redis实例中的大key,你可以使用SCAN命令结合TYPE命令来获取每个键的类型,并根据键的类型获取其大小。

以下是一个示例的命令:

bash复制代码

redis-cli SCAN 0 MATCH * COUNT 1000 | while read key; do type=$(redis-cli TYPE $key); size=$(redis-cli -c GET $key | wc -c); echo "$key: $type, Size: $size"; done

这个命令将使用SCAN命令迭代整个数据库,并对每个键执行TYPE命令来获取键的类型。然后,对于字符串类型的键,使用GET命令获取其值,并使用wc -c命令计算其长度。最后,将键、类型和大小输出到终端。

另外,如果你想查看Redis实例的output buffer占用情况,你可以使用CONFIG GET output-buffer-limit命令来获取output buffer的配置信息。该命令将返回output buffer的配置参数,包括类型、大小和阈值。

请注意,上述命令中的redis-cli -c GET $key是用于获取字符串类型的键的大小。对于其他类型的键,你可能需要使用其他命令或方法来获取其大小。

处理措施

1、为内存占用过大的key设置过期时间,这样数据就不会一直存储在队列中

(1)比较紧急想要恢复redis,且队列中的数据不重要,则可以直接链接redis,执行命令

EXPIRE key seconds:设置键的过期时间(以秒为单位),过期后键将被自动删除。

或者

DEL key:删除指定键

(2)在代码中为key设置过期时间

/**
     * 设置设备缓存过期时间(分钟)
     * @param type 设备分类
     */
    private void setExpireTime(String type,int cacheTime) {
        String key = type;
        redisTemplate.expire(key,cacheTime,TimeUnit.MINUTES);
    }

/**
     * 设置表数据缓存失效时间list集合
     */
    public void setMeterInfoExpire() {
        setExpireTime(MeterDataListSign,deviceCacheTime);
    }

2、业务逻辑上将这个异常数据队列的数据,重新返回处理队列,设置返回次数,如果超过三次以上,还是没有被正常队列处理掉,则将异常数据持久化,并删除redis中的该异常数据。

我的实际业务中,异常数据没有重回队列处理的必要了,所以我的业务代码中,直接不在用redis队列存储异常数据,而是直接将异常数据持久化存储到mongodb中。

if (rtn == false) {
     // 解析方法存储失败,将数据添加到错误队列----不再存在redis,直接持久化存储到mongodb
     //redisMeterDataUtil.AddErrorMeterDataList(baseMessage);
     tcErrorMessageHistoryUtil.addMessage(baseMessage);
}

3、设置key的过期时间后,过了一段时间内存恢复正常

总结

在使用redis的对象或者list队列等实例时,要记得给key设置过期时间,避免数据一直堆积无法释放。对于重要的异常数据队列的数据,要进行业务处理:重回队列或数据持久化。

相关文章

CentOS本地部署SQL Server数据库无公网ip环境实现远程访问

GeoServer是OGC Web服务器规范的J2EE实现,利用GeoServer可以方便地发布地图数据,允许用户对要素数据进行更新、删除、插入操作,通过GeoServer可以比较容易地在用户之间迅速共享空间地理信息。另外,GeoServer是开源软件。下面介绍GeoServer web ui 管理界面 结合cpolar 内网穿透工具实现远程访问,

ElasticSearch 集群搭建与状态监控cerebro

在单机上利用docker容器运行多个es实例来模拟es集群。部署es集群可以直接使用docker-compose来完成,但要求Linux虚拟机至少有4GI的内存空间。"number_of_replicas": 1 // 副本数。"number_of_shards": 3,// 分片款量。kibana可以监控es集群,不过新版本需要依赖es的x-pack 功能,配置比较复杂。第一种方式:利用kibana的DevTools创建索引库 ,在DevTools中输入指令。第二种方式:利用cerebro创建索引库。

【微信支付】springboot-java接入微信支付-JSAPI支付/查单/退款/发送红包(四)---发送红包

在发放现金红包之前,请确保你的资金充足。操作路径:【登录商户平台——>交易中心——>资金管理——>充值】和红包相关的参数,你可以在页面上自主设置和更改。操作路径如下:【登录商户平台——>产品中心——>现金红包——>产品设置】在使用现金红包之前,请前往开通现金红包功能。操作路径:【登录微信支付商户平台——>产品中心——>现金红包——>开通】至此,整个微信支付的教程基本结束了,如果有小伙伴有其他问题,欢迎留言或者私信。商户调用微信红包接口时,微信支付服务器会进行证书验证,请现在商户平台下载证书。

[redis] redis的安装,配置与简单操作

Redis是一个开源、基于内存、使用C语言编写的key-value数据库,并提供了多种语言的API。它的数据结构十分丰富,主要可以用于数据库、缓存、分布式锁、消息队列等...Redis服务器程序是单进程模型,也就是在一台服务器上可以同时启动多个Redis进程,Redis的实际处理速度则是完全依靠于主进程的执行效率。若在服务器上只运行一个Redis进程,当多个客户端同时访问时,服务器的处理能力是会有一定程度的下降;

Redis的IO多路复用原理解析

模拟一个tcp服务器处理30个客户socket,一个监考老师监考多个学生,谁举手就应答谁。假设你是一个监考老师,让30个学生解答一道竞赛考题,然后负责验收学生答卷,你有下面几个选择:第一种选择:按顺序逐个验收,先验收A,然后是B,之后是C、D。。。这中间如果有一个学生卡住,全班都会被耽误,你用循环挨个处理socket,根本不具有并发能力。第二种选择:你创建30个分身线程,每个分身线程检查一个学生的答案是否正确。这种类似于为每一个用户创建一个进程或者线程处理连接。

在 Docker 中配置 MySQL 数据库并初始化 Project 项目

这样,您就完成了在 Docker 中配置 MySQL 数据库并初始化 Project 项目的过程。希望这篇博客对您有所帮助!创建目录 /project/mysql 以及 /project/mysql_data。在每个 SQL 文件中,将 AUTO_INCREMENT 修改为 1。将准备好的 SQL 文件复制到 /project/mysql 目录。将 init.sql 放到 /project/mysql 目录。在 SQL 文件中插入管理员相关数据。在 SQL 文件中插入机型相关数据。1.4. 插入管理员。

深入理解Mysql事务隔离级别与锁机制

我们的数据库一般都会并发执行多个事务,多个事务可能会并发的对相同的一批数据进行增删改查操作,可能就会导致我们说的脏写、脏读、不可重复读、幻读这些问题。这些问题的本质都是数据库的多事务并发问题,为了解决多事务并发问题,数据库设计了事务隔离机制、锁机制、MVCC多版本并发控制隔离机制,用一整套机制来解决多事务并发问题。接下来,我们会深入讲解这些机制,让大家彻底理解数据库内部的执行原理。

如何搭建Tomcat服务并结合内网穿透实现公网访问本地站点

Tomcat作为一个轻量级的服务器,不仅名字很有趣(让人想起童年),也拥有强大功能,由于其可以实现JavaWeb程序的装载,就成为配置JSP和Java系统必备的环境软件,也是开发调试JSP程序的首选。Tomcat运行稳定且开源免费,加上apache和Sun的加持即免费和开源的特性,使其广泛应用在中小型系统及并发访问用户较少的场景中。但想要让Tomcat网页能在公共互联网环境下被访问到,就需要cpolar内网穿透的协助。现在。笔者就为大家介绍,如何使用cpolar内网穿透。

Redis数据一致解决方案

在高并发的业务场景下redis与mysql数据库非常容易产生数据不一致的情况,我们可以采用redis缓存延迟双删除策略达到数据的最终一致性,也可以采用一部缓存更新自定义监听mysql binblog和采用canal开源中间件实现缓存的实时一致性方案。总的来说,都是比较简单的,而且都能够达到良好的效果。

如何在Linux设置JumpServer实现无公网ip远程访问管理界面

JumpServer 是广受欢迎的开源堡垒机,是符合 4A 规范的专业运维安全审计系统。JumpServer 帮助企业以更安全的方式管控和登录所有类型的资产,实现事前授权、事中监察、事后审计,满足等保合规要求。下面介绍如何简单设置即可使本地jump server 结合cpolar 内网穿透实现远程访问jump server 管理界面.

AI时代架构设计新模式

本书是一本旨在帮助架构师在人工智能时代展翅高飞的实用指南。全书以ChatGPT为核心工具,揭示了人工智能技术对架构师的角色和职责进行颠覆和重塑的关键点。本书通过共计 13 章的系统内容,深入探讨AI技术在架构设计中的应用,以及AI对传统架构师工作方式的影响。通过学习,读者将了解如何利用ChatGPT这一强大的智能辅助工具,提升架构师的工作效率和创造力。本书的读者主要是架构师及相关从业人员。

复杂 SQL 实现分组分情况分页查询

在处理数据库查询时,分页是一个常见的需求。尤其是在处理大量数据时,一次性返回所有结果可能会导致性能问题。因此,我们需要使用分页查询来限制返回的结果数量。同时,根据特定的条件筛选数据也是非常常见的需求。在本博客中,我们将探讨如何根据 camp_status 字段分为 6 种情况进行分页查询,并根据 camp_type 字段区分活动类型,返回不同的字段。我们将使用 SQL 变量来实现这一功能,并通过示例进行详细解释。

JVM垃圾回收算法

上面这张图代表的是程序运行期间所有对象的状态,它们的标志位全部是0(也就是未标记,以下默认0就是未标记,1为已标记),假设这会儿有效内存空间耗尽了,JVM将会停止应用程序的运行并开启GC线程,然后开始进行标记工作,按照根搜索算法,标记完以后,所有从root对象可达的对象就被标记为了存活的对象,此时已经完成了第一阶段标记。和标记清除算法一样,也是从根节点开始,对对象的引用进行标记,在清理阶段,并不是简单的清理未标记的对象,而是将存活的对象压缩到内存的一端,然后清理边界以外的垃圾,从而解决了碎片化的问题。

【Java 基础篇】Java TCP通信详解

本文介绍了Java中如何使用TCP协议进行网络通信,包括TCP的基础知识、TCP编程的基本步骤、创建TCP服务器和客户端、数据传输等内容。通过学习本文,您可以开始使用TCP协议来构建自己的网络应用程序,实现可靠的数据传输。希望本文能够帮助您更好地理解和应用Java中的TCP通信。

【Java 基础篇】Java多线程实现文件上传详解

本文介绍了如何使用Java多线程实现文件上传功能。通过将文件切割为多个块并使用多线程同时上传,可以提高文件上传的效率。同时,服务器端需要接收和重组这些块数据以还原原始文件。希望本文对您理解文件上传的原理以及如何实现多线程文件上传有所帮助。如果您有任何问题或疑问,请随时提出。

【Java 基础篇】Java网络编程:实现远程文件访问与管理

通过本文,我们深入探讨了如何使用Java实现远程文件访问与管理。我们讨论了建立与远程服务器的连接、文件上传与下载、列出远程目录、文件管理操作以及异常处理等关键方面。这些知识对于构建网络文件系统、文件共享应用程序以及需要进行远程文件操作的应用程序非常重要。希望本文对您理解和应用Java网络编程提供了有价值的信息。通过继续学习和实践,您可以更深入地探索这个领域,从而构建出更加复杂和功能丰富的网络应用程序。祝您编程愉快!

【Java 基础篇】Java网络编程实战:P2P文件共享详解

P2P(Peer-to-Peer)文件共享是一种分布式计算模型,其中每个计算机或设备都可以充当客户端和服务器。这意味着每台计算机都可以上传和下载文件,而不仅仅是从一个中心服务器获取文件。P2P文件共享有许多优势,包括更快的下载速度、更高的可用性和更好的容错性。P2P文件共享是一种强大的分布式文件共享模型,可以提供更快的下载速度和更好的可用性。通过使用Java网络编程,我们可以实现P2P文件共享,让不同的客户端之间可以方便地共享文件。

【Java 基础篇】Java网络编程实时数据流处理

实时数据流是一连串持续不断到达的数据,需要及时处理以获取有用的信息。这些数据可以是传感器读数、用户输入、网络流量、设备状态等等。数据的读取:从数据源(如传感器、网络、文件)读取数据。数据的处理:对读取的数据进行处理、分析或转换。数据的响应:根据处理结果,执行相应的操作或生成响应。Java提供了一些工具和库,使得处理实时数据流变得更加容易。接下来,我们将介绍Java网络编程的基础知识,以及如何使用Java处理实时数据流。本文介绍了如何使用Java进行实时数据流处理。

【Java 基础篇】Java实现文件搜索详解

本文介绍了如何使用Java实现文件搜索功能。我们讨论了文件搜索的基本概念,以及使用递归和广度优先搜索两种常见的搜索方法。此外,还介绍了一些进阶功能,如搜索文件内容和过滤文件类型。在实际应用中,您可以根据需要定制和扩展文件搜索功能,以满足特定的要求。希望本文对您在Java文件搜索方面的工作和学习有所帮助。

【Java 基础篇】Java网络编程:文件下载详解

文件下载是指从一个网络服务器或远程位置传输文件到本地计算机或设备的过程。这些文件可以是文本文件、图像、音频、视频或任何其他类型的数据文件。文件下载在Web浏览器、移动应用程序和桌面应用程序中都是常见的操作。在Java中,您可以使用各种网络协议(如HTTP、FTP、SFTP等)来执行文件下载操作。下面我们将以HTTP协议为例,介绍如何使用Java进行文件下载。本文介绍了如何使用Java进行文件下载,以及文件下载的一些进阶功能和注意事项。
返回
顶部