当前位置:首页 > 科技  > 软件

阿里一面:如何将重复性比较高的 String 类型的地址信息从 20GB 降到几百兆?

来源: 责编: 时间:2024-04-15 18:17:16 320观看
导读这次应该是互联网及软件行业的第三次寒潮,大家在寒潮中一定要继续保持学习,寒潮挺过去以后还是会迎来新的发展机遇。有粉丝去阿里面试,跟码哥分享了其中一题面试问题「如何将重复性比较高的 String 类型的地址信息从 20G

这次应该是互联网及软件行业的第三次寒潮,大家在寒潮中一定要继续保持学习,寒潮挺过去以后还是会迎来新的发展机遇。
oZU28资讯网——每日最新资讯28at.com

有粉丝去阿里面试,跟码哥分享了其中一题面试问题「如何将重复性比较高的 String 类型的地址信息从 20GB 降到几百兆?」。oZU28资讯网——每日最新资讯28at.com

今天,码哥从多个角度带你完全攻克这个知识点,让面试官眼前一亮。oZU28资讯网——每日最新资讯28at.com

切入正文......oZU28资讯网——每日最新资讯28at.com

莫慌,今天给大家见识一下不一样的 String,从根上拿捏直达 G 点。oZU28资讯网——每日最新资讯28at.com

并且码哥分享一个例子:通过性能调优我们能实现百兆内存轻松存储几十 G 数据。oZU28资讯网——每日最新资讯28at.com

String对象是我们每天都「摸」的对象类型,但是她的性能问题我们却总是忽略。oZU28资讯网——每日最新资讯28at.com

爱她,不能只会简单一起玩耍,要深入了解String 的内心深处,做一个「心有猛虎,细嗅蔷薇」的暖男。oZU28资讯网——每日最新资讯28at.com

通过以下几点分析,我们一步步揭开她的衣裳,直达内心深处,提升一个 Level,让 String 直接起飞。oZU28资讯网——每日最新资讯28at.com

String 身体解密

想要深入了解,就先从基本组成开始……oZU28资讯网——每日最新资讯28at.com

「String 缔造者」对 String 对象做了大量优化来节省内存,从而提升 String 的性能:oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

Java 6 及之前

数据存储在 char[]数组中,String通过 offset 和 count两个属性定位 char[] 数据获取字符串。oZU28资讯网——每日最新资讯28at.com

这样可以高效快速的定位并共享数组对象,并且节省内存,但是有可能导致内存泄漏。oZU28资讯网——每日最新资讯28at.com

共享 char 数组为啥可能会导致内存泄漏呢?oZU28资讯网——每日最新资讯28at.com

String(int offset, int count, char value[]) {    this.value = value;    this.offset = offset;    this.count = count;}public String substring(int beginIndex, int endIndex) {    //check boundary    return  new String(offset + beginIndex, endIndex - beginIndex, value);}

调用 substring() 的时候虽然创建了新的字符串,但字符串的值 value 仍然指向的是内存中的同一个数组,如下图所示:oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

如果我们仅仅是用 substring 获取一小段字符,而原始 string字符串非常大的情况下,substring 的对象如果一直被引用。oZU28资讯网——每日最新资讯28at.com

此时 String 字符串也无法回收,从而导致内存泄露。oZU28资讯网——每日最新资讯28at.com

如果有大量这种通过 substring 获取超大字符串中一小段字符串的操作,会因为内存泄露而导致内存溢出。oZU28资讯网——每日最新资讯28at.com

JDK7、8

去掉了 offset 和 count两个变量,减少了 String 对象占用的内存。oZU28资讯网——每日最新资讯28at.com

substring 源码:oZU28资讯网——每日最新资讯28at.com

public String(char value[], int offset, int count) {    this.value = Arrays.copyOfRange(value, offset, offset + count);}public String substring(int beginIndex, int endIndex) {    int subLen = endIndex - beginIndex;    return new String(value, beginIndex, subLen);}

substring() 通过 new String() 返回了一个新的字符串对象,在创建新的对象时通过 Arrays.copyOfRange() 深度拷贝了一个新的字符数组。oZU28资讯网——每日最新资讯28at.com

如下图所示:oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

String.substring 方法不再共享 char[]数组的数据,解决了可能内存泄漏的问题。oZU28资讯网——每日最新资讯28at.com

Java 9

将 char[]字段改为 byte[],新增 coder属性。oZU28资讯网——每日最新资讯28at.com

码哥,为什么这么改呢?oZU28资讯网——每日最新资讯28at.com

一个 char 字符占 2 个字节,16 位。存储单字节编码内的字符(占一个字节的字符)就显得非常浪费。oZU28资讯网——每日最新资讯28at.com

为了节约内存空间,于是使用了 1 个字节占 8 位的 byte 数组来存放字符串。oZU28资讯网——每日最新资讯28at.com

勤俭节约的女神,谁不爱……oZU28资讯网——每日最新资讯28at.com

新属性 coder 的作用是:在计算字符串长度或者使用 indexOf()方法时,我们需要根据编码类型来计算字符串长度。oZU28资讯网——每日最新资讯28at.com

coder 的值分别表示不同编码类型:oZU28资讯网——每日最新资讯28at.com

  • 0:表示使用 Latin-1 (单字节编码);
  • 1:使用UTF-16。

String 的不可变性

了解了String 的基本组成之后,发现 String 还有一个比外在更性感的特性,她被 final关键字修饰,char 数组也是。oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

我们知道类被 final 修饰代表该类不可继承,而 char[]被 final+private 修饰,代表了 String 对象不可被更改。oZU28资讯网——每日最新资讯28at.com

String 对象一旦创建成功,就不能再对它进行改变。oZU28资讯网——每日最新资讯28at.com

Chaya:“String class 对象使用 final 修饰有什么好处?”oZU28资讯网——每日最新资讯28at.com

安全性oZU28资讯网——每日最新资讯28at.com

当你在调用其他方法时,比如调用一些系统级操作指令之前,可能会有一系列校验。oZU28资讯网——每日最新资讯28at.com

如果是可变类的话,可能在你校验过后,它的内部的值又被改变了,这样有可能会引起严重的系统崩溃问题。oZU28资讯网——每日最新资讯28at.com

高性能缓存oZU28资讯网——每日最新资讯28at.com

String不可变之后就能保证 hash值得唯一性,使得类似 HashMap容器才能实现相应的 key-value 缓存功能。oZU28资讯网——每日最新资讯28at.com

实现字符串常量池oZU28资讯网——每日最新资讯28at.com

由于不可变,才得以实现字符串常量池。oZU28资讯网——每日最新资讯28at.com

字符串常量池指的是在创建字符串的时候,先去「常量池」查找是否创建过该「字符串」;oZU28资讯网——每日最新资讯28at.com

如果有,则不会开辟新空间创建字符串,而是直接把常量池中该字符串的引用返回给此对象。oZU28资讯网——每日最新资讯28at.com

创建字符串的两种方式:oZU28资讯网——每日最新资讯28at.com

  • String str1 = “码哥字节”;
  • String str2 = new String(“码哥字节”);

当代码中使用第一种方式创建字符串对象时,JVM 首先会检查该对象是否在字符串常量池中,如果在,就返回该对象引用。oZU28资讯网——每日最新资讯28at.com

否则新的字符串将在常量池中被创建,并返回该引用。oZU28资讯网——每日最新资讯28at.com

这样可以减少同一个值的字符串对象的重复创建,节约内存。oZU28资讯网——每日最新资讯28at.com

第二种方式创建,在编译类文件时,"码哥字节" 字符串将会放入到常量结构中,在类加载时,“码哥字节" 将会在常量池中创建;oZU28资讯网——每日最新资讯28at.com

在调用 new 时,JVM 命令将会调用 String 的构造函数,在堆内存中创建一个 String 对象,同时该对象指向「常量池」中的“码哥字节”字符串,str 指向刚刚在堆上创建的 String 对象;oZU28资讯网——每日最新资讯28at.com

如下图:oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

什么是对象和对象引用呀?oZU28资讯网——每日最新资讯28at.com

str 属于方法栈的字面量,它指向堆中的 String 对象,并不是对象本。oZU28资讯网——每日最新资讯28at.com

对象在内存中是一块内存地址,str 则是指向这个内存地址的引用。oZU28资讯网——每日最新资讯28at.com

也就是说 str 并不是对象,而只是一个对象引用。oZU28资讯网——每日最新资讯28at.com

码哥,字符串的不可变到底指的是什么呀?oZU28资讯网——每日最新资讯28at.com

String str = "Java";str = "Java,yyds"

第一次赋值 「Java」,第二次赋值「Java,yyds」,str 值确实改变了,为什么我还说 String 对象不可变呢?oZU28资讯网——每日最新资讯28at.com

这是因为 str 只是 String 对象的引用,并不是对象本身。oZU28资讯网——每日最新资讯28at.com

真正的对象依然还在内存中,没有被改变。oZU28资讯网——每日最新资讯28at.com

优化实战

了解了 String 的对象实现原理和特性,是时候要深入女神内心,结合实际场景,如何更上一层楼优化 String 对象的使用。oZU28资讯网——每日最新资讯28at.com

大量字符串拼接对象如何优化

既然 String 对象是不可变,所以我们在频繁拼接字符串的时候是否意味着创建多个对象呢?oZU28资讯网——每日最新资讯28at.com

String str = "癞蛤蟆撩青蛙" + "长的丑" + "玩的花";

上面你的代码,你是不是以为先生成「癞蛤蟆撩青蛙」对象,再生成「癞蛤蟆撩青蛙长的丑」对象,最后生成「癞蛤蟆撩青蛙长得丑玩的花」对象。oZU28资讯网——每日最新资讯28at.com

实际运行中,只有一个对象生成。oZU28资讯网——每日最新资讯28at.com

Chaya:这是为什么呢?oZU28资讯网——每日最新资讯28at.com

虽然代码写的丑陋,但是编译器自动优化了代码。再看下面例子:oZU28资讯网——每日最新资讯28at.com

String str = "小青蛙";for(int i=0; i<1000; i++) {     str += i;}

上面的代码编译后,你可以看到编译器同样对这段代码进行了优化。oZU28资讯网——每日最新资讯28at.com

Java 在进行字符串的拼接时,JVM 编译器会把上述代码优化,偏向使用 StringBuilder,这样可以提高程序的效率。优化后的代码如下。oZU28资讯网——每日最新资讯28at.com

String str = "小青蛙";for(int i=0; i<1000; i++) {            str = (new StringBuilder(String.valueOf(str))).append(i).toString();}

即使如此,还是循环内重复创建 StringBuilder对象。oZU28资讯网——每日最新资讯28at.com

敲黑板oZU28资讯网——每日最新资讯28at.com

所以做字符串拼接的时候,我建议你还是要显示地使用 String Builder 来提升系统性能。oZU28资讯网——每日最新资讯28at.com

如果在多线程编程中,String 对象的拼接涉及到线程安全,你可以使用 StringBuffer。oZU28资讯网——每日最新资讯28at.com

重复性高的 String 信息优化

重点在于使用运用 intern 节省内存。直接看intern() 方法的定义与源码:oZU28资讯网——每日最新资讯28at.com

图片图片oZU28资讯网——每日最新资讯28at.com

intern() 是一个本地方法,它的定义中说的是,当调用 intern 方法时,如果字符串常量池中已经包含此字符串,则直接返回此字符串的引用。oZU28资讯网——每日最新资讯28at.com

否则将此字符串添加到常量池中,并返回字符串的引用。oZU28资讯网——每日最新资讯28at.com

如果不包含此字符串,先将字符串添加到常量池中,再返回此对象的引用。oZU28资讯网——每日最新资讯28at.com

Chaya:什么情况下适合使用 intern() 方法?oZU28资讯网——每日最新资讯28at.com

Twitter 工程师曾分享过一个 String.intern() 的使用示例,Twitter 每次发布消息状态的时候,都会产生一个地址信息,以当时 Twitter 用户的规模预估,服务器需要 20G 的内存来存储地址信息。oZU28资讯网——每日最新资讯28at.com

public class Location {    private String city;    private String region;    private String countryCode;    private double longitude;    private double latitude;}

考虑到其中有很多用户在地址信息上是有重合的,比如,国家、省份、城市等,这时就可以将这部分信息单独列出一个类,以减少重复,代码如下:oZU28资讯网——每日最新资讯28at.com

public class SharedLocation {  private String city;  private String region;  private String countryCode;}public class Location {  private SharedLocation sharedLocation;  double longitude;  double latitude;}

通过优化,数据存储大小减到了 20G 左右。oZU28资讯网——每日最新资讯28at.com

但对于内存存储这个数据来说,依然很大,怎么办呢?oZU28资讯网——每日最新资讯28at.com

Twitter 工程师使用 String.intern() 使重复性非常高的地址信息存储大小从 20G 降到几百兆,从而优化了 String 对象的存储。oZU28资讯网——每日最新资讯28at.com

核心代码如下:oZU28资讯网——每日最新资讯28at.com

SharedLocation sharedLocation = new SharedLocation();sharedLocation.setCity(messageInfo.getCity().intern());sharedLocation.setCountryCode(messageInfo.getRegion().intern());sharedLocation.setRegion(messageInfo.getCountryCode().intern());

弄个简单例子方便理解:oZU28资讯网——每日最新资讯28at.com

String a =new String("abc").intern();String b = new String("abc").intern();System.out.print(a==b);

输出结果:true。oZU28资讯网——每日最新资讯28at.com

在加载类的时候会在常量池中创建一个字符串对象,内容是「abc」。oZU28资讯网——每日最新资讯28at.com

创建局部 a 变量时,调用 new Sting() 会在堆内存中创建一个 String 对象,String 对象中的 char 数组将会引用常量池中字符串。oZU28资讯网——每日最新资讯28at.com

在调用 intern 方法之后,会去常量池中查找是否有等于该字符串对象的引用,有就返回引用。oZU28资讯网——每日最新资讯28at.com

创建 b 变量时,调用 new Sting() 会在堆内存中创建一个 String 对象,String 对象中的 char 数组将会引用常量池中字符串。oZU28资讯网——每日最新资讯28at.com

在调用 intern 方法之后,会去常量池中查找是否有等于该字符串对象的引用,有就返回引用给局部变量。oZU28资讯网——每日最新资讯28at.com

而刚在堆内存中的两个对象,由于没有引用指向它,将会被垃圾回收。oZU28资讯网——每日最新资讯28at.com

所以 a 和 b 引用的是同一个对象。oZU28资讯网——每日最新资讯28at.com

字符串分割优化

split() 方法使用了正则表达式实现了其强大的分割功能,而正则表达式的性能是非常不稳定的。oZU28资讯网——每日最新资讯28at.com

使用不恰当会引起回溯问题,很可能导致 CPU 居高不下。oZU28资讯网——每日最新资讯28at.com

Java 正则表达式使用的引擎实现是 NFA(Non deterministic Finite Automaton,确定型有穷自动机)自动机,这种正则表达式引擎在进行字符匹配时会发生回溯(backtracking),而一旦发生回溯,那其消耗的时间就会变得很长,有可能是几分钟,也有可能是几个小时,时间长短取决于回溯的次数和复杂度。oZU28资讯网——每日最新资讯28at.com

所以我们应该慎重使用 split() 方法,我们可以用String.indexOf()方法代替 split() 方法完成字符串的分割。oZU28资讯网——每日最新资讯28at.com

最后,出一个问题给大家,欢迎在评论区留言。oZU28资讯网——每日最新资讯28at.com

通过三种不同的方式创建了三个对象,再依次两两匹配,每组被匹配的两个对象是否相等?代码如下:oZU28资讯网——每日最新资讯28at.com

String str1 = "abc";String str2 = new String("abc");String str3 = str2.intern();assertSame(str1 == str2);assertSame(str2 == str3);assertSame(str1 == str3)

博主简介

码哥,9 年互联网公司后端工作经验,InfoQ 签约作者、51CTO Top 红人,阿里云开发者社区专家博主,目前担任后端架构师主责,擅长 Redis、Spring、Kafka、MySQL技术和云原生微服务。oZU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-83641-0.html阿里一面:如何将重复性比较高的 String 类型的地址信息从 20GB 降到几百兆?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 首屏时间,你说你优化了,那你倒是计算出来给我看啊!

下一篇: 深入理解Transformer技术原理

标签:
  • 热门焦点
  • K60 Pro官方停产 第三方瞬间涨价

    虽然没有官方宣布,但Redmi的一些高管也已经透露了,Redmi K60 Pro已经停产且不会补货,这一切都是为了即将到来的K60 Ultra铺路,属于厂家的正常操作。但有意思的是该机在停产之后
  • Raft算法:保障分布式系统共识的稳健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可复制、可冗余、可容错”)的首字母缩写。Raft算法是一种用于在分布式系统
  • 把LangChain跑起来的三个方法

    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来
  • 一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 电视息屏休眠仍有网络上传 爱奇艺被质疑“薅消费者羊毛”

    记者丨宁晓敏 见习生丨汗青出品丨鳌头财经(theSankei) 前不久,爱奇艺发布了一份亮眼的一季报,不仅营收和会员营收创造历史最佳表现,其运营利润也连续6个月实现增长。自去年年初
  • 10天营收超1亿美元,《星铁》比《原神》差在哪?

    来源:伯虎财经作者:陈平安即便你没玩过《原神》,你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天,有粉丝因为索尼在PS平台上线《原神》,怒而
  • iQOO Neo8 Pro评测:旗舰双芯加持 最强性能游戏旗舰

    【Techweb评测】去年10月,iQOO推出了一款Neo7手机,该机搭载了联发科天玑9000+,配备独显芯片Pro+,带来了同价位段最佳的游戏体验,一经上市便受到了诸多用
  • Meta盲目扩张致超万人被裁,重金押注元宇宙而前景未明

    图片来源:图虫创意日前,Meta创始人兼CEO 马克&middot;扎克伯发布公开信,宣布Meta计划裁员超11000人,占其员工总数13%。他公开承认了自己的预判失误:&ldquo;不仅
Top