[Lua5.4.4源码].字符串

TString内存结构

TString 的内存结构分为公共头和内容,所以其实我们的字符串真正存储的地方是 contents 里面的，因为是C语言，所以其实还会在后面添一个'\0'

从TString的内存结构我们可以看出真正变化大小的因素是contents 里面的内容,所以我们可以这么求
- offsetof(TString, contents) 相对于TString开始到contents的字节偏移量,其实也就是公共头的字节大小
- (l) 内容大小
- + 1 是因为屁股后面要添加一个'\0'
所以大小等于 (offsetof(TString, contents) + ((l) + 1) * sizeof(char))

从上图的宏定义来说,lua5.4通过40个字节的分界线将string分为了两种

大于40字节的就是长字符串
真正需要它的hash值时，才会手动调用luaS_hashlongstr函数生成该值,lua内部现在只有在把长串作为table的key时，才会去计算它

为了提高查找命中率,lua作者还使用hashMap这种方式来提高命中率

下图中N是数组行，M是数组列

i的下标值通过unsigned int i = point2uint(str) % STRCACHE_N求得

j的最大值固定就是下面的宏函数 STRCACHE_M 2

Typoraimage-20220405133449863

短字符串的hash桶结构数据都会存储在这个地方

让我们进入stringtable结构可以发现如下情况

TString **hash:指向一个hash的数组，hash数组里面存着一堆hash*一维指针指向一个hash桶链表，当通过

有冲突的时候,如果在hash桶链表中没找到短字符串数据,那么就通过

创建一个短字符串插入到hash桶的后面

总体图示方式

通过这样的方式短字符串就能高效重复利用,而且相同的短字符串在内存中也只有一份,在查找,删除,比较的时候短字符串的时候只需要调用下面的宏比较指针地址相同不相同就行了

上面是TString的数据结构,也是长字符串在内存中的存储结构

通过分析下面的luaS_createlngstrobj和createstrobj函数

通过上面两张图上红线的分析

我们可以得出结论在每一次创建长字符串的时候,并不会想短字符串一样有所谓的hash桶链表,来处理重复的使用的问题,也就是说如果是两个相同的长字符串,那么内存中就会有两份内存存在,这块地方需要注意.
长字符串的hash值也不是在创建的时候就生成了,只是随机的给了一个seed种子值,具体在哪里创建的可以看下面的章节