/*
** Header for string value; string bytes follow the end of this structure
** (aligned according to 'UTString'; see next).
*/
typedef struct TString {
? CommonHeader;
? lu_byte extra;? /* reserved words for short strings; "has hash" for longs */
? lu_byte shrlen;? /* length for short strings */
? unsigned int hash;
? union {
? ? size_t lnglen;? /* length for long strings */
? ? struct TString *hnext;? /* linked list for hash table */
? } u;
} TString;
lua里的字符串表示,TString只记录了字符串头部,真正的字符内容存储在TString内存对象后面,并以\0结尾,所以一个字符串的真正长度是sizeof(TString) + strlen + 1,所以获得字符串实际内容的函数 #define getstr(ts) cast(const char *, (ts) + 1),TString地址+1即可。
为效率考虑,TString分长短两种情况:字符串长度<=LUAI_MAXSHORTLEN(40)的被是短串,反之是长串。短字符串存储在global_State中的strt域中,hash存储,冲突的key采用、可动态增长的链表;长字符串作为正常的GC对象存储在global_State的allgc域中。
创建字符串前,会先在 global_State的strcache中查找,这是一个记录着TString地址的二维数组,x方向使用hash存储,取模运算,如果找到,则直接返回,否则接着创建字符串流程。短串创建前会首先在strt中查找,如果找到(此时会处理该字符串被标记为可GC,但还未GC的情况,需要重置为白色changewhite),则直接返回;否则创建短串,并挂载到strt域中。由此可见,短字符串是惟一的,不会存在重复的字符串,而长串则会出现重复的情况。
CommonHeader:表明TString是个需要GC的结构,
extra:在短字符串中只给系统保留关键字使用,记录着对应?luaX_tokens的索引值,其他短字符串值为0
保留关键字如下
/* ORDER RESERVED */
static const char *const luaX_tokens [] = {
? ? "and", "break", "do", "else", "elseif",
? ? "end", "false", "for", "function", "goto", "if",
? ? "in", "local", "nil", "not", "or", "repeat",
? ? "return", "then", "true", "until", "while",
? ? "//", "..", "...", "==", ">=", "<=", "~=",
? ? "<<", ">>", "::", "<eof>",
? ? "<number>", "<integer>", "<name>", "<string>"
};
在长字符串中,字符串的hash值不是在创建时计算,而是在被当做key来使用时计算,extra==1则表示已经计算过hash值,否则计算hash值。
https://www.baidu.com/link?url=KR-TTyr2umnP0xEYaHzyFeWIPKyrgGbWSygwemdJT2rT_6b7duXh-J068tAgL-g75kuNlws0mGjdIFjAcTsxlq&wd=&eqid=ca16739e0002c8ad000000035e55d7fd