问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

深入研究ast-grep的模式: 一文解析Tree-Sitter核心概念

发布网友 发布时间:2024-10-22 08:13

我来回答

1个回答

热心网友 时间:2024-11-20 21:09

如果你对代码重构工具有兴趣,你可能听说过 ast-grep,它是一个基于 Tree-sitter 的工具,可以进行结构搜索和替换。 ast-grep 允许你编写代码模式,根据代码的结构,而不仅仅是文本来查找和修改代码。但它是如何在引擎盖下工作的呢?在这篇文章中,我将为你深入介绍ast-grep的模式。它还能帮助你理解Tree-sitter的核心概念。

模式是一种写和读描述语法树的表达式的方便方法。 它类似于代码,但有一些特殊的语法和语义,允许你根据语法树的结构、类型或内容来匹配部分。

ast-grep的模式易学难精。它要求你了解目标语言的Tree-sitter语法和含义,以及ast-grep的规则和惯例。

在本文中,我们将帮助你掌握所有基于Tree-sitter的工具所共有的核心概念。我们还将向你展示如何编写ast-grep模式,让它的全部威力都为你所用。

什么是Tree-sitter? ast-grep使用 Tree-sitter作为它的底层解析框架,这是因为它的流行度、高性能和健壮性。

Tree-sitter是一个生成解析器的工具,并提供一个增量解析库。

解析器是一个将源代码文件作为输入并产生一个描述代码组织的树状结构的程序。(该树状结构不是抽象语法树,我们将在后面看到)。

为各种编程语言编写优秀的解析器是一项艰巨的任务,尤其是对于像ast-grep这样的单一项目。幸运的是,Tree-sitter是一个被社区广为传唱的好工具。许多主流语言,如C、Java、JavaScript、Python、Rust等,都被Tree-sitter支持。使用Tree-sitter作为ast-grep的底层解析库,可以让这个工具支持任何具有良好维护的语法的语言。

Tree-sitter的另一个好处是它的增量性质。增量解析器是指当源代码文件被编辑时能够有效地更新语法树的解析器,而不需要重新解析整个文件。在 ast-grep的交互式编辑中,它可以非常快速地运行在每一个代码变化上。

最后,Tree-sitter还可以优雅地处理语法错误,它可以在同一个文件中解析多种语言。这使得模式代码的解析更加稳健,更容易编写。在未来,我们还可以像Vue那样支持多语言的源代码。

当你使用 ast-grep 来搜索源代码中的模式时,你需要了解文本匹配和结构匹配之间的区别。

源代码输入是文本,是遵循某些语法规则的字符序列。你可以使用常见的搜索工具,如 silver-searcher或 ripgrep来搜索源代码中的文本模式。

然而,ast-grep并不直接与文本匹配模式。相反,它将文本解析成一个代表代码语法的树状结构。这使得ast-grep能够根据代码的语义来匹配模式,而不仅仅是其表面现象。这就是所谓的 结构搜索,它搜索的是具有特定结构的代码,而不仅仅是特定的文本。

因此,你写的模式也必须是有效的语法,可以与代码树进行比较。

ast-grep中的文本搜索 虽然pattern在结构上匹配代码,但你可以使用ref=" ast-grep.github.io/guid...">原子规则regex通过指定正则表达式来匹配节点的文本。这样,就可以在ast-grep中结合文本和结构匹配。

我们可以用两种类型的树结构来表示代码的语法和语义: AST和CST。

AST代表 抽象语法树,它是代码的简化表示,省略了一些细节,如标点符号和空白处。CST代表 具体语法树(Concrete Syntax Tree),它是对代码的一种更保真的表示,包括所有的细节。

Tree sitter是一个库,可以将代码解析为许多编程语言的CST。因此,ast-grep与它的名字相反,是根据CST模式而不是AST来搜索和重写代码的。

让我们通过一个例子来看看为什么CST更有意义。考虑一下1 + 1这个JavaScript片段。它的AST表示法 看起来像这样:

精明的读者应该注意到重要的运算符+并没有在AST中被编码。与此同时,代码的CST则忠实地表达了所有的关键信息。

你可能会想,使用CST是否会让不重要的空白影响你的搜索结果。幸运的是,ast-grep使用了一种智能匹配算法,可以在适当的时候跳过CST中的琐碎节点,帮你节省了很多麻烦。

如果不关心标点符号和空白,我们就可以将CST转换为AST。Tree-sitter有两种类型的节点:命名节点和匿名节点(未命名节点)。

更重要的命名节点在语法规则中被定义为常规名称,如binary_expression或identifier。不太重要的匿名节点是用字面字符串定义的,如", "或 "+"。

命名节点对于理解代码的结构和意义更为重要,而匿名节点则不那么重要,有时会被 ast-grep 的匹配算法跳过。

下面的例子改编自 Tree-sitter的官方指南,显示了语法定义的不同。

实际上,命名的节点有一个叫做kind的属性,表示它们的名字。你可以使用ast-grep的ref=" ast-grep.github.io/guid...">原子规则kind来找到具体的AST节点。下面的例子的 Playground链接。

更进一步,ast-grep的元变量默认只匹配命名的节点。return $A 只匹配下面的第一条语句。 Playground链接。

我们可以使用两个米元符号(非笔误)$$VAR在模式匹配的结果中包括匿名节点。return $$A将匹配上面的两个语句。 Playground链接。

有时,仅仅使用kind并不足以找到我们想要的节点。一个节点可能有几个具有相同kind的子节点,但在代码中的作用不同。例如,在JavaScript中,一个对象可能有多个键和值,但它们都可以是字符串。

为了区分它们,我们可以使用field来指定一个节点和它的父节点之间的关系。在ast-grep中,field可以用在两个 关系规则中:has和inside。

has和inside接受一个特殊的配置项,叫做field。field的值是父-子关系的字段名。例如,JavaScript对象中的键值对有两个孩子:一个字段是key,另一个字段value。我们可以用 这个规则来匹配string的key节点。

field可以帮助我们缩小搜索范围,使模式更加精确。

我们也可以用has重写上面的规则,搜索带有字符串key的键值对。 Playground链接。

kind和field的关键区别: kind是节点本身的属性。只有命名节点才有。 field是父子关系的属性。匿名节点也可以有。

一个节点同时拥有kind和field可能会让新用户感到困惑。kind属于节点本身,在ast-grep的Playground上用蓝色文本表示。子节点只有相对于它的父节点才有field,反之亦然。字段在Playground中用深黄色文本表示。由于field是节点关系的一个属性,匿名节点也可以有field。例如,binary_expression的1 + 1中的+的field就是operator。

ast-grep比Tre-sitter走得更远。它有关于节点的 "重要性 "的概念。

即使是“重要性”这个概念也是不够的。 大多数Tree-Sitter语言没有在命名节点AST中编码所有的关键语义。即使我们定义了范围更广的显著节点,也不足以表示代码的意义。我们必须保留一些琐碎节点来进行精确匹配。

Tree-sitter一般不会用命名节点来编码所有的语义。例如,class A { get method() {} } 和 class A { method() {} } 在Tree-sitter的AST中是等同的。关键标记get没有命名,也没有field。它是一个琐碎节点!

如果你不关心这个方法是getter方法、静态方法还是实例方法,你可以使用class $A { method() {} }来 一次性匹配所有三种方法。如果你需要区分getter方法和普通方法,你可以 拼出完整的方法修饰符。

感谢你阅读到这里! 这篇文章中有许多概念。让我们用一段话来总结一下。

ast-grep使用Tree-sitter将文本源代码解析成一个详细的树状结构,称为CST。我们可以从CST中得到AST,只保留命名节点,这些节点有kind。为了搜索语法树中的节点,可以同时使用节点kind和节点field,后者是一个子节点相对于其父节点的特殊标记。一个有kind或者有field的节点就是一个重要的节点。
声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
电脑今天玩游戏突然风扇转的很快.鲁大师显示cpu86度平均79度然后从开... SL400P9C开机后一直窝吱吱的声音是怎么回事?电流声就正常吗?国产货还能... 手机号给别人补号了后通话提示什么? 养小金鱼吃什么食物 给小金鱼吃什么 家里小金鱼吃什么食物 大拇指筋断了后遗症 ...第一次剪去它的五分之二,第二次剪去它的三分之一,这块步还剩几分之... 一根一米长的小棒第一次截去它的三分之一第二次截去剩下的三分之一第... ...第一次用去全长的三分之一,第二次用去五分之六米,还剩全长的50%,这... 怎么改变一个网页的title 干货篇自制三伏贴全解析:操作简单、效力强、价格低,一篇就够了_百度知... 楚乔传中东方忌是往生营的营主吗 植物生长抑制剂概述 魅蓝note摔花屏了,好像是主板坏了怎么办 ...凌晨一点左右出生,我上升星座和月亮星座是什么,性格是..._百度... 当太阳位于春分点白羊座时,月亮就位于什么点? 太平天国大决战时,李秀成二十五万大军为何解救不了天京 预产期心里慌了是怎么回事? 栀子花叶子边缘焦枯怎么办呢? 7月29号日子吉利吗 栀子花干枝枯叶怎么办 我天格14人格24地格多少才是最佳3才配置? 诸暨会义桥怎么走义乌开车到会义桥那边近 义桥-南京有多少公里? 从湘湖家园到义桥镇新大桥自驾车 袁浦大桥义桥到转塘收费站多少钱 宗义桥宗义桥历史 汉中旅游景点推荐一下 汉中的旅游景点有几个地方 sem_wait范例 一条路两弯数字是几 一竖两弯是多少? 冒险岛几级能加入骑士团 SF冒险岛何时能出骑士团? 关于冒险岛骑士团 冒险岛马上要出骑士团了,多少J能转骑士团里的职业啊? 为什么女生都爱发旺柴表情包? 说说猫狗一起养是种怎样的体验? 2022年热门理科专业哪些适合女生 求新海诚全部作品名称列表。 94分之19和73分之12怎么比较 半途弯什么意思解数字是几 在湛江去宾馆开房两个人,其中一个人没带身份证,但在手机里有照片,可以... 昨晚我跟男朋友去开房,我的身份证不能入座是什么原因? 宋茜穿玫红色都这超A就算了,居然拿口水兜当饰品,这品味真独特 被告双重户口身份登记被注销离婚难不难? 苹果13a12处理器是改装机嘛? 马拉松游泳马拉松游泳 里约奥运会有十公里游泳比赛吗
  • 焦点

最新推荐

猜你喜欢

热门推荐