三年磨一剑，高德地图体验优化总结

移动端 0 1221

舞动的程序 2021年12月24日 00:01 发表

高德地图从19年开始对全链路性能体验进行了持续三年的优化，最终整体核心链路上实现了打对折优化，用户体验上大幅提升。过程中，对性能优化的一些思考和实践经验，本文进行了总结，希望对大家有些助益。

优化前后效果对比（以优化前的耗时为基线100%）

思路

整体思路分为明确性能卡点，倒序专项解题和正序长线管控三个部分：

明确性能卡点： 找到优化点才能有的放矢，科学的评测标准和明确的优化点对于优化至关重要，科学的评测标准需要能够合理评估性能体验的好坏，并更贴近用户的真实感受，而目标则需要可量化，这样才能够保住在专项过程中快速对焦高效执行，避免走弯路；
倒序专项解题： 性能问题不是单一业务问题，往往涉及多个产研测团队协作，我们从问题出发快速倒序以专项形式凝聚多团队资源，确定目标，快速攻坚拿结果，增强团队信心；
正序长线管控： 优化是从“果”倒退“因”的过程，已经发生问题了再去解决，是一种倒序解题的思路。那么如何让问题从“因”的源头上截住，或者说让已经优化的效果不发生倒退，那么我们的思路三是：长线持续的正序管控，避免原有业务的持续恶化，同时巩固专项的优化成果。

接下来，本位将针对这三个部分，逐一解析。

明确性能卡点

制定标准

首屏加载速度的快慢极大影响着用户体验，所以首屏耗时作为我们页面耗时的统计标准。随着手机硬件的不断升级，很多高端设备硬件性能好掩盖了程序性能问题，因此我们会对不同机型等级设备进行优化，最大程度的覆盖到线上用户。

统计标准

确定了首屏显示耗时是统计标准，下面是如何确定首屏显示耗时的几个维度：

业务角度：业务形态各异，不同页面的首屏定义一定不同；
产品角度：定义首屏围绕着功能使用量进行，高频功能优先；
研发角度：通过业务流程上的日志埋点来锚定首屏的起终点；
产研测拉通标准：建立统一的产研测沟通语言，那就是量化数据。

机型标准

机型等级：根据设备评分将设备分为高中低三种等级；
选定机型：选定不同等级代表机型的准则，我们采取的是依据线上用户设备的占比，尽可能的覆盖比较多的用户，尽可能选取有代表性的厂商设备，当然也需要综合考虑现有测试实验室可用设备情况，毕竟采购不一定很及时和避免不必要的浪费。

确定优化项

高德地图长期以来的历史累计，导致每个场景的优化，都面临着复杂的业务代码，甚至还存在业务盲区。这就对快速分析历史大量业务，精确定位耗时点带来极大的挑战。如果靠人工梳理分析，人力投入和时长都不现实。这就需要从工具和方法论上找到加速方案。

自上而下明确优化点

手机设备维度分析：

无限的业务场景通过移动设备运行在有限的性能资源上，资源分配势必捉襟见肘。所以我们需要根据设备的不同来分析耗时问题。比如在比较差的手机上出现的耗时问题，可能在高端的手机上并不是问题。优化点也不同，需要个性化策略来进行针对性优化。例如：低端机的复杂交互动画就是一个耗时点，比如搜索页面关闭一些动画，性能上带来不小的收益，同时也不损害用户体验，在高端机上这个耗时点就可以不考虑。

业务平行维度分析：

业务点特别多，那么为什么我们要选择出行场景、搜索场景等去分析耗时呢？这就需要拉通产品和BI，用数据说话。通过分析线上用户行为，大部分用户选择了点击搜索框进入搜索首页，而线上用户反馈也是进入搜索卡顿耗时等，相比其他功能，搜索首页的及时性和重要性不言而喻，于是根据线上数据进行业务分级，该场景排在首位，性能资源应该向这里倾斜，需要首先分析这里的耗时点。

业务内部维度分析：

首先对业务场景本身进行全链路梳理，找出其中的关键时间点，然后通过场景日志工具进行埋点并上传至服务，收集线上用户真正的首屏时间数据，为量化目标提供有效依据。其中两两关键点之间的时间戳差值即为阶段耗时，能辅助分析业务耗时问题。围绕着业务分析的过程我们还沉淀了很多分析工具来辅助分析。

最小集，加法，减法

最小集是一个探底的过程，在保证首屏产品形态不变形的情况下做出最小可运行，去掉其他所有跟首屏无关项，这就是减法。我们可以理解这个最小集是在不改变现有架构的情况下，我们最优的优化效果。如果最小集的极限数据达标，接下来就要在此基础上把必要的相关依赖项逐个加回来，保障产品功能完善，其他没必要的依赖性可以优化、或者去掉、或者延后等，这就是加法。当然如果这个最小集的极限数据都不能达标，那我们就需要从其他维度去寻找优化点了，一般能够从网络耗时和架构合理性两个方面找到突破点。

倒序专项解题

性能问题不是单一业务问题，往往涉及多个产研测团队协作。所以我们的思路是：

从问题出发快速倒序以专项形式凝聚多团队资源，确定目标，快速攻坚拿结果，增强团队信心

专项攻坚

专项攻坚，也是个边打边建，边打边沉淀的过程。排查性能问题的手段最初是比较离散的。往往是遇到一个解决一个，下次不同的场景需要重复工作再来一遍，那么我们的思路是：

沉淀可复用方案，解题思想、通用框架和工具平台，针对“优化手段”本身的效率进行优化，让成本逐渐降低

启动专项是第一个性能专题项目，完成了一个场景优化，耗费30人，3个版本迭代。之所以人力比较多，是因为“第一次”面临的问题非常多，指标要分析定义标准、埋点工具要新建、优化过程没经验、管控手段要新建。

搜索专项完成了一个场景优化，耗费8人，人力情况就好了很多，版本变成2版。当时已经有启动期间已经建设好的埋点工具，有了一定的优化经验，少走了很多弯路。

核心链路专项完成了六个场景，耗费24人，一版搞定。优化的过程有条不紊，人力少、场景多、时间短。这得益于优化效率的提升，成本逐渐降低。在不断优化的过程中积累了相对成熟的分析工具、优化工具、管控工具。

优化方案

性能优化是一个体系化问题，我们在优化方案上分为三层，业务、引擎和基础能力，分别自上而下明确优化点。上层业务进行自适应资源调度，中间引擎提供加速能力，底层能力提供高性能组件。

业务自适应资源调度

业务层优化主要通过业务编排调度来实现性能最优状态，但业务各自调度优化工作重复且繁琐。为了降低这部分成本，我们开发了一套资源调度框架，业务接入后，调度工作由框架完成。调度框架在应用运行过程中，感知采集运行环境，然后对不同环境状态进行不同的调度决策，生成相应的性能优化策略，最终根据优化策略执行对应优化功能。与此同时，监测调度上下文以及调度策略执行效果，并将其反馈给调度决策系统，从而为进一步的决策调优提供信息输入。这样，可以做到在不同的运行环境下都能达到可预期的极致性能体验。

一、环境感知

感知环境分为硬件设备、业务场景、用户行为和系统状态四个维度：

硬件设备上，一方面通过集团实验室对已知设备进行评测跑分，以此确定高中低端机型，另一方面在用户设备上本地对硬件进行实时算力评估；
业务场景上，将业务分为前台展示、后台运行、交互操作等几类，一般情况下前台正在进行交互操作的业务场景优先级最高，后台数据预处理业务场景优先级最低；对于同类别业务场景，根据业务UV、交易量、资源消耗等维度进行PK，确定细分优先级；
用户行为上，结合服务用户画像和本地实时推算，确定用户功能偏好和操作习惯，为下一步针对用户的精准优化决策做准备；
系统状态上，一方面通过系统提供接口，获取诸如内存警告、温度警告及省电模式等来获取系统极端状态，另一方面通过对内存、线程、CPU和电量进行监控，来实时确定系统性能资源情况。

二、调度决策

感知到环境状态之后，调度系统将结合各种状态与调度规则，进行业务以及资源调配决策。

降级规则：在低端设备上或者系统资源紧张告警（如内存、温度告警）时，关闭高耗能功能或者低优先级功能
避让规则：高优先级功能运行时，低优先级功能进行避让，如用户点击搜索框时到搜索结果完全展示的时间段内，后台低优任务进行暂停避让，保证用户交互体验；
预处理规则：依据用户操作及习惯进行预处理，如某用户通常在启动3s后，点击搜索，则在3s之前对该用户搜索结果进行预加载，从而在用户点击时呈现极致的交互体验效果
拥塞控制规则：在设备资源紧张时，主动降低资源申请量，如CPU繁忙时，主动降低线程并发量。这样在高优任务到来时，避免出现资源紧缺申请不到资源性能体验问题

三、策略执行

策略执行分为任务执行和硬件调优：其中任务执行，主要是通过内存缓存、数据库、线程池和网络库对相应任务的进行运行控制，来间接实现对各类资源的调度控制；而硬件调优，则是通过与系统厂商合作，直接对硬件资源进行控制；如CPU密集的高优业务开始运行时，将提高CPU频率，并将其运行线程绑定到大核上，避免线程来回切换损耗性能，最大化地调度系统资源来提升性能

四、效果监测

在资源调度过程中对各个模块进行监测，并将环境状态、调度策略、执行记录、业务效果、资源消耗等情况反馈给调度系统，调度系统则以此来评判本次调度策略的优劣，以做进一步的调优

引擎加速能力

一、地图引擎

地图引擎是地图应用独特的部分。这块主要从绘制优化策略入手，主要包括分批分块渲染、帧率调度、消息调度等。

二、跨端引擎

跨端引擎则需要给业务提供支撑，它也是全场景通用的方案，比客户端优化更有施展空间，与业务直接接触离业务够近。所以跨端引擎的优化策略就是降低业务代码的性能成本。主要方案有：

线程提优先级
上下文预加载
业务框架复用
require引用复用

这里简单介绍下上下文预加载，为了不影响现有业务的运行状态，我们设计了一种闲时分段预加载的方案，能够在页面未进入之前，将页面需要计算的耗时、导入文件的耗时等提前执行。

闲时：当业务线程空闲时再做预加载，避免影响其他页面
分段：每次预加载的内容粒度小于16ms，避免预加载任务阻塞当前线程
预加载：将目标页面的计算量提前，加速进入目标页面

三、H5容器

1、离线包加速

离线包加速，主要解决复杂 H5 页面的加载速度问题：资源文件数量较多，下载耗时较长，导致页面加载缓慢，通常通过增加loading来减少界面加载等待问题，从而导致用户等待耗时长，最终带来的是转换率流失。在此大背景下，结合高德已有的一些平台能力，搭建了离线包加速能力。整个链路包含：

离线包构建：通过前端脚手架，提速业务开发效率，动态指定离线包资源配置；
离线包发布：对接已有的服务发布能力，搭建前端可视化发布平台，提供灰度控制、包更新、数据统计等能力；
端管理：包下载、管理、生效，控制下载及更新时机——对于高频页面进行预下载请求，打开页面时实现“秒开”；
资源生效：容器内资源加载拦截，对接离线资源管理模块，命中缓存则直接生效，未命中走正常网络请求进行下载。

2、容器预创建

容器的预创建和预热，对于H5页面的加载速度将会有很大的提升，WebView的实例创建成本本身是相对较高的，在APP启动后合适的时机进行预创建并缓存复用，可以解决首次开启和二次加载的速度。AMap本身有启动任务编排及闲时任务调度，在此基础上可在对应WebView模块内进行预创建操作。对于预创建WebView Context切换问题，由于AMap的页面栈实际为自定义实现，仅有一个独立的Activity，因此具有天然的良好兼容性。对于预创建，本身是空间换时间的一种做法，对于不同性能设备的差异化配置，需要重点打磨——此外，也可以结合端智能的特征行为，类似用户页面跳转的行为习惯及频次等，来动态决策是否需要进行预创建。

架构高性能组件

一、线程池

线程池支持业务进行任务优先级编排、线程总数控制、线程避让等调度策略，使设备资源得到充分合理的利用。

线程队列管理模块，其提供5个优先级队列：

高优队列：用于处理 UI 相关的任务，能够快速返回执行结果，如启动阶段高优任务等；
次高优队列：用于执行需要立即返回的任务，如业务page文件加载等；
普通（低优）队列：主要用于不需要立即返回的任务，如网络请求；
后台（最低优）队列：用于处理一些用户不会感知的任务，如埋点、耗时的IO操作等；
主线程闲时队列：用于处理不需要立即执行，但业务又不支持按需执行的任务，只有在主线程检测处于空闲状态时才会执行

二、网络库

网路请求作为场景中耗时大头，其性能表现几乎决定了场景首屏耗时表现，我们针对网络请求的各个环节，做了链路监控与极致优化，重点包含：请求精细化调度、并发预处理、DNS预加载、连接复用等。

请求链路示意图：

排队：对请求进行精细化调度；对线程资源分级，高优请求有自己独立的资源，同时资源可以高占低，但低不能占高，实现高优请求 0 排队。同时限制低优请求并发量，避免并发过多导致底层带宽抢占；
预处理：主要包含公参、签名、加密等一系列耗时操作，将预处理操作从原来的串行转为并行，压低预处理耗时；
DNS解析：常用域名做白名单，在启动时即会进行常用域名DNS预解析，真正使用时，实现解析0耗时；
建连：通过使用h2长连接、预建连等策略，实现建连几乎0耗时；
请求上/下行：根据body大小，智能判断是否需要压缩，降低body大小，减少传输耗时；
解析回调：针对响应较复杂的场景（如规划），使用更高效的数据协议格式（如pb），降低数据大小&解析时间。

正序长线管控

优化是从“果”倒退“因”的过程，已经发生问题了再去解决，是一种倒序解题的思路。那么如何让问题从“因”的源头上截住，或者说让已经优化的效果不发生倒退，那么我们的思路三是：

长线持续的正序管控，避免原有业务的持续恶化，同时巩固专项的优化成果。

高德地图客户端横向业务上包含出行、搜索、打车等业务线，纵向架构上包含业务层、平台适配层、跨端引擎层和地图引擎层，跨多个语言栈，性能问题具有跟进流程长和排查链路长的特点。因此管控思路集中在标准、流程、自动化平台和工具的建设上。

标准

在经过全面的专项治理后，性能管控的目标和要求是避免持续恶化的状态，由于测试波动的存在及热更、快速迭代、动态化插件的频繁发布，需要管控的出口非常多，如果存在管控遗漏区，性能就会不可避免的持续恶化。因此管控标准确定为以固定基线为基准，以环比数值为量化标准，把所有变化因素都包含到管控中，有效防止叠加恶化。

流程

高德客户端主版流程主要分为三个大阶段：需求分析和设计、业务独立迭代开发、集成测试，集成测试阶段本身有大量的业务BUG，所以留给性能问题发现和解决的时间非常紧张，为了解决这些问题，管控流程需要利用好主版流程的每一个阶段，分阶段消灭性能问题。

需求分析和方案设计计算，提前识别问题；
迭代开发阶段，提前发现和解决问题，降低性能问题暴露晚导致来不及修复，影响线上用户体验的风险；
集成测试阶段每天汇总数据大盘，及时发现问题，依托平台和工具快速排查，加速问题流转；
灰度和发布阶段关注线上数据大盘，建立报警机制，及时发现问题，通过用户日志排查线上问题。

平台

依托泰坦持续集成平台和ATap自动化测试平台，打造连通开发，构建，性能测试，问题跟进、排查、流转、解决完整链路的工具链，提高问题发现和解决的效率。

泰坦持续集成平台
- 定时构建，支持定位出包任务，构建类型支持性能包
- 自动化测试触发，支持打包触发和定时触发两种触发方式
- 集成卡口及决策，集成申请展示性能测试结果，集成决策审批流程
ATap自动化测试平台
- 性能大盘，汇总性能数据，快速发现问题
- 埋点详情，整合快速排查工具，加速排查
- 问题跟进，结合Aone，监控问题解决流程，加速流转

总结

目前为止，高德核心链路的性能体验优化效果得到了较大的提升。从最初的拿到优化结果，到后来的优化效率提升，优化成本降低。整体的优化进程总结下来：

战术上，采用“专项”+“技术沉淀”+“长线管控”的方式，能够保障性能体验问题得到良性解决。
战略上，过去我们靠“人”解决问题，现在我们靠“人”、“架构”和“工具”解决问题。未来是否能够“工具”自己解决问题或者避免出现问题呢？随着“技术沉淀”积累的工具和“长线管控”建设的平台不断增加，相信量变引起质变只是时间问题。

点赞 0 收藏(0)