科技一线 科技 观测云助力合思信息升级新一代可观测平台

观测云助力合思信息升级新一代可观测平台

案例精彩导读

合思·易快报

合思信息是中国 SaaS 行业报销费控领军企业,其品牌产品「易快报」是国内连接型费用管理平台开创者。

案例亮点

1.SaaS 化可观测平台,免运维

2.全链路可观测,可高基数采集数据

3.RUM + APM + 日志,实现多维度数据统一

4.按量计费,高速迭代,随时体验新功能

1.简单介绍一下贵公司

北京合思信息技术有限公司(简称「合思信息」)创立于 2014 年 11 月,是中国 SaaS 行业报销费控领军企业。合思信息致力于企业 SaaS 领域云产品及服务的创新,运用前沿的互联网应用技术和先进的企业管理理念,为企业提供差旅订购、电子报销、预算费控、发票管理等一站式服务,从而帮企业实 现显著的降本增效,也为企业提供有力的业务决策支持数据。

2.请介绍下对本次监测工具升级的需求背景

我们总结过以下需求:

(1)我们向最终用户提供 SaaS 化服务,业务一直在线,访问并发高。我们想实时看清系统整体状态,监测数据采集量很大,但不能影响我们业务性能;

(2)我们的服务会涉及大量用户隐私数据,因此我们对平台安全性有很高要求,最好能提供商业化 SLA;

(3)所有的基础设施都放在云上,技术栈能托管就托管,所以希望主要的监控和日志工具也能被托管,我们直接使用服务就行;

(4)我们的应用服务迭代速度很快,经常需要调整监测对象和看板,甚至更换监控工具,所以我们不会一次性长期订阅单个工具,以免之后用不上会浪费,并且要求这个工具有开放的可编程性,方便我们自己调整。

除此之外,也希望新的监测工具可以帮助我们提升运维效能:

(1)可以把各项监测数据全部聚合处理,串联分析,帮助我们快速定位问题根因;

(2)可以主动暴露出系统潜在问题或性能卡点,运维能直接拿这些数据,交给研发做进一步分析,研发也能直观看懂这些监测数据。

3.那能否说说使用之前的监测工具时,具体碰到了哪些难点?

我们使用过很多种工具,在做 Kubernetes 环境下的指标数据分析时,使用了云服务商提供的托管 Prometheus 和 Grafana 服务;日志和链路尝试过一些比较常用的开源软件,我们自己部署,但在使用 APM 时,有过造成软件启动崩溃的情况,采样也不好,最后也没精力去深度研究。还用过些商业软件,用来监控分析前端业务,但都是一个软件实现一个功能,需要拼装 使用,我们得自己去打通几个工具之间的数据通信,要管理好这些运维工具,还得花费额外的运维成本,有点得不偿失。

之前使用过的各种工具:

4.您是怎样关注到观测云的?

我们一直在关注可观测领域的内容,发现不少关于观测云的介绍,就去研究了观测云的官网,信息挺多的,通过官网,加入了观测云社区群去提了些问题。之后就有观测云的客户经理联络我们,向我们详细介绍了观测云的产品功能和特色,我们就开始试用了。

5.刚接触到观测云时,您对观测云的第一印象如何?

如前所述,由于之前也使用过不少监控产品,对指标、日志、链路等各方面有一定的认知,也了解可观测的概念,知道我们下一步想要的监测平台方向。与观 测云进行了一次深入的技术交流后,充分了解观测云在可观测方面的想法和已经实现的功能,包括对 Kubernetes 生态的丰富支持,数据采集、联合展现以及在分析问题时候的逐步钻取,留下了深刻的印象,第一印象感觉这就是我们想要的产品,后续就立即开始进行测试。

6.使用观测云后,哪些功能让你满意?

首推观测云的SaaS服务模式。

我们不用再去运维监测平台本身了,确实让我们轻松很多。而且观测云是按量计费,我们可以放心大胆地体验各种功能,觉得好用立刻上量,之后还可以持续优化调整,所有成本都贴合我们的实际使用。

产品更新很快,我们提的一些改良建议,都能很快满足。

我们的业务日志量大,每天都有几 TB 的日志增量,下载和传递都消耗我们的业务带宽和流量。和观测云多次交流后,观测云提供了一些新的数据过滤和黑白名单机制方案,帮助我们大大提升了日志采集效率;还开通了在公有云上用内网传输日志的方案,降低了我们传输成本。

另外,我们也不再需要自建和维护 ES 集群储存日志,进一步降低基础建设的资源成本。

RUM + APM + 日志可以统一标签和联合分析。

观测云前端用户访问(RUM)提供自定义用户属性,与链路数据(APM)关联打通,借助 Tag(数据标签) 使得问题的分析定位更快速,灵活的关联到 Service 、Log、主机甚至是 Pod、进程。这种关联对微服务间的故障排查、接口调优至关重要。

支持服务网格。

观测云采集器兼容 Prometheus ,可以直接串连上去,拿到 Exporter 上报的数据,简单配置即可获取 Istio 指标数据,同时提供内置 Istio 视图模版,快速实现服务网格的全面观测。

7.目前观测云在公司内部的使用情况是怎么样?

目前我们已经接入了商城的各种环境,包括开发、预发以及生产环境。观测云已经成为我们日常使用的监控手段,我们已经做了很多监控仪表盘,还有 APM 以及 RUM 的各类视图,来观测业务的实时情况。能通过各项结构化的数据(包括日志分析、APM 和 RUM 数据生成的指标)设置和业务相关的监控器,进行告警提醒。同时,我们也把日常使用过程中的一些改进建议反馈给了观测云,能够发现观测云在持续升级,迭代出 更多方便用户的功能,我们非常满意。

8.能具体分享一个,现在使用观测云的场景吗?

现在我们可以通过观测云,去主动探索系统,并找到一些问题,然后把他定义出来,作为常规探知手段,不会再经常收到一些摸不着头脑的告警。

(1)主动式定位问题:

RUM 查看器,通过筛选,查看错误的状态码的相关信息

通过详情,可以一路钻取到后端应用的情况

查看链路的详细情况

(2)通过前端用户访问的概览,查看用户访问整体情况,以及错误情况。

跳转到 错误分析或者 Error 查看器

查看具体原因

(3)查看用户访问的详细错误情况。

(4)详细定义事件和通知规则。

9.您对观测云还有什么建议?

(1)观测云的功能很丰富,可以搭建出很多玩法,所以希望观测云能提供更多的可观测最佳实践,能让我们快速获得参考,应用到实际业务场景里。

(2)观测云更新非常快,有些细节光靠文档也说不清,还是得经常请教观测云专家,幸好还能去群里提问。希望观测云的社群服务能力越来越强大,吸引更多的技术用户一起参与,我们也非常乐意和其他社群用户一起交流。

最后,感谢观测云让我们拥有了一个美好的全链路可观测体验。

关于观测云

观测云(www.guance.com)是⼀个具备可观测性的统⼀实时监测平台,可帮助客户快速实现系统可观测,是国内率先实现 SaaS 化的可观测性产品,为客户的业务长时间在线不中断,提供数据化手段的全链路保障服务。

BOE(京东方)携手创维电视亮相“护眼显示周” 超高刷技术助力健康显示新未来

杭州城基科技加快城市管网智能化管理平台建设

返回顶部