【IT168 技术】业界举世瞩目的“2012数据库技术大会”已于2012年4月13日在京盛大召开,本次大会已经是IT168、ITPUB、IXPUB、ChinaUnix联合主办的第三届数据库技术会议。大会将针对大数据架构设计、数据库安全、分布式数据库、商业智能、NoSQL、Hadoop等多个重点话题进行深入探讨。此次大会得到了全国数据库技术高手们的高度关注与支持,是当前象征最高技术水平的数据库工程师盛会。
在当天下午的MySQL应用实践专场中现任腾讯网数据库架构师邵宗文老师为与会人员介绍了腾讯网数据库托管平台。
▲ 腾讯网数据库架构师邵宗文
邵宗文老师已经在去年的数据库技术大会上,分享了一次腾讯网数据库托管平台。又经过一年后,腾讯网数据库托管平台已经平稳运行800多天左右,全年实现99.999%高可用。目前的数据库平台,已提供了近百个端口共上千个实例的混跑服务。数据库平台约有上千个数据库,几百万张表。
腾讯网数据库托管平台
邵宗文首先向大家介绍了腾讯网数据库托管平台的基本情况,通过建立南北4个IDC数据中心,数据库实现异地多点分布和跨IDC容灾,用户就近访问IDC数据中心数据,减少专线消耗,缩短响应时间,实现了易扩展。同时平台集中了项目前期容量规划,授权变更,决策支持和运行状态分析等。另外还有数据库故障自动修复,服务摘除,及自动恢复上线,阀值告警,慢SQL,采样SQL分析等应用功能,实现了高可用性和高性能。现有百台服务器,实现了400多个数据项目的托管,服务稳定性99.999%。
建立此平台的目标也非常明确,就是实现以列功能:
打造业内一流托管平台,实现高可用,可扩性,高性能,高效性
高可用,可扩性:对故障机器,延迟超过阀值的从库进行自动摘除,并通多IDC数据中心实现可扩展性,实现99.999%高可用。
高性能:针对各种不同业务项目,提供自动化告警及优化建议,从而应对更大的高并发访问。
高效性:采用托管平台,提供了简单的域名访问数据库模式,提高了开发速度。
腾讯网面临的挑战
在建立数据库托管平台之前,腾讯网也面临了较大的数据访问挑战,业务数据之间越来越紧密,相互调用越来越频繁。急待于统一的数据库托管平台来支撑。传统数据库的实现方法是应用项目连接一个主库,进行读写操作,从事通过同步主库数据做热备,很少提供服务。此种方案存在硬件单点故障;开会人员会产生慢SQL影响服务的正常运行,无法实现IDC容灾,高峰时段会有性能问题,就相当是一个主库带一个从库的双车道,当有高峰访问的时候,就显的拥堵不堪。由于之前没有针业务数据库使用进行评估,从而导致资源不够及出现上线后数据库频繁出现的瓶颈问题。再好的道路也怕不遵守规范的汽车,同样,数据库托管平台也需要严格的标准来规范各业务项目。
数据库托管平台实现了单机混跑模式、实现了IDC级容灾以及对硬件故障做出响应,可以针对开发人员使用的慢SQL提供服务,遇高峰可扩,多主库多从库的高架桥模式,从容应付高峰压力,即便某几个道路堵塞,也无碍大局。
数据库托管平台技术要点
腾讯网在部署此管理平台的时候,首先考虑到了如下的技术,建立南北4个IDC中心,防止因某IDC断电,网络故障影响全局服务。用户访问就近IDC数据中心数据,减少专线消耗,缩短响应时间。
通过各IDC数据中心分担备份存储压力。通过本地IDC能加速备份,和数据恢复时间,避免了上百G数据走专线耗时久的问题。当出现突发大项目,通过dns可快速扩容,从而保障服务高可用。当出现慢SQL导致从库延迟或网络抖动,监控机通过DNS实现自动摘除,当从库恢复正常之后,监控机会将对应从库自动上线。
邵宗文接着介绍了在部署数据库时,还需要考虑一等关键要求,例如,服务规模。对比之前单个业务申请2-3台DB只能提供服务,现在通过平台混跑模式扩展了10几倍的服务规模。为公司极大的节约了机器成本。
采用数据库平台之后,可以为业务提供快速高效的服务支持,数据业务需求3分钟即可上线,提升了业务发展。宕机时间也从之前每月2-3次宕机,到现在连续800多天零宕机,实现了数据库平台99.999%的稳定性。
服务规模:
从之前的没有隐患库表检查,到现在定期的库表监控及优化反馈,同时对比之前,已经将暴露出的十几个严重影响性能的库表进行了优化清理。对比之前单个业务申请2-3台DB只能提供服务,现在通过平台混跑模式扩展了10几倍的服务规模。为公司极大的节约了机器成本。
采用数据库平台之后,可以为业务提供快速高效的服务支持,数据业务需求3分钟即可上线,提升了业务发展。对比之前单个业务申请2-3台DB只能提供服务,现在通过平台混跑模式扩展了10几倍的服务规模。为公司极大的节约了机器成本。