Home > 企业案例
  • 【分享】游戏运维编年史:可能是目前最详细游戏运维指南

    编者按:  从端游到页游再到手游,15年来中国网游在世界上都有着举足轻重的地位。但是再好的游戏如果出现连接、延迟等问题时也会造成巨大损失,这时游戏运维便发挥了举足轻重的作用。中国网游的发展史,其实也是游戏运维的变革史,今天便由经典武侠手游《大掌门》运维掌门人吴启超来向我们讲述,进入游戏领域10余年来的风风雨雨。 有服务器的地方就有运维 如今我们说到游戏,可能想到的是火爆异常的VR,办公室里一言不合带上眼镜就地开打;亦或是刚刚虐了李世石的AlphaGo,扬言要挑战《星际争霸2》“教主”Flash。然...
    阅读全文 →
  • 【理论】秒杀系统架构优化思路

    一、秒杀业务为什么难做 1)im系统,例如qq或者微博,每个人都读自己的数据(好友列表、群列表、个人信息); 2)微博系统,每个人读你关注的人的数据,一个人读多个人的数据; 3)秒杀系统,库存只有一份,所有人会在集中的时间读和写这些数据,多个人读一个数据。 例如:小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万。 又例如:12306抢票,票是有限的,库存一份,瞬时流量非常多,都读相同的库存。读写冲突,锁非常严重,这是秒杀业务难的地方。那我们怎么优化秒杀业务的架构呢...
    阅读全文 →
  • 【案例】云智慧:如何进行PB级别数据的架构变迁

    随着DT时代的来临,数据对于企业经营决策的价值日益凸显,而企业在进行互联网+转型的过程中,如何让数据架构平滑迁移到大数据平台,对于传统业务的转型升级至关重要。企业IT部门该如何进行PB级别大数据平台的迁移规划呢,请看云智慧运维总监张克琛带来的经验分享。 提到PB级别的大数据解决方案市面上有很多,比较火的有Hadoop、Spark、Kafka等等,如果是一个新上线的系统,相信大家都能找到适合自己的方案。但“大数据”在09年才逐渐成为互联网信息技术的流行词汇,一个较老的系统如何平滑迁移到PB级数据架构呢? 云...
    阅读全文 →
  • 【案例】荔枝FM架构师刘耀华:异地多活IDC机房架构

    多机房架构存在的原因 单机房一旦死机,断电、维护根本无法挽回整个数据,想离线读取等都不行。当一个机房不可用,所有的业务就都不可用。荔枝 FM 要求业务离用户最近,南方的用户连南方的机房,北方的用户连北方的机房,国外的用户连国外的机房。大陆的网络和国外的网络有一定的隔离性,如果没有做多机房的连通性,数据的传输和实时性就会有问题。 跨机房的作用是为了备份,一个机房的数据放在另一个机房是异地多活。上面是数据容灾,下面的是业务容灾,第三个是让服务离用户最近。这是荔枝 FM 做跨机房的原因...
    阅读全文 →
  • 【案例】nice公司服务端架构重构与演进

    作者简介: 雷果国,2014 年 11 月加入 nice,负责服务端在线业务,擅长 PHP,曾自发翻译过《Extending and Embedding PHP》一书及PHP官方手册部分模块。喜欢利用所学构建自己的工具链,思考系统和架构设计方面的问题。 文章内容: nice 是一款图片社交 App,目标是让人们发现生活的美好。产品的核心体验是基于生活方式的社交。 我们期望通过图片、直播、标签、潮牌新品等方式,让用户表达自己的生活方式,以这些内容作为基础,为用户提供社交场景。产品方面,目前我们仍然在积极探索怎样更好的为用户提供这种价值...
    阅读全文 →
  • 【案例】魅族实时消息推送架构

    作者简介: 于小波,2011年加入魅族,现在在移动互联网部门,负责服务器后台架构和开发工作。 系统介绍 这个系统数据情况是这样的,实时在线的用户是2500万左右,下面有一个趋势图,从今年1到10月份的都列出来了,这个系统一天PV量是50亿左右,这个系统推送速度可以达到600万条/分钟。 系统架构设计 系统架构逻辑上划分,划分为四层,最下面的一个是提供魅族手机的接入。第二层是消息分发服务,主要的作用就是提供上行消息的路由和用户下行消息的路,这边有一个用户路由表。第三层是订阅信息,第四层是存储,包括...
    阅读全文 →
  • 【案例】美团在Redis上踩过的一些坑

    Java我人生  /
     / 企业案例
    【写在前面】 网上很不错的一篇介绍美团redis在实际线上应用中遇到的问题和解决办法,文章的初始来源是哪个博客不确定,只知道是作者参加了360组织的互联网技术训练营第三期,总结了美团网的DBA负责人侯军伟给大家介绍的美团网在redis上踩得一些坑,讲的都是干货和坑,很具有参考学习价值,转载记录。 【文章内容】 分为5个部分: 一、周期性出现connect timeout 二、redis bgrewriteaof问题 三、redis内存占用飙升 四、redis内存使用优化 五、redis cluster遇到的一些问题 一、周期性出现connect timeout...
    阅读全文 →
  • 【案例】唯品会NoSQL平台自动化发展及运维经验分享

    作者:赵新宇  /
     / 企业案例, 数据存储
    整个分享的提纲大概是这样一个过程:前半部主要围绕自动化运维进行介绍,后半部围绕Twemproxy改造及负载均衡相关,最后分享两个不好排查的运维问题。 在介绍自动化运维之前先看一下我们目前的平台背景。目前我们托管的业务主要是MC和Redis、中间层以及load balance服务。从图中可以看到,2015年上半年的增长超过了过去几年的积累,其中14年下半年的增长也占前几年积累的一半。全部的NoSQL实例已经接近3000,绝大多数业务是Redis.   整个一年里规模翻了3倍,业务的快速发展,导致运维DBA疲于奔命,持续重复...
    阅读全文 →
  • 【案例】 魅族多机房部署方案

    何伟  /
     / 企业案例
    我们为什么要做多机房部署 对于阿里投资魅族大家都知道了,魅族也放开了手机从原来的小而美,真正走向大众需求,屏幕也从15:9走向了16:9,这也带来了业务的高速增长,用户量暴增,应用商店日PV达到了2.5亿、在线音乐达到了2.3亿、同步数据量也达到了300亿条记录。    面对关键业务量的暴增,单机房扩展困难,同时还面临着单机房无法容灾的问题,所谓技术再强,扛不住挖掘机,因此多机房部署迫在眉睫。 技术挑战 多机房面临的挑战   想要部署多机房,面临着数据一致性难以保障、跨机房专线昂贵、无保障、流量怎么...
    阅读全文 →
  • 【案例】大数据量下,58同城mysql实践

    微信号:架构师之路  /
     / 企业案例, 数据存储
    WOT(World Of Tech)2015,互联网运维与开发者大会将在北京举行,会上58同城将分享《大数据量下,58同城mysql实战》的主题,干货分享抢先看。 零、分享提纲 1)基本概念 2)常见问题及解决思路 3)拆库实战 4)拆库后业务实战 5)总结 一、基本概念 二、大数据量下,mysql常见问题及解决思路 1)常见问题 如何保证可用性? 各色各异的读写比,怎么办? 如何做无缝倒库,加字段,扩容? 数据量大,怎么解决? 2)解决思路 2.1)可用性解决思路:复制 读库可用性 从库复制多个,例如:1主2从 从库挂了读主库,例...
    阅读全文 →
  • 【案例】大众点评运维架构的图文详解

    作者: 张冠宇:花名关羽,目前在大众点评做运维架构师一职。在大众点评这几年时间,见证了点评运维从无到有,从低效向高效的转变过程。 分享内容 今天分享专题大纲如图所示,从5个方面跟大家一起探讨: 1、点评运维团队的配置 目前我们运维分为4个组,相信跟大部分公司一样,运维团队分为:应用运维、系统运维、运维开发和监控运维,当然还有DBA团队和安全团队,这里就不一一罗列了。整个运维团队全算上目前是不到40人规模。 我们团队分工是这样的: 应用运维:负责支持线上业务,各自会负责对应的业务线,...
    阅读全文 →
  • 【分享】猴年说说耍猴的12306

    魏星  /
     / 企业案例
    12306已经成为每年春节绕不开的热点。在猴年的春运之际,InfoQ再次重拾这个话题,与各位一起探索这个影响亿万人的公共服务。正如小道君所说的那样,今年朋友圈里、微博上抱怨12306的少了。不得不说,这是一个很大的进步,唯有进步值得颂扬。希望明年我们不必再跟踪这个热点。 吐槽奇葩验证码 相信无数人已经见识过今年12306各种神奇的验证码了,吐槽归吐槽,我们来看看验证码到底是怎么回事?验证码的学名叫做CAPTCHA,即“图灵测试”(看过电影《机械姬》的同学因该对此并不陌生)。验证码通常是由计算机生成一个对...
    阅读全文 →
  • 【分享】精通手游运维的架构体系

    胥峰  /
     / 企业案例
    关于手游 概要 2015年第一季度,中国网络游戏市场规模达到320.8亿,环比增长8.0%,同比增长24.7%。其中移动游戏占比31.0%。相对于传统的端游,手游的兴起给运维工程师的技术能力和运维理念都带来了巨大的挑战。这是因为手游在技术架构、运维体系方面存在众多特殊的要求。本文首先分析手游运维的特点,然后再从手游的架构、容量规划两大方面给出最佳实践的推荐。 在手游运维领域,我们经常会听到一些专用名词,在这里我们首先对这些专用名词进行简单说明以期读者能对手游运维有个概念的认识: 手游开发商:也叫CP...
    阅读全文 →
  • 【案例】平台化管理MySQL数据库:拉手网DBMP平台介绍

    作者:常纯  /
     / 企业案例, 数据存储
    常纯 拉手网运维团队负责人 拉手网运维团队负责人,十余年运维工作经验(在日本从事系统运维工作三年)曾就职于日本Thrust公司、高朋网(Groupon)、拉手网、热爱研究开源技术,对互联网网站架构及自动化运维有丰富经验。 主题介绍 为什么要有DBMP平台 DBMP平台架构及功能介绍 DBMP平台页面展示 DBMP平台后期优化方向 一、为什么要有DBMP平台 公司业务不断增长,需要管理的MySQL数据库也在不断增长,DBA手里的活越来越多,从安装MySQL数据库再到线上数据修复、数据迁移、SQL审核等一些日常琐碎的事情就占...
    阅读全文 →
  • 【案例】单表60亿记录等大数据场景的MySQL优化和运维之道

    作者:杨尚刚  /
     / 企业案例, 数据存储
    此文是根据杨尚刚在【QCON高可用架构群】中,针对MySQL在单表海量记录等场景下,业界广泛关注的MySQL问题的经验分享整理而成,转发请注明出处。 杨尚刚,美图公司数据库高级DBA,负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化,以及数据库相关的服务器存储选型设计。 前言 MySQL数据库大家应该都很熟悉,而且随着前几年的阿里的去IOE,MySQL逐渐引起更多人的重视。 MySQL历史 1979年,Monty Widenius写了最初的版本,96年发布1.0 1995-2000年,MyS...
    阅读全文 →
  • 【案例】魅族资深DBA:利用MHA构建MySQL高可用平台

    作者:龙启东  /
     / 企业案例, 数据存储
    本次分享主要包括以下几方面: 如何利用MHA 改造MHA适应MySQL高可用场景 构建MySQL高可用平台的出发点 如何构建MySQL高可用平台 一、背景和目标 以前几十台DB服务器,人工登陆服务器就能维护好,也没有高可用,当master挂了,通知业务将IP切换到slave然后重启也能基本满足业务要求,但是业务迅速发展,实例数不断增加,复制集不断增加,数据库架构多样化,而这种人工维护方式显然大大增加了DBA工作量,而且效率低下、容易出错。 DB规模的增大,机器故障、SQL故障、实例故障出现的概...
    阅读全文 →
  • 【案例】每天200亿次查询 – MongoDB在奇虎360

    作者:TJ  /
     / 企业案例, 数据存储
    100多个应用,1,500多个实例,每天200亿次查询 奇虎是中国最大的安卓移动发布平台。奇虎也是中国最顶尖的病毒软件防护公司,同时为网络以及移动平台提供产品。自从2011年成为MongoDB的用户之后,奇虎已经在MongoDB上构建了100多个不同的应用,其中包括新服务以及从MySQL和Redis上迁移过来的服务——每天都会在MongoDB上运行超过1, 500个实例并且支持200亿次查询。 我很高兴能够有一个机会与奇虎的高级DBA——杨艳杰进行交流,了解更多关于他们使用MongoDB的过程及原因、他们的最佳实践以及为那些刚开始使用MongoDB的用...
    阅读全文 →
  • 【案例】达达后端系统上线流程演进

    上线流程演进 第一阶段 - 上线流程从无到有 作为达达研发团队的首位测试工程师,在我加入之前研发团队规模比较小(大概4个后端工程师和2个Android工程师)。当时后端代码上线的流程比较简单,从开发工程师Coding到代码最终上线一共会经过3个环境: 工程师本地开发环境 DEV测试环境 生产环境 开发工程师完成代码开发,在DEV测试环境自测后会把代码Push到对应仓库的Master分支上,等晚上9点上线。 上线流程(最初) 开发工程师提交Branch分支到Git Server 测试工程师在DEV环境部署Branch分支测试 代码测试通过后...
    阅读全文 →
  • 【案例】达达日志系统(一)收集

    背景 随着达达业务迅猛发展,访问量的节节攀升,每天产生大量的日志,单日日志量从原来的约20G/天涨到超过500G/天,我们面临着新的架构设计挑战。 在提出解决方案之前,我们先来了解一下达达当前的日志现状: 1. 日志种类繁多 需要收集的日志包含: Nginx的访问日志 Tomcat的访问日志 应用程序的业务日志 其他日志:移动App的日志,达达快递员位移的日志等等 2. 海量的日志记录,接近TB级别 随着系统功能越来越多,访问量的增长,记录的日志也越来越多,越来越大。高峰时期,单日日志文件大小超过500G,接近TB...
    阅读全文 →
  • 【案例】达达-高性能服务端优化之路

    提纲 业务场景 最初的技术选型 读写分离 垂直分库 水平分库(sharding) 总结 业务场景 达达是全国领先的最后三公里物流配送平台。 达达的业务模式与滴滴以及Uber很相似,以众包的方式利用社会闲散人力资源,解决O2O最后三公里即时性配送难题。 达达业务主要包含两部分:商家发单,配送员接单配送,如下图所示。   达达的业务规模增长极大,在1年左右的时间从零增长到每天近百万单,给后端带来极大的访问压力。压力主要分为两类:读压力、写压力。读压力来源于配送员在APP中抢单,高频刷新查询周围的订单...
    阅读全文 →