Home > 企业案例
  • 【案例】58集团高可用Docker容器云的实践

    58私有云平台是58同城架构线基于容器技术为内部服务开发的一套业务实例管理平台,支持业务实例按需扩展,秒级伸缩,平台提供友好的用户交互过程,规范化的测试、上线流程,旨在将开发、测试人员从基础环境的配置与管理中解放出来,使其更聚焦于自己的业务。本文和大家分享在私有云平台实施过程中的相关容器技术实践。 本文主要从以下三个部分来进行讨论: 背景:当前存在哪些问题,为什么使用容器技术 整体架构:整个容器技术的架构方案 核心模块的设计方案:一些核心模块的选型决策与解决方案 为什么使用容器...
    阅读全文 →
  • 【案例】乐视电商云的整体架构与技术实现

    1. 电商系统发展过程 电商网站在不同时期的架构复杂度有所不同: 初创期:商品类型少,业务复杂度低,系统架构简单。采用高可用数据库、分布式缓存、文件存储等基本组件就可满足需求。 发展期:数据量、业务复杂度、系统复杂度、计算资源需求都剧增。则需要业务拆分并独立部署,采用CDN、高可用数据库、分布式缓存、分布式消息队列、分布式文件存储等。 电商技术基础架构图,如下所示: 2. 高速发展期的电商面临的问题 2.1 业务的快速扩张、资源需求快速扩张,但利用率低下 企业的主要目标是在市场上抢得先...
    阅读全文 →
  • 【案例】谈唯品会的峰值系统应对实践

    区别于其他网购品牌唯品会定位是“一家专门做特卖的网站”, 商业模式为“名牌折扣+限时抢购+正品保险”,即“闪购”(flash sales)模式。每天上新品,以低至1折的深度折扣及充满乐趣的限时抢购模式,为消费者提供一站式优质购物体验, 这种闪购限时特卖业务特点决定了网站随时都需要处理高并发、大流量的用户请求。大量买家在每次新的品牌档期上线后,大量涌入,抢购商品,造成网站承担大量流量。尤其碰到热门商品,网站并发访问剧增,会造成整个网站负载过重,响应延迟,严重时甚至会出现服务宕机的情况。 另外唯品...
    阅读全文 →
  • 【分享】亿级Web系统的容错性建设实践

    【背景介绍】 三年多前,我在腾讯负责的活动运营系统,因为业务流量规模的数倍增长,系统出现了各种各样的异常,那个时候,我7*24小时地没日没夜处理告警,周末和凌晨也经常上线,疲于奔命。后来,当时的老领导对我说:你不能总扮演一个“救火队长”的角色, 要尝试从系统整体层面思考产生问题的根本原因,然后推进解决。我幡然醒悟,“火”是永远救不完的,让系统能够自动”灭火”,才是解决问题的正确方向。简而言之,系统的异常不能总是依赖于“人”去恢复,让系统本身具备“容错”能力,才是根本解决之道。三年多过去了...
    阅读全文 →
  • 【分享】游戏运维编年史:可能是目前最详细游戏运维指南

    编者按:  从端游到页游再到手游,15年来中国网游在世界上都有着举足轻重的地位。但是再好的游戏如果出现连接、延迟等问题时也会造成巨大损失,这时游戏运维便发挥了举足轻重的作用。中国网游的发展史,其实也是游戏运维的变革史,今天便由经典武侠手游《大掌门》运维掌门人吴启超来向我们讲述,进入游戏领域10余年来的风风雨雨。 有服务器的地方就有运维 如今我们说到游戏,可能想到的是火爆异常的VR,办公室里一言不合带上眼镜就地开打;亦或是刚刚虐了李世石的AlphaGo,扬言要挑战《星际争霸2》“教主”Flash。然...
    阅读全文 →
  • 【理论】秒杀系统架构优化思路

    一、秒杀业务为什么难做 1)im系统,例如qq或者微博,每个人都读自己的数据(好友列表、群列表、个人信息); 2)微博系统,每个人读你关注的人的数据,一个人读多个人的数据; 3)秒杀系统,库存只有一份,所有人会在集中的时间读和写这些数据,多个人读一个数据。 例如:小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万。 又例如:12306抢票,票是有限的,库存一份,瞬时流量非常多,都读相同的库存。读写冲突,锁非常严重,这是秒杀业务难的地方。那我们怎么优化秒杀业务的架构呢...
    阅读全文 →
  • 【案例】云智慧:如何进行PB级别数据的架构变迁

    随着DT时代的来临,数据对于企业经营决策的价值日益凸显,而企业在进行互联网+转型的过程中,如何让数据架构平滑迁移到大数据平台,对于传统业务的转型升级至关重要。企业IT部门该如何进行PB级别大数据平台的迁移规划呢,请看云智慧运维总监张克琛带来的经验分享。 提到PB级别的大数据解决方案市面上有很多,比较火的有Hadoop、Spark、Kafka等等,如果是一个新上线的系统,相信大家都能找到适合自己的方案。但“大数据”在09年才逐渐成为互联网信息技术的流行词汇,一个较老的系统如何平滑迁移到PB级数据架构呢? 云...
    阅读全文 →
  • 【案例】荔枝FM架构师刘耀华:异地多活IDC机房架构

    多机房架构存在的原因 单机房一旦死机,断电、维护根本无法挽回整个数据,想离线读取等都不行。当一个机房不可用,所有的业务就都不可用。荔枝 FM 要求业务离用户最近,南方的用户连南方的机房,北方的用户连北方的机房,国外的用户连国外的机房。大陆的网络和国外的网络有一定的隔离性,如果没有做多机房的连通性,数据的传输和实时性就会有问题。 跨机房的作用是为了备份,一个机房的数据放在另一个机房是异地多活。上面是数据容灾,下面的是业务容灾,第三个是让服务离用户最近。这是荔枝 FM 做跨机房的原因...
    阅读全文 →
  • 【案例】nice公司服务端架构重构与演进

    作者简介: 雷果国,2014 年 11 月加入 nice,负责服务端在线业务,擅长 PHP,曾自发翻译过《Extending and Embedding PHP》一书及PHP官方手册部分模块。喜欢利用所学构建自己的工具链,思考系统和架构设计方面的问题。 文章内容: nice 是一款图片社交 App,目标是让人们发现生活的美好。产品的核心体验是基于生活方式的社交。 我们期望通过图片、直播、标签、潮牌新品等方式,让用户表达自己的生活方式,以这些内容作为基础,为用户提供社交场景。产品方面,目前我们仍然在积极探索怎样更好的为用户提供这种价值...
    阅读全文 →
  • 【案例】魅族实时消息推送架构

    作者简介: 于小波,2011年加入魅族,现在在移动互联网部门,负责服务器后台架构和开发工作。 系统介绍 这个系统数据情况是这样的,实时在线的用户是2500万左右,下面有一个趋势图,从今年1到10月份的都列出来了,这个系统一天PV量是50亿左右,这个系统推送速度可以达到600万条/分钟。 系统架构设计 系统架构逻辑上划分,划分为四层,最下面的一个是提供魅族手机的接入。第二层是消息分发服务,主要的作用就是提供上行消息的路由和用户下行消息的路,这边有一个用户路由表。第三层是订阅信息,第四层是存储,包括...
    阅读全文 →
  • 【案例】美团在Redis上踩过的一些坑

    Java我人生  /
     / 企业案例
    【写在前面】 网上很不错的一篇介绍美团redis在实际线上应用中遇到的问题和解决办法,文章的初始来源是哪个博客不确定,只知道是作者参加了360组织的互联网技术训练营第三期,总结了美团网的DBA负责人侯军伟给大家介绍的美团网在redis上踩得一些坑,讲的都是干货和坑,很具有参考学习价值,转载记录。 【文章内容】 分为5个部分: 一、周期性出现connect timeout 二、redis bgrewriteaof问题 三、redis内存占用飙升 四、redis内存使用优化 五、redis cluster遇到的一些问题 一、周期性出现connect timeout...
    阅读全文 →
  • 【案例】唯品会NoSQL平台自动化发展及运维经验分享

    作者:赵新宇  /
     / 企业案例, 数据存储
    整个分享的提纲大概是这样一个过程:前半部主要围绕自动化运维进行介绍,后半部围绕Twemproxy改造及负载均衡相关,最后分享两个不好排查的运维问题。 在介绍自动化运维之前先看一下我们目前的平台背景。目前我们托管的业务主要是MC和Redis、中间层以及load balance服务。从图中可以看到,2015年上半年的增长超过了过去几年的积累,其中14年下半年的增长也占前几年积累的一半。全部的NoSQL实例已经接近3000,绝大多数业务是Redis.   整个一年里规模翻了3倍,业务的快速发展,导致运维DBA疲于奔命,持续重复...
    阅读全文 →
  • 【案例】 魅族多机房部署方案

    何伟  /
     / 企业案例
    我们为什么要做多机房部署 对于阿里投资魅族大家都知道了,魅族也放开了手机从原来的小而美,真正走向大众需求,屏幕也从15:9走向了16:9,这也带来了业务的高速增长,用户量暴增,应用商店日PV达到了2.5亿、在线音乐达到了2.3亿、同步数据量也达到了300亿条记录。    面对关键业务量的暴增,单机房扩展困难,同时还面临着单机房无法容灾的问题,所谓技术再强,扛不住挖掘机,因此多机房部署迫在眉睫。 技术挑战 多机房面临的挑战   想要部署多机房,面临着数据一致性难以保障、跨机房专线昂贵、无保障、流量怎么...
    阅读全文 →
  • 【案例】大数据量下,58同城mysql实践

    微信号:架构师之路  /
     / 企业案例, 数据存储
    WOT(World Of Tech)2015,互联网运维与开发者大会将在北京举行,会上58同城将分享《大数据量下,58同城mysql实战》的主题,干货分享抢先看。 零、分享提纲 1)基本概念 2)常见问题及解决思路 3)拆库实战 4)拆库后业务实战 5)总结 一、基本概念 二、大数据量下,mysql常见问题及解决思路 1)常见问题 如何保证可用性? 各色各异的读写比,怎么办? 如何做无缝倒库,加字段,扩容? 数据量大,怎么解决? 2)解决思路 2.1)可用性解决思路:复制 读库可用性 从库复制多个,例如:1主2从 从库挂了读主库,例...
    阅读全文 →
  • 【案例】大众点评运维架构的图文详解

    作者: 张冠宇:花名关羽,目前在大众点评做运维架构师一职。在大众点评这几年时间,见证了点评运维从无到有,从低效向高效的转变过程。 分享内容 今天分享专题大纲如图所示,从5个方面跟大家一起探讨: 1、点评运维团队的配置 目前我们运维分为4个组,相信跟大部分公司一样,运维团队分为:应用运维、系统运维、运维开发和监控运维,当然还有DBA团队和安全团队,这里就不一一罗列了。整个运维团队全算上目前是不到40人规模。 我们团队分工是这样的: 应用运维:负责支持线上业务,各自会负责对应的业务线,...
    阅读全文 →
  • 【分享】猴年说说耍猴的12306

    魏星  /
     / 企业案例
    12306已经成为每年春节绕不开的热点。在猴年的春运之际,InfoQ再次重拾这个话题,与各位一起探索这个影响亿万人的公共服务。正如小道君所说的那样,今年朋友圈里、微博上抱怨12306的少了。不得不说,这是一个很大的进步,唯有进步值得颂扬。希望明年我们不必再跟踪这个热点。 吐槽奇葩验证码 相信无数人已经见识过今年12306各种神奇的验证码了,吐槽归吐槽,我们来看看验证码到底是怎么回事?验证码的学名叫做CAPTCHA,即“图灵测试”(看过电影《机械姬》的同学因该对此并不陌生)。验证码通常是由计算机生成一个对...
    阅读全文 →
  • 【分享】精通手游运维的架构体系

    胥峰  /
     / 企业案例
    关于手游 概要 2015年第一季度,中国网络游戏市场规模达到320.8亿,环比增长8.0%,同比增长24.7%。其中移动游戏占比31.0%。相对于传统的端游,手游的兴起给运维工程师的技术能力和运维理念都带来了巨大的挑战。这是因为手游在技术架构、运维体系方面存在众多特殊的要求。本文首先分析手游运维的特点,然后再从手游的架构、容量规划两大方面给出最佳实践的推荐。 在手游运维领域,我们经常会听到一些专用名词,在这里我们首先对这些专用名词进行简单说明以期读者能对手游运维有个概念的认识: 手游开发商:也叫CP...
    阅读全文 →
  • 【案例】平台化管理MySQL数据库:拉手网DBMP平台介绍

    作者:常纯  /
     / 企业案例, 数据存储
    常纯 拉手网运维团队负责人 拉手网运维团队负责人,十余年运维工作经验(在日本从事系统运维工作三年)曾就职于日本Thrust公司、高朋网(Groupon)、拉手网、热爱研究开源技术,对互联网网站架构及自动化运维有丰富经验。 主题介绍 为什么要有DBMP平台 DBMP平台架构及功能介绍 DBMP平台页面展示 DBMP平台后期优化方向 一、为什么要有DBMP平台 公司业务不断增长,需要管理的MySQL数据库也在不断增长,DBA手里的活越来越多,从安装MySQL数据库再到线上数据修复、数据迁移、SQL审核等一些日常琐碎的事情就占...
    阅读全文 →
  • 【案例】单表60亿记录等大数据场景的MySQL优化和运维之道

    作者:杨尚刚  /
     / 企业案例, 数据存储
    此文是根据杨尚刚在【QCON高可用架构群】中,针对MySQL在单表海量记录等场景下,业界广泛关注的MySQL问题的经验分享整理而成,转发请注明出处。 杨尚刚,美图公司数据库高级DBA,负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化,以及数据库相关的服务器存储选型设计。 前言 MySQL数据库大家应该都很熟悉,而且随着前几年的阿里的去IOE,MySQL逐渐引起更多人的重视。 MySQL历史 1979年,Monty Widenius写了最初的版本,96年发布1.0 1995-2000年,MyS...
    阅读全文 →
  • 【案例】魅族资深DBA:利用MHA构建MySQL高可用平台

    作者:龙启东  /
     / 企业案例, 数据存储
    本次分享主要包括以下几方面: 如何利用MHA 改造MHA适应MySQL高可用场景 构建MySQL高可用平台的出发点 如何构建MySQL高可用平台 一、背景和目标 以前几十台DB服务器,人工登陆服务器就能维护好,也没有高可用,当master挂了,通知业务将IP切换到slave然后重启也能基本满足业务要求,但是业务迅速发展,实例数不断增加,复制集不断增加,数据库架构多样化,而这种人工维护方式显然大大增加了DBA工作量,而且效率低下、容易出错。 DB规模的增大,机器故障、SQL故障、实例故障出现的概...
    阅读全文 →