前言
当然,对于绝大多数人来说,运维的功能是模糊的,特别是在分布式存储领域,“运维”往往伴随着“机房”、“IDC”等词汇。因此,许多不同的运营商对操作和维护的理解仍然停留在物理层面,并以装卸机器、上下架服务器、网络电源管理为基准,像网络管理一样维护机器的运行。实际上,运维工程师在工作方法上可以分为几类,如:运维工程师、运维开发工程师、运维平台研发工程师、数据库工程师、数据库研发工程师等,体现了运维工程师的操作和维护能力维护能力更侧重于为企业开发定制的本地工具。
运维工程师负责维护和确保整个服务的高可用性,同时不断优化系统架构,提高部署效率,优化资源利用率,提高整体投资回报率。
随着filecoin主网的临近,“运维”的重要性在业界已基本达成共识。随着行业说教数量和内容的升级,越来越多的投资参与者开始理性分析。无论是从filecoin项目的阶段性动态还是从挖矿服务提供商的选择来看,现阶段最重要的运维都是在主网上线初期的工程师,你确定你准备好了吗?
第一次操作和维护知识
1.1什么是操作和维护
运维一般是指互联网运维,它是集研发、测试、系统管理于一体的四大技术部门。
运维技术方向包括业务监控技术、业务故障管理、业务容量管理、业务性能优化、业务全局流量调度、业务任务调度、业务安全、数据传输技术、业务自动发布与部署、业务集群管理、服务成本优化、数据库管理、平台开发、分布式存储平台的开发分布式优化是其中的技术要领之一。
同时,运维人员在运维工作中,要兼顾web服务器、监控、自动部署、配置管理、负载均衡、传输工具、备份工具、数据库、分布式平台等大而全、小而细的事项,分布式数据库、容器、虚拟化、安全性、问题跟踪等。
运维工程师通过软件或命令行实时与第三方系统同步,实现可视化监控平台与各系统的无缝连接,保证系统数据的准确性和稳定性,及时处理报警信息,提高动态环境(电力环境)监测和管理的效率。
从2008年开始实施动态环境监测已经12年了。主要包括以下模块:
配电系统:ups及直流电源、自备发电机、配电柜、防雷检测等。
环境系统:空调、温湿度监测、漏水监测、气体监测等。
消防系统:感烟探测器、温度传感器、预警系统、其他消防设备等。
安全系统:图像监控、门禁监控、红外检测、玻璃破损检测等。
It网络管理监控:网络设备、PC服务器、操作系统、数据库和应用程序。
此外,运维工程师还需要注意:
联动控制:电子开关、联动视频、数据存储、运动控制等。
事件记录:运行记录、状态记录、异常记录、确认记录等。
异常报警:声光报警、语音广播、电话报警、短信报警、邮件通知等。
运维人员日从上班打卡开始。他们忙个不停,“007”模式很常见。
1.2运维发展历程
运行维护是为了使系统运行的变量可控。然而,运维环境的异质性和复杂性使得日常运维工作的人力和时间成本越来越高。
从初级运维到***的智能运维,主要有四个阶段的过渡:
剧本时代
工具时代
自动化时代
智能时代
两年前,“智能运维”开始受到大家的广泛关注。随着大数据分析、APM(application performance management)、智能异常检测、机器学习等技术的兴起和成熟,运维需求正逐步向自动化、智能化过渡。
自动化的意义
2.1自动运行维护模式;
自动化是智能化的前提。自动运维模式解决了硬件和网络的自动管理、虚拟机的自动管理、操作系统和软件的自动安装和配置。我们可以看到很多“管理”自动化的意义一方面是提高效率,优化成本,优化资源,更好地做一些弹性的释放资源做其他的事情;另一方面是完成运维水果标准化可以**。
当然,从仪器化到自动化的过程并不那么容易。对于整个行业来说,更多的工作正在探索自动化。IPFs force area多年来一直致力于分布式存储,近两年来一直致力于filecoin源代码,它是为数不多的自动操作和维护服务提供商之一。在此,我要向为行业发展服务的科技巨头们致敬。
说到运维,在filecoin领域,标准运维软件的开发有别于其他相对传统的运维软件。例如,在Ali从仪器化到自动化的过程中,笔者认为仪器化的挑战相对较小。即使是传统的操作和维护人员也可以轻松地编写一些工具,比如用Python编写更多的工具系统。但是,如果开发人员的工具要能够达到自动化阶段,那就意味着对工具的要求会越来越高,例如工具的质量。如果开发人员编写的工具经常出现问题且规模较大,则开发人员无法承受压力。这时,从人性的角度来看,开发者会逐渐失去信任感,最终也会难以完成这个过程。
当自动运维实现监控、问题诊断、可视化等功能时,运维人员只留下一部分人工任务,包括灾备切换、应急操作、应用部署、启停等,这样就可以把大量的精力投入到运营中维护开发,为用户带来更好的服务体验。
2.2实现自动化的方法
一套完整的综合动态环境监控系统,能实时采集、监控系统和设备的运行状态和安全性,记录和处理相关数据;及时发现故障,进行必要的远程控制操作,及时通知驻地和远程运维处理;实现机房少人值守,对供电、空调进行中心化监控和维护管理,提高供电系统的可靠性和通信设备的安全性,为机房的自动化甚至智能化管理和科学决策提供强有力的技术支持。
但目前,真正实现自动化运维的实践在filecoin行业中所占比例很小。**而独创的定制运维系统更是少之又少,而部队雷池就是其中之一。
运营维护对filecoin的重要性
3.1 Devops概念
3.1.1 Devops工作原理
在Devops模式下,开发团队和运维团队不再是“孤立的”,他们将在应用程序的整个生命周期(从开发测试到部署到运行)相互合作,开发出一系列不局限于单一功能的技能。这些团队将利用实际经验,将以前手工操作的缓慢过程自动化,并使用能够帮助他们快速可靠地操作和开发应用程序的技术系统和工具,进一步提高团队的工作速度。
3.1.2 Devops的文化理念
向Devops过渡需要改变文化观念和心态。Devops旨在消除两个传统上孤立的团队之间的障碍。他们努力做到经常沟通,提高效率,提高客户服务质量。他们可以完全控制自己的服务,并且经常考虑和解决终端用户的需求,而不仅仅局限于他们的既定角色或功能。
3.1.3 Devops实践
有一些重要的实践可以帮助组织通过自动化和简化软件开发和基础设施管理过程来加速创新,而这些实践大多需要通过适当的工具来完成。一个基本的实践经验就是要经常小规模地更新它们。
这是一个组织快速为客户提供创新的有效方法。与传统出版实践中偶尔的更新相比,这种更新通常更具进步性。频繁的小规模更新可以降低每次部署的风险。它们可以帮助团队更快地处理错误,因为团队可以确定导致错误的**部署。尽管更新的速度和规模可能有所不同,但是使用Devops模的组织将比使用传统软件部署实践的组织更频繁地进行更新。
此外,组织可以使用微服务架构来增强应用程序的灵活性,从而加快创新的步伐。微服务体系结构将大复杂系统划分为简单的独立项目。应用程序被分成许多单独的组件(服务),每个服务都局限于一个单一的用途或功能。这些服务可以独立于其对等服务运行,也可以与应用程序一起作为一个整体运行。这种架构降低了更新应用程序的协调成本,并且当每个服务对应于控制每个服务的敏捷小团队时,组织可以实现更快的开发。
然而,微服务和更高发布频率的结合将导致部署的大幅增加,这将带来操作和维护方面的挑战。因此,Devops的实践经验,如持续集成和持续交付,可以帮助解决这些问题,使组织能够快速、安全地交付。与基础设施(即代码和配置管理)一样,基础设施自动化实践有助于保持计算资源对频繁变化的灵活性和适应性。此外,监控和记录的实际经验有助于工程师跟踪应用程序和基础设施的性能,以便他们能够快速响应出现的问题。
3.2 filecoin运维与传统运维的区别
与传统的互联网运维相比,filecoin矿工的运维难度要高出几倍甚至几十倍,这主要受挖矿模式的影响。例如,当整个机器以串联和并联模式使用时,难点只中心化在单个固件上程序的稳定性。然而,如果采用集群或分布式挖矿池的模式,可以实现集群间各种请求调度和需求分层次部署的高标准,这对运维工程师来说是一个很大的挑战。当filecoin全网对算力的需求急剧增加时,集群挖矿池模式的运维仍然可以自由面对,而其他模式的运维则需要堆积资源来解决这种情况。
如果filecoin的操作和维护不同于传统的操作和维护,以下是一些示例:
物理层:由于阿里云等服务提供商没有标准化的服务支持,filecoin云服务需要更加关注底层架构,需要定制自建IDC,这远远超出硬件范围。
Sass:filecoin软件服务层还需要大量的操作工具来支持数据可视化。这样,运维需要开发平台和可视化工具。在这个过程中,运维参与了大量的研发工作。
运维流程:传统的运维流程由于参与者少,逻辑简单,流程简单。它主要以web的形式访问接口,对端口进行良好的监控。反馈的过程基本上是简单的,结果是最容易控制的。但是,filecoin流程复杂,需要维护的模块多,自动化难度高,监控数据复杂高频,尤其是惩罚机制,就像达摩克利斯之剑一样,即使困难,也总要警告矿场,我们不能犯任何错误。客户的数据存储需求和服务是filecoin的首要任务。
准确性:运维需要物理层监控,但对于filecoin来说,监控块时间、块速率、算力趋势、Lootus同步高精度等维度的重要性不亚于物理层的运行状态。在传统的运维场景中,异常处理的需求可能在小时级别,上千万用户的应用服务可能在分钟级别。但是,filecoin网络中任何一个参数的异常都可能给矿工造成巨大的利润损失和抵押金处罚,容易造成不赔不赔的局面。
另外,部队区域的运维要按照莲花官方代码进行优化,测试运维的开发能力、程序运行结果的稳定性,实现健康状态检查、故障自动重启、故障自愈。这些都是为了提高CPU的利用率,从而提高算力、块输出和收益,效率可以提高2-3倍。
3.3项目发布之间的差异
3.3.1频率
传统的互联网项目发布频率固定,时间固定。例如,每个星期三,部署的原因是修复错误并添加新功能。但根据filecoin网络的现状,部队运维要灵活部署,随时准备部署和更新链版本,使现有的集群能够在第一时间被摧毁,整个过程可以重新部署,这也是实现实时**挖矿收益的前提。
3.3.2粒径
除了数据监控可视化和运维应用程序状态监控可视化外,filecoin挖矿服务还具有非常精细的粒度,如自动监控扇区进程中的p1-p7状态和返回值。
当部队地区运维工程师细化数据粒度、自动化、精细化和平台化(后台)时,国内外自动化部署将达到分钟级。所有服务器将在后台一键管理,新代码将并行部署,部署时间将被自动化工具压缩,这将节省99%的耗时效率优化,这将减少100兆字节的数据包时钟级远程部署是一个挑战,但这是filecoin挖矿池技术推广的一次飞跃。
自动化大运行维护
在filecoin测试中,大矿工最初的“5pb”标准不再是对行业的挑战。根据评估,filecoin的主网络将在上线前3-6个月达到1000pb。这些数据带来了一个由filecoin运维工程师预先准备好的操作:如何进行大规模的运维?
目前,自动化运维是解决大规模集群运维的必由之路,也是运维工程师面临的**挑战。如何管理几十万台服务器上的服务,保证服务的高可用性,这里需要集群**能力,但与传统的运维项目相比,**部署的复杂度要高出10倍。做好货架上24小时现场维护和保障设备;高频定时环境监测和记录支持设备运行;自动分布式部署和分布式监测系统支持系统运行;核心网络监测、护航设备和系统系统;应用连接性;成熟的一保五冗余保护策略,保证数据安全;攻防防护支持等,还远远不够。运维之路漫长而漫长
总结
当我们期待主网的到来时,filecoin的开发工程师们也会逐渐淡出,filecoin的发展最终会交付给社区。网络的运行状况取决于大矿工运维工程师的能力。
在太空竞赛的**阶段,忙碌的操作和维护工程师将得到奖励。详情请看8月25日。
文章链接:https://www.btchangqing.cn/91427.html
更新时间:2020年08月25日
本站大部分内容均收集于网络,若内容若侵犯到您的权益,请联系我们,我们将第一时间处理。