时序大数据平台TDengine核心原理与实战
上QQ阅读APP看书,第一时间看更新

1.6 选择时序数据处理工具的标准

毫无疑问,为了应对设备和交易产生的海量时序数据,我们需要一个优秀的时序大数据平台。那么,这个平台应具备哪些能力和特征呢?与通用大数据平台相比,它又有何不同之处?

必须是分布式系统:由于工业互联网和物联网设备产生的数据量巨大,单台服务器无法处理,因此时序大数据平台必须是分布式且可水平扩展的。设计层面须高效处理高基数问题,例如智能电表数据模型中的设备ID、城市ID、厂商ID和模型ID等标签。一个真正的时序大数据平台应能通过分布式架构解决高基数难题,支持业务增长。

必须是高性能的:高性能是相对的,描述的是产品之间的性能差异。优秀的大数据平台不应依赖大型硬件,而应具备强大的单点工作能力,以更少的资源实现更好的性能,从而实现降本增效。

必须是满足实时计算的系统:与互联网大数据处理场景不同,物联网场景需要实时预警和决策,延迟须控制在秒级以内。计算实时性对物联网商业价值至关重要。

必须拥有运营商级别的高可靠服务:工业互联网和物联网系统关乎生产与经营,数据处理系统故障可能导致停产和经济损失。时序大数据平台必须具备高可靠性,支持数据实时备份、异地容灾、软硬件在线升级和在线IDC(Internet Date Center,互联网数据中心)机房迁移等功能。

必须拥有高效的缓存功能:为快速获取设备状态或其他信息,时序大数据平台须提供高效机制,让用户获取全部或符合条件的部分设备的最新状态。

必须拥有实时流计算:实时预警或预测须基于数据流实时聚合计算,而非单一时间点。平台应支持用户自定义函数进行复杂实时计算。

必须支持数据订阅:多个应用可能需要同一组数据,系统应提供订阅功能,实时提醒应用数据更新,同时保障数据隐私和安全。

必须保证数据能持续稳定写入:数据写入所需要的资源可估算,但查询和分析可能耗费大量资源。时序大数据平台必须分配足够资源以确保数据不丢失,且为写优先系统。

必须保证实时数据和历史数据的处理合二为一:平台应隐藏存储细节,为用户提供统一接口和界面,确保访问新数据和旧数据的体验一致。

必须支持灵活的多维度分析:平台须支持各种维度统计分析,如地域、设备型号、供应商和使用人员等,且分析维度可根据业务发展需求定制。

需要支持即席分析和查询:为提高分析师工作效率,平台应允许用户通过SQL查询,结果可导出为图表。

必须支持数据降频、插值、特殊函数计算等操作:平台须支持高效数据降频、多种插值策略和特殊函数计算,以满足分析需求。

必须提供灵活的数据管理策略:平台应提供多种数据管理策略,让用户根据特点选择和配置,实现策略并存。

必须是开放的:平台须支持标准SQL、多种编程语言开发接口和工具,以便集成机器学习、人工智能算法等,实现平台扩展。

必须支持异构环境:平台须支持与不同档次和配置的服务器与存储设备并存。

必须支持边云协同:平台须建立灵活机制,实现边缘计算节点数据上传至云端,并根据需求同步数据。

需要统一的后台管理系统:便于查看平台运行状态、管理集群、用户和资源等,并能与第三方IT运维监测平台无缝集成。

需要支持私有化部署:为满足企业安全和私密性需求,平台须在安装、部署、运维等方面做到简单、快捷且可维护性强。

总之,时序大数据平台应具备高效、可扩展、实时、可靠、灵活、开放、简单、易维护等特点。近年来,众多企业纷纷将时序数据从传统大数据平台或关系型数据库迁移到专用时序大数据平台,以保障海量时序数据得到快速和有效处理,支撑相关业务的持续增长 。