湖上建仓、仓上挂湖
所谓「湖仓一体」,这又是一个在我看来,装逼大于实用性的噱头。
你不得不承认,在当下咱们这种浮躁的技术氛围下,总有那么一小撮人,喜欢时不时给你造出一些体现所谓「创新」、「新潮」、「高逼格」的技术词汇。
为什么会这样呢?
一方面,因为各大公司、组织在汇报工作,吹牛逼的时候,老板们,甲方爸爸们喜欢听;
另一方面,对于这种造新词的活,也成了这帮人的日常KPI。
在一些老板们眼里,你的项目,产品用到了哪些实用性技术,他们毫不在乎,他们只想知道,你这汇报的 PPT 够不够「唬人」,技术架构图能不能「震住场」,内容描述是不是「高大上」。
至于靠不靠谱,能不能让人听懂、看懂,这些都不重要,反正落地实践的时候是个什么熊样,他们也看不到,也看不懂,自然就不会去关心。
忽悠呗,谁不会啊!
这就导致一个现象,那就是但凡技术圈里有个新潮的概念冒头,就会有一堆人追捧,在都没有搞清楚这玩意到底是个什么东西的情况下,就一股脑跟风在那尬吹。
反正宣传这些概念,写这种文章又不用动脑,各种抄呗,至于落地实践,关我什么事,我又不用负责,我只关心流量。
网上一搜,你会发现这种垃圾水文遍地都是,很多文章甚至连标点符号都抄的一模一样,关键人家还大言不惭的告诉你,我是“原创”哦。
这样的现象在我们当下的网络环境里比比皆是,一个个拿出来说显然不可能,那么今天,咱就从这个所谓的「湖仓一体」开始(撕)吧。
0.
这个概念对于广大大数据开发的同学们来说,应该一点都不陌生,对于圈内人来说,你几乎每天都可以接触到这样的资料和文章。
这样的文章基本都有一个共同的特点,那就是:**开局一张图,内容到处抄!
**
原本你以为是一篇解惑的科普文,但不曾想,你要是敢全部看完,那必定是越解越惑,最后只能怀疑是不是自己智商不行。
类似的文章我看了非常多,如果说看劣质内容对我心灵跟眼睛的伤害算工伤的话,那我一定可以报销一大笔。
这些文章最喜欢玩的,就是为了解释一个「高大上」的概念,然后用另外一堆「高大上」的词汇堆砌起来,最后告诉你:诺,就是这样的啦,我已经说的很明白喽,看不懂那就是你的问题。
可不嘛,拿别人的二手资料复制过来一粘贴,瞬间就变成自己的了,同时觉得自己瞬间也懂了,但你要是敢追问它细节,保准一问就死。
今天这篇文章,咱就来看看对于「湖仓一体」那些在我看来扯淡的地方,它是怎么描述的?
1. 什么是数据湖
你一定看过很多文章对数据湖的解读,它们一般是这样式的:
_引用自某网络资料
_
虽然不同的文章,对于什么是数据湖的解释不完全相同,但核心总结起来就是:
数据湖是一个,首先能够容纳企业各式各样的,比如结构化、半结构化、非结构化的,未加工的原始数据,这样一个集中式的存储场所。其次数据湖能提供对这些数据进行计算、分析、和结果展示的能力。
这里面最有争议的其实就是它的存储,你要真能满足这些半结构、非结构化数据的「大一统」存储,目前来看,就只有基础的文件系统(比如HDFS、S3这些)。
但是呢,你再看看现在那些宣称自己是数据湖技术的软件(Hudi、iceberg、Delta lake、Paimon等),哪一个在使用前不需要结构化数据,不需要建表的?它们真的能存储非结构化数据?(详情可以参考我的历史文章)
能个锤子,睁着眼睛说瞎话!
但奇怪就奇怪在,几乎你能看到的所有跟数据湖主题相关的文章、资料,好像都在告诉你,这些就是能。
脑子是个好东西,适当的时候也麻烦用一用。
2. 湖仓一体
对这个概念的解读就更有意思了,最近看到这样的2个描述:
湖上建仓、 仓外挂湖
好高大上的两个「四字成语」啊,看的人不由得顿时菊花一紧、心生敬畏,这两个词要是整到 PPT 上,那不又得收获一顿雷鸣般的掌声。
正所谓「外行看热闹,内行看门道」,虽然这些破烂玩意确实比较容易把一些门外汉迷的七荤八素的,但咱是专业的呀,你再花里胡哨的伪装,也逃脱不了我的火眼金睛不是。
来,现在就给你撕开这两个概念的遮羞布。
所谓的**「湖上建仓」**,一些概念绕来绕去,其实说的就是:
**首选第一个,数据存储跟数据计算,是分开的两个不同软件,数据先存储到这个统一的存储软件里(直接的文件系统、或者上面提到的那些数据湖软件);
**
然后,利用一些数据库可以配置统一的(区别于本地的磁盘目录),专门的存储软件的能力(比如HDFS、S3,或者上面提到的那些数据湖软件),来实现的存储跟计算分离目的。
再来看什么是**「仓外挂湖」**?
指的是,原本的数据库它所要的查询的数据,是来自本地磁盘的(就那种正常的,配置本地目录的方式),但是呢,由于一些数据库支持对外部存储的扩展。
所以,这个数据库,它又可以扩展一些对外部存储(比如HDFS、S3,或者上面提到的那些数据湖软件)的计算能力,实现这个存储跟计算分离。
要我说,这个所谓的「湖上建仓」跟「仓外挂湖」解释来解释去,本质说的就是“存算分离”这一个意思,你信吗?
但你要是敢去看完对这两个概念解释的原文,绕不死你算我输。
3. 为啥要吐槽
光吐槽这些现象肯定不是咱的目的,我想表达的是:
_首先,任何技术它都不神秘,也根本不存在所谓的高大上;
_
其次,那些试图用各种晦涩难懂、逻辑混乱、看上去逼格拉满的词汇向你解释某个技术的资料,要么就是写的人不懂装懂,东拼西凑来显摆的。
要么就是故意用这种方式来试图拉高自己的段位,搁那装逼的,看吧,我就是比你厉害。
当然还有一种,那就是他的内容越晦涩难懂,越让你有种不觉明厉的错觉,以此来强调自己专业,最终目的就是卖产品。
如何破解?
没有什么绝招,现在的技术环境早就没有我刚入行时那么纯粹了,虽然说网络上的资料越来越丰富,但是充斥其中的各种「臭鱼烂虾」也是越来越多。
如何分辨?只能多怀疑、多思考、多验证,不要轻易相信任何人的言论。
另外,使用一项技术,就爱一项技术,尽可能把它用深,用到极致,而不是浅尝辄止。
就拿这个所谓的湖仓一体架构来说,你要是能把几个主流数据库给玩溜了,我相信你这辈子都可以不用这破玩意,一样能利利索索解决好你的业务问题。
好了,就吐槽到这吧,这些话说出来真舒服,可憋死我了。