现在是1.27日晚上,突然想起,按照惯例,我应该在Chinese New Year前做一下对过去一年的总结。

明天就要除夕了,但我也不知道这篇文章会在今天还是明天给水完。下次能不能早点写完,太极限了。

当这个假期开始,我的研究生生活也就当过半了。回想24年,我的思想和23年有了很多不同,刚去看了23年写的总结,以下是我曾经写的23年“目标“:

  • 持续的创作,全网粉丝能破2k➡️截至目前,我的水军已经有5569了,但是....等下细细说
  • 有2个开源项目➡️项目是有的,就是Star不多,希望过路的能够互粉🫰。
  • 英语的掌握程度超过23年➡️大概吧,但是看文献,我已经离不开大模型翻译了。。。
  • 能发1篇C以上的会议论文➡️今年主导写的一篇被拒绝了,继续改又没有时间,容后说说。。。这篇论文老师又交给另一个人了,学生一作的归属已经成为了一个问题,但幸运的是被一个想要读博的师兄猛的带了一篇2区的学生2作哈哈。

总得来说,差不多都算达标,除了最后一个。

除了这些,在24年我觉得自己是忙忙碌碌的。

认知 #

首先是关于工作还是读博,实际上到现在,我还是很纠结的,纠结在于我的学历,毕竟双非就像坐过牢,读博也改变不了出身,甚至在未来更加激烈的人数中,去不了好的高校,赚不了钱甚至守着无聊的博士title过着贫苦日子,去了私企,但赚的钱没有硕士多。写到现在,明眼人就会发现目前我偏于工作更多点,但却仍然还对读博心存侥幸。

而对于工作,相比23年,我已经放弃了前后端的工作,我之前也说过我在搞HPC,而HPC+AI,实际上就是AI Infra,但说这个有太大了,具体一点,就是搞AI算法的训练并行化,做做AI框架。

哈哈,有人就说过,这实际上就是AI届的后端,而我放弃的后端是做网页的,看着高大上了许多,但是干得都是杂活。而且就因为他有门槛,导致改进一个大规模并行算法有一定的难度,不像写写网页代码得到的正向反馈那么大,而且现有run起来的很多idea都是工程手段,导致发论文几乎很难。入了一个大火坑。

但我为什么还坚持呢,因为相比web的前后端来说,我认为搞AI Infra的还有饭吃,毕竟现在的时代,我们都知道,每个大模型的发布,都将编程能力作为考量,而现在的GPT o1,Cladue,甚至现在全世界大火的国产大模型Deepseek r1,还有编码器Cursor等等,只要大家是一名合格的prompt工程师以及有项目经验的人,那就能在很短的时间内搭建一个前后端项目来,甚至是游戏等等,

所以我认为,在我的有生之年,这类工作都会被取代,而且大家不要觉得自己的护城河在于经验,对于大模型来说,这种在今天来说还很难做到,而在未来,经验这种对于大模型来说不值得一提,更多的数据训练上去,等O3的发布,在短短几年内,我相信很多工作会被取代。

而我为什么选择这个AI Infra,今天我写下这些文字,并不是夸这个工作的好,也不是劝大家都来转行这个。对于我来说,虽然我的学历不足以让在宇宙大厂搞Infra,但我的校内资源已为我建立了很好的基础。所以大家不要盲目。

  • 我还是幸运的,我在组内可以免费使用上百,上千张国产加速卡,甚至还是使用几十张4090和H100的卡,有了GPU就有了搞并行的基础,这个条件一般人不可复制。

  • AI时代的三要素在于,数据,算力和算法。算力我也在前面说过,我可以没有负担的使用。然后是数据,由于时代积累,实际上搞AI并行化的人比较少,现在大多都是前后端半路出家,而且网上的资料和代码,去理解和使用起来还是相对困难的,一个系统的路线在当下很少,就算有,很多人也没有多卡去做实验。所以训练一个这样的AI大模型就很难,而且本身在算力缺乏的时代,让大模型自我思考去修改网页代码,在线运行没有问题,使用CPU就好了,但是让大模型自我思考运行修改模型和并行算法,哪有多余算力去推理呢。

所以我有这样的条件,但毕竟我也是学了6年多的前后端,相关的基础实际上就很缺乏,到目前为止也只是菜菜。有idea不会去做哈哈,魔改一个框架真的真的太复杂,就像现在让你立马去修改淘宝内部的一个架构,哎,痛苦。

就因为这个困难,我在组内主导了飞书知识库的创立,在这里记录了很多并行,算法的知识,希望能够给未来的师弟师妹些帮助,也为自己后续秋招八股文做准备,做这个真的很麻烦。

更让我能够坚持的是,我的师兄今年在秋招就靠实验室资源找到了一个不错的工作,我非常羡慕,希望我的秋招能够顺利吧。

除了并行,我还要搞气象算法,扩散模型。哎,说到这里,有时候我又觉得我不是纯种AI Infra人,因为很多人都是在基础模型甚至流行的模型上做并行优化,而我是要基于扩散模型做一个降水临近预报算法,造了一个自己的算法,再在上面搞并行。现在搞扩散模型的优化是一个很大的优势,图像生成,视频生成很火,去优化它们,把这个作为项目经验在公司肯定很受欢迎,可惜我只在研一时候做了它们,当时由于年轻,没有做得很爽,最终去天津草草的答辩。(这个工作,我敢于开源,已经在Github有13star了,虽然不起眼,但自己第一次开源这方面的工作,觉得很有成就感)

结果老师又让我去搞气象了,可是老板的话,你能反抗吗?可以理解,毕竟单搞并行,真的很难发论文。

研二上这一学期主要在搞气象,我自己也很难受,为此,我决定自己搞的气象算法backbone仍然是图像生成,视频生成扩散模型,这样我搞气象算法的优化时候,实际上也就在并行扩散模型了,而且扩散模型的计算特性仍然保持在着,训练要很长时间,推理也是,那么并行起来也有价值,我觉得我很聪明,很变通哈哈。

说完科研上的事情,再谈谈我在去年的梦想:做一个大粉丝量的博主。在今年,我几乎废弃了这个想法,我的文章也很少在自己博客,CSDN地方发,因为我发现我没有时间去做这个事情。当然我也对现在的平台有点心灰意冷了,我在之前的文章也发过论国内外博客发展现状,这里有我的看法。

生活 #

这是真的累,这一年我出差了好多次,去了天津2次,1次为了比赛,被同门带的,1次是作为项目负责人在做项目答辩;去了武汉一次,因为今年的HPC年会开在了这,而我们组内的传统就是研二能够免费去,可惜没有多玩,3天都在听会,毕竟老师还要总结🥹;去了沈阳1次,在这里面对N个专业气象人员,上台讲起自己的研究;去了深圳一次,替老师出差。除了出差,就是写项目申请书啊,写论文,甚至还在润色和修改古董,之前在研0给老师写的高性能专著。忙啊忙,因为没有大多时间专注自己的事情,所以自我感觉时间浪费了很多,非常罪恶。

说这里,真的很想吐槽,我第一次主导写的论文,这个论文被拒绝之后,当老师又要拾起来的时候,因为我的方向变更,老师让我交给另一个同门,但同门的想法让我始终觉得不那么可靠,有些想法的混乱,导致这个论文修改一拖再拖,甚至他还想根据这个文章大改了一个新的,结果又在难产阶段,哎,本来的学生一作,到目前,我都不知道自己当初花费的时间值得吗?

之外,就是和女朋友结束了一年的异地,女朋友又和我一起在同一个学校了,我们一起吃吃吃,一起玩玩玩,互相吐槽科研所见所闻,这便是科研生活之外的消遣了。

为了能够让自己找工作有些优势,这一年我也已经实习了2个地方,都关于AI infra的工作。

今年还多了更多的苹果装备,Watch s10,但买得很后悔,因为现在用政府补贴买真的能省好几百啊。

好像就是这些,写得很像流水账,很急很赶。

总结 #

别的不想多说什么,如果我没有读博,希望我在2025年能够找到一个不错的工作😭