第28章曾经的自己（1 / 2）

周五，周昀和汇金的人正式签订了预研项目合同，只要预研项目能够达到预期标准，那接下来就是真正的大项目。

双方通过一周的时间，沟通了需求还有汇金需要提供的资源。

汇金的需求很简单，之前就已经谈的差不多了，现在只是更加明确一点，

他们需要的是一个能够预测某只单一股票的模型，消耗资源要尽可能少，准确率要尽可能高，这也是后续他们为周昀提供多少支持的重要依据。

至于资源方面，财大气粗的汇金提供了64张H100的显卡集群，还有相互配套的处理器和内存，其价值已经超过了千万。

因为说是预研项目，但其实除了在数据量和模型架构上有所阉割之外，现在要做的版本和最终版本在最核心的东西上是差不多的。

毕竟只要能精准预测一支股票，就能精准预测无数支，两者之间无非就是数据量上的差别。

汇金显然知道其中的难度，所以才会这么大方。

在周昀的预估中，这些资源应该是绰绰有余的，因为他研究的模型在算力的消耗上本就比市面上的同类型模型要低。

汇金还支付了周昀一个月两万的劳务费，按照合同，他需要在一年之内完成预研项目，如果失败了，他就要加入汇金。

按理来说，这种大项目，这样的验收时间并不算富裕，不过周昀有信心一年之内搞定。

实验室里，周昀并没有第一时间就开始设计方案，反倒是开始看起了论文。

因为不管是前世还是现在，他接触的都是“小模型”，这里的小模型指的是LSTM、C、FC这种结构单一，参数量不大的轻量级神经网络。

而他现在要做的项目则需要用到真正意义上的多模态大模型，这种大模型现在普遍都是基于Traformer架构，

虽然Traformer非常厉害，但是也有一个缺点，因为他的主要核心Atteto也就是注意力机制，

这种算法的时间复杂度复杂度是O（^2），所以需要的计算量非常大，这也是为什么现在市面上的大模型训练需要的显卡都是几千几万张。

大模型和小模型之间除了算力消耗和成本上有着巨大差异，在整体架构上也有着明显的差异。

一个小模型可能只需要几百行代码就能完整的写出来，然后开始运行。

而一个真正意义上的大模型想要正常运行，除了其核心代码之外还需要各种的配套功能的代码，这些加起来几万行都算是少的了。

他在这方面的，不管是经验还是知识都很欠缺，所以第一步就是——看文献，至少要熟知多模态大模型领域所有的先进技术之后，他才会开始计划怎么将现有参数量不大的模型进行升级。

其实这一步应该是在谈项目之前就做的，只不过周昀那个模型的性能实在太优秀了，

再加上他在和汇金的人谈判的时候表现得太过淡定，这让别人以为他在这方面有了一定的积累，这才直接敲定了项目。

不过这都无伤大雅，凭他现在的英语水平和理解能力一天刷个十几篇论文不是问题，最多一个月，他就能把大模型领域的技术摸得差不多。

时间来到了七月底，距离周昀和汇金的谈判已经过去了两周时间。

周一，周昀照常来到实验室。

正当他打开电脑准备刷一刷今日份的论文时，沈瑞抱着个笔记本电脑走到他身边。

“周昀师弟，有件事我想找你帮个忙。”他有些不好意思地笑了笑。

“你说。”

“是这样，我之前不是把论文初稿给邓老师看了吗？改了几次他都不满意，说是创新点没有，模型性能没有提升，工作做的再多也没用，

但是他给的几个建议我都试了，没什么进展，上周组会我汇报的时候不还是被骂了一顿吗？”

一说起这个他就头大，也不知道自己当初为什么来读这个研究生，和周昀相比，他感觉自己笨的就像是个草履虫。

“行，我先看看论文？”

反正看一篇论文他也花不了多长时间，都是同门，而且平时师兄对他也都不错，经常请他喝咖啡奶茶，还时不时请他出去吃饭。

“太谢谢你了，真是不好意思，我也知道你最近很忙，我这也是实在没办法了，要是再这样下去，我感觉肯定是要延毕了。”沈瑞一边感谢一边打开电脑。

周昀接过电脑，快速的滚动鼠标，沈瑞的研究方向是网络流量的概念漂移，

所谓概念漂移简单来说就是，一年前微信的流量在网络中的样子是A形态，但是过了一年之后因为相关协议，软件升级，他在网络中的样子变成了B形态，

这种变化导致了现有的网络流量检测模型无法做出准确的判断，这个变化的过程就能大概理解成概念漂移。

这个方向他也挺熟悉，因为他前世给老师做横向的时候也有过涉猎，所以引言和相关技术部分他扫一眼就知道是怎么回事。

因为现在的论文都有了成熟的套路，前两部分都写的没什么太大问题。

不过当他看到方法部分的时候，知道了问题所在。

第28章 曾经的自己（1 / 2）