石头DE
石头DE
机械工程师 包租公 定居德国 独立量化交易管理人
IP属地:海外
15关注
5粉丝
5主题
0勋章

盘前二月非农预测

尝试了一下模型化非农预测,输入数据有限,仅供参考。 输入了:新闻模型(就业相关)、政策模型(就业相关)、近期数据 结果:  历史ADP与NFP的方向同步率:71.43% 预测本次NFP数据(基于ADP误差调整):10.81 万 非农低于预期的概率:80.00% 非农高于预期的概率:20.00%
盘前二月非农预测
$英伟达(NVDA)$  $美国超微公司(AMD)$   来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。变相绕过了硬件对通信速度的限制。 这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说,他们把优化做到了极致。 PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。 在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS, Streaming ASSembler)。CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。 另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。 反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折
把回复其他帖子的内容再强调一遍。DeepSeek只是用了20%的PTX,为了提高通讯效率利用了CUDA的中间层汇编语言通讯而已,剩余的80%还是CUDA的高级语言。这个是量化和数学问题常用的方案。和所谓的“绕过”根本不是一回事。将来AI芯片的主要问题是GPU和ASIC的市场再分配。现在的波动只是暂时的,将来$英伟达(NVDA)$的财务数据会说明一切。 廉价的方案只会促进LLM的快速产品化,真正走进我们的生活,所以对各类芯片的需求只多不少。 同时关注$台积电(TSM)$  芯片的制造短期内离不开他家。
$苹果(AAPL)$  营收虽然稳定,但是没有新的内容来支撑继续的高歌猛进,难不成变$特斯拉(TSLA)$  一样靠故事? 估计近期会在200-250之间来回震荡。
$阿里巴巴(BABA)$   阿里这家公司的管理经营上问题比较多,讲故事可以,长期不看好。 如果到70-80区间可以入手。获利抛的点位看个人决定。

去老虎APP查看更多动态