
机器学习中Inference 和predict的区别是什么? - 知乎
Inference: You want to understand how ozone levels are influenced by temperature, solar radiation, and wind. Since you assume that the residuals are normally distributed, you use a …
LLM的pad策略,为啥训练时是right,预测是left? - 知乎
Dec 10, 2024 · 上面这俩在训练时是等效的。 关键还是 padding 方向和 ignore_label 的设置方式要匹配。 position_ids 的影响也不大,目前像 Hugging Face 这种库可以自行处理。如下例中是 …
为什么 2024 年以后 MMDiT 模块成为了大规模文生视频或者文生 …
也可能是我的偏见。但是似乎SD3 paper发表以后很多开源工作/技术报告都不约而同的使用了这个架构,抛弃了…
如何看待尤洋对 DeepSeek 成本文章的回应以及开团硅基流动?
20250301 DeepSeek:DeepSeek-V3 / R1 推理系统概览尤洋:关于DeepSeek MaaS成本尤洋:坑人的硅基流动随…
如何简单易懂地理解变分推断 (variational inference)? - 知乎
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large …
如何入门分布上的优化/Wasserstein gradient flow? - 知乎
Mar 20, 2025 · 建议读我advisor这篇入门: proceedings.mlr.press/v 这篇有很多详细的review和对比,例如欧氏空间优化的一些概念和假设推广到概率分布空间是啥?对于概率分布而言又等价 …
请问因果推断领域有什么比较推荐的公开课吗? - 知乎
刚好最近写了个 因果推断系列文章,以下是我觉得比较好学习资料: Brady Neal的课程: Brady Neal《因果推理导论》中英字幕_哔哩哔哩_bilibili , 英文教学,但语速很慢。 2. 清华大学 丁 …
如何看待Qwen推出的新Scaling Law ——Parallel Scaling? - 知乎
代码: GitHub - QwenLM/ParScale: Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling 我们都知道,除了拓展数据量以外,现在有两条主流的 …
PyTorch如何量化模型(int8)并使用GPU(训练/Inference)?
或者是否可以通过将PyTorch模型转化成TensorRT进行int8的GPU Inference?
求助!大家有没有因果发现,因果推断网课推荐? - 知乎
求助!大家有没有因果发现,因果推断网课推荐? 现在处于入门机器学习阶段,想找国外的因果发现及推断的网课,或者有什么好的学习方法和书籍的话,希望可以给出一些建议呢~ 显示全 …