摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。
推出一个非常优秀的视频生成模型,该模型仅在授权数据基础上进行训练。
**划重点:**该产品还引入了光随书动技术,利用摄像头的追踪技术让光源自动聚焦在书本上。此外,台灯还具备AI离座感应和自动延时关灯功能,方便节能和使用。
然后,HandRefiner采用条件修补方法来处理识别出的问题手部。它生成一个深度图,其中包含了关于手部形状和位置的重要信息。这个深度图被用作指导,通过ControlNet集成到扩散模型中。最后,HandRefiner将重新画好的手部放回原来的画作中,替换掉原本画错的手,而其他部分保持不动,保持了原画的风格和内容。