主要是现在deepseek的多模态模型(就是生成图与视频,识别图与视频)现在还没公开部署在app端与网页端。理论上与潜力上都远远强于豆包的大模型。主要这东西看成本问题了。毕竟多模态模型消耗成本远高于文字模型。目前,deepseek的图片识别文字还是用的传统光学识别。
主要是现在deepseek的多模态模型(就是生成图与视频,识别图与视频)现在还没公开部署在app端与网页端。理论上与潜力上都远远强于豆包的大模型。主要这东西看成本问题了。毕竟多模态模型消耗成本远高于文字模型。目前,deepseek的图片识别文字还是用的传统光学识别。
哦哦,原来如此