Firefly开源社区

标题: MDK-SSD的一些问题 [打印本页]

作者: 保卫萝卜    时间: 2019-8-19 15:46
标题: MDK-SSD的一些问题
1.在编译caffe的时候 出现找不到 lopencv等问题 我修改了Makefile.config中的 OpenCV版本 由3变为2 编译通过 测试通过 不知道是否有影响
2.在执行训练时 已经建立好软连接 按步骤执行source run_ssd_traning.sh时出现问题 如图 我的temp文件夹是空的 预训练模型不是统一的吗

3.可能我不太了解步骤 我认为的步骤如下(1)自己制作数据集 (2)使用训练工具训练 测试 (3)转化为ncc s1能用的形式 (4)部署在开发板上

跪求大佬帮忙 指出我的问题 和 我认为的步骤是否正确

20190819_152452_副本.jpg (748.83 KB, 下载次数: 160)

20190819_152452_副本.jpg

作者: rany    时间: 2019-8-20 10:09
你看一下run_ssd_traning.sh的这一行是否执行正确:python copy_fc_param.py $cnnprototxt $cnnmodel $deploytyp $premodeltyp;
作者: 保卫萝卜    时间: 2019-8-22 20:39
rany 发表于 2019-8-20 10:09
你看一下run_ssd_traning.sh的这一行是否执行正确:python copy_fc_param.py $cnnprototxt $cnnmodel $depl ...

您好 您说这个在哪呢 我在终端窗口里没找到和这句话有关的
我吧训练工具中 prototxt中的SSD_typ_float.caffemodel复制到temp文件夹下 并改名为ssd.caffemodel 好像可以正常训练了 nvidia的显卡有负载 请问这是什么原因呢  训练工具的caffe预训练模型难道不是固定的吗
作者: rany    时间: 2019-8-30 09:41
在run_ssd_traning.sh脚本中有那一句的,ssd.caffemodel就是通过copy_fc_param.py脚本生成的
作者: 保卫萝卜    时间: 2019-8-31 12:48
rany 发表于 2019-8-30 09:41
在run_ssd_traning.sh脚本中有那一句的,ssd.caffemodel就是通过copy_fc_param.py脚本生成的

您好 我在run_ssd_traning.sh脚本中找到了这句话  我删除了temp文件夹下的ssd.caffemodel 在执行命令
source run_ssd_traning.sh时就会出现报错 和图片中一样 好像ssd.caffemodel没有正确的生成 请问我应该怎么办呢 需要我提供终端显示的完整输出吗
作者: rany    时间: 2019-9-2 09:37
你看一下GTI_SSD_model_development_kit_v1-0/FilesAndInstructions/gti/下是否存在ssd_quant_pretrain.caffemodel和ssd_quant_pretrain.prototxt
作者: 保卫萝卜    时间: 2019-9-2 21:41
rany 发表于 2019-9-2 09:37
你看一下GTI_SSD_model_development_kit_v1-0/FilesAndInstructions/gti/下是否存在ssd_quant_pretrain.caf ...

您好 文件是存在的 我刚才将所有的文件全部删除 包括caffe-ssd 重新按照wiki编译 训练工具成功运行了一次 运行过程中弹出一个窗口 python2.7停止工作 因为训练时间会很长 我是用ctrl+c终止了训练 并且删除了temp里的ssd.caffemodel 再次运行source run_ssd_traing.sh时出现和图片一样的问题 我尝试重新进行一切步骤 但依然无效 我发现copy_fc_param.py没有被执行(因为我将它从文件夹移除后依然报相同的错误)

我保存了当时自动生成的ssd.caffemodel文件 将他放进temp中就可以正常执行

请问这到底是什么原因呢 作为小白的我现在一脸问号
作者: rany    时间: 2019-9-3 09:38
你的ssd_typ_mdk/的所在的目录结构是怎样的?执行ls /home/whw看看。解压GTI_SSD_model_development_kit_v1-0.tar.gz的时候建议保留压缩包的目录结构
作者: 保卫萝卜    时间: 2019-9-3 12:44
rany 发表于 2019-9-3 09:38
你的ssd_typ_mdk/的所在的目录结构是怎样的?执行ls /home/whw看看。解压GTI_SSD_model_development_kit_v1 ...

您好 我刚又进行了整个复制文件到pc中并且按照wiki编译caffe
三张图片分别是现在的文件分部 运行source run_ssd_training.sh结果 和.bashrc中的变量配置 请问能看出来问题所在吗

20190903_123522_副本.jpg (751.46 KB, 下载次数: 137)

20190903_123522_副本.jpg

20190903_123602_副本.jpg (790.47 KB, 下载次数: 135)

20190903_123602_副本.jpg

20190903_123737_副本.jpg (947.09 KB, 下载次数: 129)

20190903_123737_副本.jpg

作者: rany    时间: 2019-9-3 14:38
你把ssd_typ_mdk/log/log.txt发上来
作者: 保卫萝卜    时间: 2019-9-3 17:49
rany 发表于 2019-9-3 14:38
你把ssd_typ_mdk/log/log.txt发上来

您好 由于附件不让上传txt格式 我放入了压缩包上传

log.zip

17.59 KB, 下载次数: 2, 下载积分: 灯泡 -1 , 经验 -1


作者: rany    时间: 2019-9-4 15:28
保卫萝卜 发表于 2019-9-3 17:49
您好 由于附件不让上传txt格式 我放入了压缩包上传

不好意思,忘记了这个log是不包含copy_fc_param.py的log的,你用source run_ssd_training.sh 2>&1 | tee training.log重新捉取log然后把training.log发上来
作者: 保卫萝卜    时间: 2019-9-4 16:02
rany 发表于 2019-9-4 15:28
不好意思,忘记了这个log是不包含copy_fc_param.py的log的,你用source run_ssd_training.sh 2>&1 | tee  ...

您好 这是按你说的指令运行得到的文件 在指令执行后大概一分钟后 我得到了python2.7以外停止的窗口 并且在里边详细信息里发现了和GTI有关的文件目录 如图 希望对问题的解决有所帮助 麻烦了

20190904_155655.jpg (962.07 KB, 下载次数: 125)

20190904_155655.jpg

20190904_155711.jpg (483.83 KB, 下载次数: 120)

20190904_155711.jpg

training.zip

27.99 KB, 下载次数: 2, 下载积分: 灯泡 -1 , 经验 -1


作者: rany    时间: 2019-9-4 16:22
你是否有按照你的数据集修改prototxt呢?
作者: 保卫萝卜    时间: 2019-9-4 16:27
rany 发表于 2019-9-4 16:22
你是否有按照你的数据集修改prototxt呢?

我是在跟着教程走 想先走一遍在换成自己的数据集 prototxt是根据wiki中“修改ssd_typ_mdk下prototxt中网络描述文件中ip7_norm_mbox_conf 、conv6_2_mbox_conf_1、conv7_2_mbox_conf_1、conv8_2_mbox_conf_1四层的子层convolution_param的num_output的数值为126(类别数乘以6)。”这句话修改的 prototxt 中的deploy_typ_quant.prototxt
作者: rany    时间: 2019-9-4 17:36
最后的num_classes要改为21
作者: 保卫萝卜    时间: 2019-9-4 18:38
rany 发表于 2019-9-4 17:36
最后的num_classes要改为21

我将prototxt文件夹中所以prototxt文件中的 ip7_norm_mbox_conf 、conv6_2_mbox_conf_1、conv7_2_mbox_conf_1、conv8_2_mbox_conf_1四层的子层convolution_param的num_output的数值为126
所有num_classes改为21 报相同的错误 请问是我改的什么地方有问题吗 还是python出现问题了
作者: rany    时间: 2019-9-5 09:55
log中是不是还有这样的一句:Check failed: num_priors_ * num_classes_ == bottom[1]->channels() (2520 vs. 8820) Number of priors must match number of confidence predictions.
如果还有类是的就是prototxt没有配好,不然可能是你的系统有问题。
注:按照wiki上的教程可以进行训练,但是得不到好的模型
作者: 保卫萝卜    时间: 2019-9-5 10:52
rany 发表于 2019-9-5 09:55
log中是不是还有这样的一句:Check failed: num_priors_ * num_classes_ == bottom[1]->channels() (2520 v ...

没有类似的 只有最后一条找不到文件 那我应该重装系统并且把一切重来一次吗
为什么按wiki的教程可以训练但得不到好的模型呢
作者: rany    时间: 2019-9-5 12:10
wiki的教程没有进行参数的调整,只是一个使用示例。
作者: 保卫萝卜    时间: 2019-9-5 12:18
rany 发表于 2019-9-5 12:10
wiki的教程没有进行参数的调整,只是一个使用示例。

对于我现在的情况 有什么好建议吗 重做系统?
作者: rany    时间: 2019-9-5 14:18
你试试这个prototxt看行不行 deploy_typ_quant.prototxt.zip (2.02 KB, 下载次数: 3)




作者: 保卫萝卜    时间: 2019-9-5 17:09
rany 发表于 2019-9-5 14:18
你试试这个prototxt看行不行

你好 可以使用了 正常进入学习的状态 我现在有两个问题 1怎么知道他什么时候学习结束 我曾经运行过到Iteration 一万多 还是没结束 是训练集的数据还没训练完吗 我应该有什么操作可以停止他的学习吗 还是训练结束后他会自动停止呢 2 为什么更换了这个ptototxt就好使了呢 是我改错了什么参数吗
作者: 保卫萝卜    时间: 2019-9-5 18:17
rany 发表于 2019-9-5 14:18
你试试这个prototxt看行不行

我将prototxt文件夹的其他文件都换成原来的文件 用你的deploy_typ_quant.ptototxt覆盖原有的 成功运行 但是出现以下两个问题 1.loss保持在4左右震荡 2 这个是什么时候 只有五类 如图

20190905_181059.jpg (749.69 KB, 下载次数: 128)

20190905_181059.jpg

作者: rany    时间: 2019-9-6 09:46
具体的训练问题需要你自己去解决了




欢迎光临 Firefly开源社区 (https://dev.t-firefly.com/) Powered by Discuz! X3.1