Tjyy-1223 / Neurosurgeon

云边协同- collaborative inference 📚Neurosurgeon: Collaborative Intelligence Between the Cloud and Mobile Edge
55 stars 8 forks source link

麻烦问下运行时一直没反应是问题出在哪 #3

Closed 17839792633 closed 1 year ago

Tjyy-1223 commented 1 year ago

先运行云端 python cloud_api.py -i 127.0.0.1 -p 9999 -d cpu 再运行边端 python edge_api.py -i 127.0.0.1 -p 9999 -d cpu -t alex_net 同时开启两个终端 上述两个命令都运行了吗?

17839792633 commented 1 year ago

我在自己电脑模拟云端,把服务器ip端口号改成自己电脑的ip和端口号,然后在树莓派模拟边缘端运行,运行完云端之后运行边缘端就会输出:get bandwidth value : 0.5241484972934947 MB/s 非法指令然后停止了,云端就一直没反应了,不知道是哪出错了

Tjyy-1223 commented 1 year ago

感觉是边缘端没有执行完毕,边端有没有报错信息,发来看一下。

云端没反应的原因是因为云端的主进程是会一直等待边缘端将中间数据传输过来才会执行,可能是因为你现在边缘端推理过程没有成功,中间数据也就没有产生并发送到云端,所以云端还在不断等待中。

17839792633 commented 1 year ago

感觉是边缘端没有执行完毕,边端有没有报错信息,发来看一下。

云端没反应的原因是因为云端的主进程是会一直等待边缘端将中间数据传输过来才会执行,可能是因为你现在边缘端推理过程没有成功,中间数据也就没有产生并发送到云端,所以云端还在不断等待中。

边端没有报错,就是输出:get bandwidth value : 0.9218667976432569 MB/s 然后显示进程终止,云端也没有报错,就一直在运行

17839792633 commented 1 year ago

image 边端运行的截图

Tjyy-1223 commented 1 year ago

边缘端的执行流程如下:

目前的情况出现在边缘端没有正确执行完毕,我认为可能是和树莓派系统的兼容问题,可以做的排查有下面一些:

关于非法指令的报错我查到的都是系统兼容的问题,你可以参考一些进行一下排查:

  1. 虚拟机 Python Illegal instruction 错误解决
  2. NVIDIA JETSONTX2 安装 pytorch 出现错误:import torch 出现 Illegal instruction(core dumped)
  3. 解决英伟达Jetson平台使用Python时的出现“Illegal instruction(cpre dumped)”错误
  4. Pytorch - Illegal instruction 解决

其中最可能的原因是第4点提到的,pytorch安装与你的cpu不兼容,你可以找到对应的pytorch重新安装,或者迁移到gpu上运行试一试。

17839792633 commented 1 year ago

麻烦问下您的运行设备和环境大概是什么样子

17839792633 commented 1 year ago

边缘端的执行流程如下:

  • 获取带宽
  • 在边缘端进行推理

目前的情况出现在边缘端没有正确执行完毕,我认为可能是和树莓派系统的兼容问题,可以做的排查有下面一些:

  • 在edge_api.py的63、66以及70行输出一些信息,查看代码是否执行到这些位置
  • 在net_utils.py中start_client做和1同样的操作,大概定位一下边端执行到哪个位置产生的非法指令

关于非法指令的报错我查到的都是系统兼容的问题,你可以参考一些进行一下排查:

  1. 虚拟机 Python Illegal instruction 错误解决
  2. NVIDIA JETSONTX2 安装 pytorch 出现错误:import torch 出现 Illegal instruction(core dumped)
  3. 解决英伟达Jetson平台使用Python时的出现“Illegal instruction(cpre dumped)”错误
  4. Pytorch - Illegal instruction 解决

其中最可能的原因是第4点提到的,pytorch安装与你的cpu不兼容,你可以找到对应的pytorch重新安装,或者迁移到gpu上运行试一试。

加输出指令后输出截图: image image

Tjyy-1223 commented 1 year ago

我使用的设备是一个3080gpu主机和另一台只有cpu的笔记本。使用conda配置的虚拟环境在首页有写。

感觉你可以跑一些简单的pytorch代码和模型,测试一下你目前pytorch在树莓派上是否可以正确运行,测试一下是否是pytorch的版本问题。 ---- 原始邮件 ---- @.>; Date:2023年7月7日(星期五) 上午10:59 @.>; @.**@.>; Subject:Re: [Tjyy-1223/Neurosurgeon] 麻烦问下运行时一直没反应是问题出在哪 (Issue #3)

边缘端的执行流程如下:

获取带宽

在边缘端进行推理

目前的情况出现在边缘端没有正确执行完毕,我认为可能是和树莓派系统的兼容问题,可以做的排查有下面一些:

在edge_api.py的63、66以及70行输出一些信息,查看代码是否执行到这些位置

在net_utils.py中start_client做和1同样的操作,大概定位一下边端执行到哪个位置产生的非法指令

关于非法指令的报错我查到的都是系统兼容的问题,你可以参考一些进行一下排查:

虚拟机 Python Illegal instruction 错误解决

NVIDIA JETSONTX2 安装 pytorch 出现错误:import torch 出现 Illegal instruction(core dumped)

解决英伟达Jetson平台使用Python时的出现“Illegal instruction(cpre dumped)”错误

Pytorch - Illegal instruction 解决

其中最可能的原因是第4点提到的,pytorch安装与你的cpu不兼容,你可以找到对应的pytorch重新安装,或者迁移到gpu上运行试一试。

加输出指令后输出截图:

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

17839792633 commented 1 year ago

确实是我树莓派的问题,我换了设备跑出来了,还有个问题就是模型推理完精度可以输出吗?