graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 #441

zouhan6806504 · 2022-07-29T15:45:50Z

aistudio 32g gpu 32g内存
paddle2.2.2 pgl2.1.5

我的图约1亿条边，1kw节点
最开始我将节点归集到2类（原始数据7类），这样生成数据训练没什么大问题。但是后��我觉得这么分类可能会丢失信息，于是就按原始7分类生成训练数据，metapath也根据实际可能存在的路径生成了8种，这时候再训练就出现问题了，内存慢慢增加，最终超过32g程序崩掉
我尝试降低walk_len、walk_num、batch_node_size都不行
按理说这两种训练方式数据量都一致，就是游走的时候不同，第一种情况内存消耗稳定在17g，可能的问题出在哪里？

Yelrose · 2022-07-29T15:54:22Z

内存与节点数目和向量维度有关，建议把embedding size缩小

…

------------------ 原始邮件 ------------------ 发件人: zouhan6806504 ***@***.***> 发送时间: 2022年7月29日 23:46 收件人: PaddlePaddle/PGL ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [PaddlePaddle/PGL] graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 (Issue #441) aistudio 32g gpu 32g内存 paddle2.2.2 pgl2.1.5 我的图约1亿条边，1kw节点最开始我将节点归集到2类（原始数据7类），这样生成数据训练没什么大问题。但是后来我觉得这么分类可能会丢失信息，于是就按原始7分类生成训练数据，metapath也根据实际可能存在的路径生成了8种，这时候再训练就出现问题了，内存慢慢增加，最终超过32g程序崩掉我尝试降低walk_len、walk_num、batch_node_size都不行按理说这两种训练方式数据量都一致，就是游走的时候不同，可能的问题出在哪里？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

zouhan6806504 · 2022-07-30T02:06:11Z

内存与节点数目和向量维度有关，建议把embedding size缩小

embedding size缩了一半到64也还是一样，我疑惑的是两种方法训练数据量是一样的，第一种就能平稳运行，第二种内存消耗缓慢上涨

Yelrose self-assigned this Aug 1, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 #441

graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 #441

zouhan6806504 commented Jul 29, 2022 •

edited

Loading

Yelrose commented Jul 29, 2022 via email

zouhan6806504 commented Jul 30, 2022 •

edited

Loading

graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 #441

graph4rec在训练的时候，内存缓慢上涨，最终超限崩了 #441

Comments

zouhan6806504 commented Jul 29, 2022 • edited Loading

Yelrose commented Jul 29, 2022 via email

zouhan6806504 commented Jul 30, 2022 • edited Loading

zouhan6806504 commented Jul 29, 2022 •

edited

Loading

zouhan6806504 commented Jul 30, 2022 •

edited

Loading