论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search

  • 时间:
  • 浏览:1
  • 来源:万人牛牛棋牌_万人牛牛棋牌官网

  3. Collaborative RL for Joint Object Search 

  本文提出通过 gated cross connections between the Q-networks 来学习 inter-agent communication。

  On the other hand, it seems especially beneficial in the context of visual object localization where different objects often appear with certain correlation patterns, 如:行人骑自行车,座子上的杯子,等等。

  2. how to jointly learn good policies for all agents. 

  那此物体在交互的情况下,还时要提供更多的 contextual cues 。那此线索有很好的潜力来有助更加有效的搜索策略。

Motivation:

  本文提出这些协助的多智能体 deep RL algorithm 来学习进行联合物体定位的最优策略。亲戚亲戚我们我们我们 都 的 proposal 服从现有的 RL 框架,其他允其他个智能体之间进行公司合作 者。在这些领域当中,有另一五个 开放的问題图片:

      --- gated cross connections between different Q-networks;

      本文是基于 Q-function 进行拓展的,常规的 Q-function 还时要看做是:$Q(s, a; \theta)$,而 Deep Q-network 其他用 NN 来估计 Q 函数。假设对于每另一五个 agent i 亲戚亲戚我们我们我们 都 有另一五个 Q-networks $Q^{(i)}(a^{(i), s^{(i)}; \theta^{(i)}})$,这样,在 multi-agent RL 设定下,很自然的就还时要设计出另一五个 有助 inter-agent communication 的 Q 函数出来,如:

  1. 是物体检测领域的第另一五个 做 collaborative deep RL algorithm ;

      3.2.2 Joint Exploitation Sampling  

  所提出的创新点:

      m 是

      作者这里首先回顾了常见的单智能体进行物体检测的大致思路,此处不再赘述。

  3. 本文土办法有效的探索了 相关物体之间有用的 contextual information,其他进一步的提升了检测的效果。

  2. propose a novel multi-agent Q-learning solution that facilitates learnable inter-agent communication with gated cross connections between the Q-networks;

  On the one hand, it is interesting to consider such a collabrative detection "game" played by multiple agents under an RL setting; 

  

  传统的 bottom-up object region proposals 的土办法,却说 提取了较多的 proposal,原因 后续计算时要依赖于抢的计算能力,如 GPU 等。这样,在计算机不足英文的情况下,则会原因 应用范围受限。而 Active search method (其他 RL 的土办法) 则提供了不错的土办法,还时要很大程度上降低时要评估的 proposal 数量。

      3.2.1 Q-Networks with Gates Cross Connections  

CVPR 2017

      本文将 single agent 的土办法推广到 multi-agent,关键的概念有:

Collaborative Deep Reinforcement Learning for Joint Object Search  

      --- joint exploitation sampling for generating corresponding training data, 

  亲戚亲戚我们我们我们 都 检查了在交互过程中,多个物体之间的 Joint Active Search 的问題图片。

        其中,m(i) 代表了从 agent i 发送出来的信息;M(-i) 代表了从其他 agent 得到的信息。

  1. how to make communications effective in between different agents ; 

      --- a vitrual agent implementation that facilitates easy adaptation to existing deep Q-learning algorithm. 

    3.2. Collaborative RL for Joint Object Localization 

    3.1. Single Agent RL Object Localization