• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Information and Communication Engineering, Changwon National University, Korea.)



Deep reinforcement learning, Q-learning, Dueling network, Bottleneck layer, Robot arm control

1. 서 론

최근 인공지능 분야에서는 강화학습 기술에 대한 이론적 체계가 비약적으로 정립되면서 혁신적인 발전이 이뤄지고 있고, 이에 따라 강화학습은 게임, 지능형 로봇, 금융, 자율주행 등의 분야에서 널리 활용되고 있다.(1-3) 특히, 로봇공학 분야에서는 로봇 팔 제어 문제에 심층 강화학습이 많이 활용되고 있다. 로봇 팔에 탑재 가능한 다양한 센서들 중에서 카메라 센서를 이용하면 로봇 팔에서 촬영된 영상을 심층신경망에 입력하여 로봇 팔의 동작에 따른 보상을 학습하는 과정을 통해 로봇 팔의 파지 동작을 효과적으로 제어할 수 있다. 하지만 심층 강화학습을 기반으로 다양한 작업공간에 쌓여 있는 물체들을 로봇 팔로 효율적으로 집어 올리는 동작을 수행토록 하는 것은 여전히 어려운 작업이므로 이에 대한 다양한 연구가 진행되고 있다.

Zeng(4)은 심층신경망이 출력하는 히트맵 영상의 가중치에 따라 최대의 보상이 예측되는 지점에서 로봇 팔의 동작이 수행되도록 구현하였다. Sun(5)은 시각 정보를 활용하여 심층 강화학습 기반 프레임 워크를 제안하였고, 로봇 팔이 물체를 표면 쪽으로 밀고 물체의 한쪽을 들어 올리는 순차적 동작을 수행하도록 훈련시켰다. Song(6)은 RGB 카메라 및 depth 카메라를 이용해 시각 정보와 깊이 정보를 얻어내어 픽셀 단위로 로봇 팔의 동작을 UG-Net(U-Grasping fully convolutional neural network)으로 제어하였다. Chen(7)은 Mask R-CNN과 deep Q-network (DQN) 알고리즘을 기반으로 밀기와 파지 동작이 상호협력하는 시스템을 구현하여 복잡하게 구성된 여러 물체에 대한 로봇 팔 조작 문제를 해결하였다. Yuan(8)는 휴리스틱 탐사 전략을 적용해 DQN 알고리즘을 기반으로 한 물체 재배치 방법을 연구하였으며, Song(9)는 몬테카를로 나무 탐색 전략을 활용하여 물체 재배치에 대한 문제에 접근하였다. 특히, Ni(10)은 심층 강화학습 기법을 활용하여 현재 물체가 쌓여 있는 상태를 파악하고 파지와 밀기 두 가지 행동에 대해 이중 경험 재생 기법을 이용함으로써 로봇 팔의 작업 완수율을 개선하였다.

본 연구에서는 로봇 팔의 작업 효율성 및 작업 완수율 개선을 위한 병목 Dueling 구조 기반 심층 강화학습 기법을 제안한다.

그림. 1. 강화학습 기반 로봇팔 제어 시스템 개략도

Fig. 1. Schematic diagram of reinforcement learning-based robot arm control system

../../Resources/kiee/KIEE.2021.70.12.1906/fig1.png

로봇 팔은 주어진 작업공간에서 다양한 형태로 배치된 블록을 지정된 위치에 모두 이동시키기 위해 파지, 밀기 행동을 효율적으로 수행할 수 있도록 강화학습을 수행한다. 강화학습 신경망의 출력층에 차원 및 연산량 감소에 널리 활용되는 병목 구조(11-13)와 Advantage 함수를 기반으로 에이전트의 행동에 대한 가중치를 효율적으로 학습하는 Dueling 구조(14)를 통합한 심층 강화학습 모델은 로봇 팔이 적은 시간 내에 효율적으로 작업을 완료하는데 도움을 줄 수 있다. 단일 상태-행동 가치함수는 상태에서 취한 특정 행동에 대한 누적보상을 신경망에 갱신할 때 특정 행동에 대한 가중치만을 갱신함으로써 모든 행동에 대한 상태-행동 가치함수의 누적보상 예상치를 얻는데 상대적으로 시간이 오래 걸리는 문제가 있다. 이에 비교해서 Dueling 구조는 Advantage 함수를 도입하여 특정 행동에 대한 값을 갱신하는 것뿐만 아니라, 상태-행동 가치함수를 갱신할 때 이점 함수의 평균값을 빼줌으로써 다른 행동에 대한 값도 함께 갱신하여 빠르고 효율적인 상태-행동 가치함수의 학습이 가능하다. (14) 또한, Dueling 구조를 적용함으로써 로봇 팔 에이전트는 상태와 행동의 가치함수를 분리하여 학습할 수 있고, 이는 궁극적으로 상태-행동 가치함수의 분산을 감소시킴으로써 더 일반화된 가치함수 값을 얻을 수 있게 한다.

제안하는 $FCN_{BD}$ 방식은 기존의 Visual Pushing Grasping (VPG) (4)에서 적용된 1*1 컨볼루션 구조를 갖는 완전 연결 출력구조와 달리 1*1 컨볼루션과 3*3 컨볼루션이 연결된 구조를 갖는 병목 구조를 포함한다. 이를 통해 신경망이 쌓아온 누적된 특징 채널의 정보를 압축함으로써 차원을 줄여주고, 파라미터의 수를 줄임으로써 계산 효율성을 증가시킨다. 또한, Dueling 구조를 적용함으로써 빠르고 효율적인 상태-행동 가치함수의 학습이 가능했다. Dueling 구조는 Advantage 함수를 도입하여 상태-행동 가치함수를 갱신할 때 이점 함수의 평균값을 상태 가치함수에서 빼줌으로써 다른 행동에 대한 가중치도 같이 갱신하여 빠르고 효율적인 상태-행동 가치함수의 학습이 가능하다. 제안하는 심층 강화학습 기법의 성능 확인을 위해 V-REP 시뮬레이터의 UR5 로봇 팔 패키지를 통해 임의의 블록배치를 고려한 작업 환경에서 로봇 팔을 동작시켰다. 실험 결과 제안하는 기법의 목표 동작 성공률에 대한 수렴속도와 작업 완수율이 기존의 VPG 기법(4)보다 개선되었음을 확인하였다. 또한, 11개의 다양하고 복잡한 블록구조를 갖는 실험환경에서 에이전트의 작업 완수율, 파지 성공률 및 작업 효율성을 기준으로 비교한 결과 VPG 기법 대비 작업 완수율 및 작업 효율성이 각각 10.3% 및 1.6% 개선되었음을 확인하였다.

2. 연구 내용

2.1 문제 정의

로봇 팔의 밀기 및 파지 작업을 마르코프 결정 과정으로 표현하면 주어진 상태의 집합 $S\ni s_{1},\: s_{2},\:\cdots ,\:s_{T}$, 행동의 집합 $A\ni a_{1},\: a_{2},\:\cdots ,\:a_{T}$, 상태 $s_{t}$에서 로봇 팔이 취한 행동 $a_{t}$를 포함하는 정책 $\pi(s_{t})$, 그리고 $\pi(s_{t})$에 따라 상태 $s_{t}$에서 행동 $a_{t}$로 인해 상태 $s_{t+1}$로 상태가 바뀔 때 받게 되는 즉각적인 보상을 $r(s_{t},\:a_{t})$로 표현할 수 있다. 로봇 팔 제어 문제에서 상태 $s_{t}$는 RGB-D 카메라를 통해 획득한 영상을 재구성한 이미지를 나타낸다. 이 때, 카메라는 특정 높이 및 각도에서 작업공간을 촬영하므로 이를 3D 포인트 클라우드에 투영한 후 직교하는 방향으로 재구성한 224*224*4 형태의 픽셀 이미지를 현재 상태 $s_{t}$로 사용한다. 로봇 팔의 행동 $a_{t}$는 파지 동작과 밀기 동작 두 가지로 구성된다. 로봇 팔 행동에 대한 자세한 설명은 2.2장에서 확인할 수 있다. 여기서 정책 $π(s_{t})$는 상태 $s_{t}$에서 취할 행동 $a_{t}$를 명시함으로써 로봇 팔 에이전트의 행동을 결정한다.

본 논문에서는 로봇 팔 제어 문제에 off-policy Q-learning을 고려하여, 미래 보상합계를 극대화하는 최적의 결정론적 정책 $π^{*}$를 찾기 위해 상태-행동 가치함수 $Q$를 학습한다. 상태-행동 가치함수 $Q$의 학습에 시간차 학습 방법을 사용하였고 이를 수식으로 나타내면 다음과 같다.

(1)
$\delta_{t}=|Q(s_{t},\: a_{t})-y_{t}|$ $y_{t}=r(s_{t},\:a_{t})+\gamma Q(s_{t+1},\:a_{t+1})$

수식(1)에서 $a_{t}$는 로봇 팔 에이전트가 현재 상태 $s_{t }$에서 수행 가능한 행동을 나타낸다. $Q$함수의 학습은 매시간단위 $t$마다 주어지는 상태-행동함수 $Q(s_{t},\: a_{t})$에서 예측되는 보상 값과 목적 함수 $y_{t}$의 시간차 오차 $δ_{t}$를 최소화하는 방향으로 진행된다. 여기서 목적 함수 $y_{t}$는 즉각적인 보상 $r(s_{t},\:a_{t})$와 예측되는 미래 보상 $\gamma Q(s_{t+1},\:a_{t+1})$의 합을 나타낸다. 일련의 학습 과정을 거치면 미래 보상합계를 극대화하는 상태-행동 가치함수 $Q$를 학습할 수 있다. 2.2장에서 로봇 팔 에이전트 학습에 관련된 자세한 내용을 설명한다.

2.2 Visual Pushing Grasping

본 논문에서 제안하는 $FCN_{BD}$를 적용한 심층 강화학습 기반 로봇 팔 동작 시스템의 개요도를 그림 1에 나타내었다. 먼저 로봇 팔이 작업하는 상태 영상을 Red, Green, Blue 및 Depth 채널을 얻을 수 있는 RGB-D 카메라를 통해 획득하고, 입력 영상 사이즈는 224*224*4 픽셀이다. 카메라에서 촬영된 영상을 3D 포인트 클라우드에 투영한 후 중력 방향으로 재구성하여 현재 상태를 나타내는 히트맵 $s_{t}$를 얻는다. 영상의 중심점을 기준으로 22.5도 간격으로 회전된 총 16개의 영상이 $FCN_{B}$의 파지 신경망 $ξ_{grasp}$와 밀기 신경망 $ξ_{push}$에 각각 입력된다. 이 신경망들은 각각의 픽셀 단위에서 예상되는 행동의 가치를 표현하는 $A$($A_{grasp,\:}A_{push}$)와 Dueling 구조(목차 2.3)의 $Q$함수 연산을 위해 현재 상태의 가치를 표현하는 상태 가치함수 $V$($V_{grasp,\:}V_{push}$)를 출력한다. 즉, 신경망은 총 32개의 픽셀 단위에서 예상되는 Advantage 함수 $A$와 현재 상태 $s_{t}$가 갖는 가치를 나타내는 상태 가치함수 $V$를 출력한다. 그림 1에서 볼 수 있듯이 파지 신경망과 밀기 신경망이 출력한 이득 함수와 상태 가치함수를 기반으로 연산된 보상 히트맵 중 가장 큰 값을 갖는 p 지점을 로봇 팔 동작의 시작 위치로 정한다. 최적의 결정론적 정책 $π^{*}$를 찾는 상태-행동 가치함수 $Q$를 학습하기 위해 특정 시간 $t$의 주어진 상태 $s_{t}$에서 로봇 팔 에이전트는 정책 $π$에 따라 작업을 선택하고 실행한 다음, 새로운 상태 $s_{(t+1)}$및 즉각적 보상 $r(s_{t,\:}a_{t})$를 받는다. 로봇 팔 에이전트의 목표는 $R_{t}=\sum_{i=t}^{T}\gamma^{i-t}r(s_{t},\:a_{t})$, 즉 $\gamma$파라미터를 통해 감소한 미래 보상의 예상 합계를 극대화하는 최적의 정책 $\pi^{*}$을 찾는 것이다. 상태 $s_{t}$에서 에이전트가 취할 수 있는 행동은 다음과 같이 표현할 수 있다.

(2)
$a=(τ,\:q)|τ∈[push,\: grasp],\: q→p∈s_{t}$

수식(2)에서 $\tau$는 상태 $s_{t}$에서 취할 수 있는 행동의 종류를 명시한다. p는 상태 $s_{t}$의 2D 카메라 이미지에서 로봇 팔의 행동을 취할 픽셀 지점이고, q는 카메라 이미지를 투영한 3D 위치를 의미한다. 밀기 행동이 선택됐을 때 로봇 팔은 q 지점을 중심으로 16개의 방향 중 하나를 선택하여 직선으로 10cm를 이동한다. 파지 동작이 선택됐을 때 q 지점은 16개의 방향 중 하나에서 로봇 팔로 쥐었을 때의 중심 위치를 나타내고, 로봇 팔의 두 손가락은 파지 동작 전에 중력 방향으로 3cm로 이동한 후 동작을 시행한다. 이는 로봇 팔이 물체의 무게중심 아래쪽을 잡도록 함으로써 파지 동작의 안정성을 보장하기 위함이다. 로봇 팔 에이전트가 최종적으로 취할 행동은 파지와 밀기 중에서 예상되는 보상합계를 최대화하는 행동 τ와 3D 위치 q로 결정된다. 로봇 팔 에이전트가 현재 상태 $s_{t}$에서 취할 수 있는 최적의 정책 $π^{*}$과 보상 히트맵 $Q$의 관계식을 표현하면 다음과 같다.

(3)
$\pi^{*}=\arg\max(Q(s_{t},\:a_{t}))$

수식(3)은 밀기와 파지 신경망이 출력한 Advantage 함수와 상태 가치함수를 기반으로 계산된 224*224 보상 히트맵에서 $Q$함수의 값을 극대화하는 행동 $a_{t}$가 수행되는 지점은 미래 보상합계를 최대화하는 정책 $π^{*}$과 같다는 것을 나타낸다. 로봇 팔의 3D 동작 공간에 대해 2D 영상 픽셀 단위 히트맵을 표현함으로써 현재 상태 $s_{t}$를 입력받는 $Q$함수 근사기로 컨볼루션 신경망을 사용할 수 있고, 컨볼루션 신경망을 사용하면 픽셀 단위로 샘플링된 히트맵의 특징을 추출하여 컨볼루션 신경망의 공간적 특성을 고려한 정보를 공유할 수 있으므로 로봇 팔 에이전트가 시각적인 정보를 해석할 수 있도록 학습할 수 있다.

로봇 팔 에이전트의 행동에 따른 보상체계는 파지가 성공하면 2.1장에서 정의한 마르코프 의사결정 과정에 따라 파지 동작이 성공했을 때의 보상 $R_{g}(s_{t},\:a_{t})=1$을 반환하고, 밀기 동작이 물체를 움직이는 데 성공하면 $R_{p}(s_{t,\:}a_{t})=0.5$의 보상을 반환한다. 신경망이 파지 동작이 아닌 밀기 동작으로 블록을 작업공간 외부로 밀어낼 경우 $R_{p}(s_{t,\:}a_{t})=-1$의 보상을 반환한다.

강화학습 알고리즘의 i번 반복마다 상태-행동 가치함수 $Q$는 후버 손실함수를 최소화하는 방향으로 학습되며 다음과 같이 수식으로 정의할 수 있다. (15)

(4)
$L_{i=}\begin{cases} \dfrac{1}{2}(Q^{\theta_{i}}(s_{t},\:a_{t})-y^{\theta_{i}^{-}})^{2},\:\mathrm{for}|Q^{\theta_{i}}(s_{t},\:a_{t})-y^{\theta_{i}^{-}}|<1\\ |Q^{\theta_{i}}(s_{t},\:a_{t})-y^{\theta_{i}^{-}}|-\dfrac{1}{2},\:otherwise. \end{cases}$

후버 손실함수는 값이 1보다 작을 때 L2 오차를 적용함으로써 미분할 수 없는 L1 오차의 단점을 보완하고, 오차가 1보다 클 때 L1 오차를 적용하여 이상치에 민감한 L2 오차의 단점을 보완하는 특성이 있다. $Q$함수의 학습에 후버 손실함수를 사용함으로써 $Q$함수가 수렴하지 못한 학습 초기엔 이상치에 강인한 L1 오차를 사용하여 다양한 상황에서 큰 오차가 발생하는 상황에서도 $Q$함수의 빠른 학습을 보장할 수 있다. 학습이 어느 정도 진행되어 손실함수의 값이 1보다 작아진 구간에서는 미분이 가능한 L2 오차를 사용하여 안정적인 학습이 가능한 이점을 얻을 수 있다.

수식(4)에서 $\theta$는 학습이 진행되고 있는 타겟 신경망 $Q$의 매개변수고 타겟 신경망의 고정된 신경망 파라미터 $\theta^{-}$을 사용하는 목적 함수 $y_{t}$는 수식(5)와 같이 재정의되어 타겟 신경망의 예측 결과를 평가한다.

(5)
$y_{t}=r(s_{t,\:}a_{t})+\gamma Q^{\theta^{-}}(s_{t+1},\:\arg\max(Q^{\theta}(s_{t+1},\:a_{t+1})))$

이처럼 서로 다른 두 개의 파라미터를 갖는 신경망을 이용하면 두 함수에 대한 노이즈가 동시에 발생하더라도, uniform 분포를 가지는 잡음을 고려했을 때 노이즈가 상쇄되는 효과를 얻게 되어 궁극적으로 편향되지 않은 동작을 로봇 팔 에이전트가 선택할 수 있게 된다. 두 신경망의 출력에서 가장 높은 $Q$값을 갖는 단일 픽셀 지점 p가 선택된 신경망을 통해서만 역전파를 전달하며, 다른 모든 픽셀은 학습되지 않는다. 이는 밀기와 파지 동작을 수행하도록 하는 신경망의 학습 신뢰성과 로봇 팔 동작의 정확성을 보장하기 위함으로써 단일 픽셀 지점 p에서 수행된 동작의 성공에 따른 보상이 다른 픽셀 영역들로 넘어가 의미 없는 학습이 진행되는 것을 방지하기 위함이다.

그림. 2. $FCN_{B}$ 신경망 구조 개략도

Fig. 2. Block diagram of $FCN_{B}$ neural network

../../Resources/kiee/KIEE.2021.70.12.1906/fig2.png

2.3 FCNB layer

신경망의 병목 구조를 설명한 논문(11,12)에서 3*3 컨볼루션 이전에 1*1 컨볼루션을 병목 층으로 활용하면 출력 채널의 수를 줄여 계산 효율성과 신경망의 식별 성능을 동시에 향상할 수 있음을 보였다. 특히 Maximilian(18)은 심층신경망 기반 강화학습 에이전트에 병목 구조와 선택적 잡음 삽입을 통해 신경망 일반화 성능의 개선을 보였다. Densenet-121 신경망(13)의 출력층에 병목 계층을 포함한 $FCN_{B}$구조는 그림 2에서 확인할 수 있고, 이는 2.4장에서 제안하는 Dueling 구조까지 적용된 $FCN_{BD}$와는 다르다. Image-net(16)을 이용해 사전 훈련된 Densenet-121 신경망의 출력에 1*1 컨볼루션과 3*3 컨볼루션 병목 구조를 갖는 $FCN_{B}$출력층 구조를 적용하여 $Q$함수를 구성하면 특징 채널에 존재하는 중복된 특징을 제거하여 계산 효율성을 증가시키고 연산량 감소의 효과를 얻을 수 있다. Dueling 구조를 $FCN_{B}$신경망에 포함하기 위해 마지막 $FCN_{B}$계층의 출력에 선형함수를 추가하여 현재 상태 $s_{t}$의 가치를 추정한다. 여기서 선형함수는 단층 퍼셉트론으로 구성되어 누적된 특징채널을 기반으로 현재 상태에 대한 가치함수 $V(s_{t})$를 출력한다.

그림. 3. $FCN_{D}$ 신경망 구조 개략도

Fig. 3. Block diagram of $FCN_{D}$ neural network

../../Resources/kiee/KIEE.2021.70.12.1906/fig3.png

2.4 Dueling Architecture

Dueling 구조는 $Q$함수의 순전파 연산 이전에 상태 가치함수 $V$와 Advantage 함수 $A$로 나누어 결괏값을 얻은 후 다시 합치는 형태이다. 여기서 Advantage 함수 $A$는 $Q$함수의 분산을 감소시키는 역할을 담당하기 위해 사용되고, 에이전트가 특정 픽셀 지점에서 취할 수 있는 모든 행동에 대한 가치를 나타낸다. Advantage 함수 $A$값은 히트맵의 픽셀 지점에서 취할 수 있는 행동별로 계산되며 이는 누적되는 보상과는 연관이 없으므로 각 정책에 따른 $A$값의 총합은 0이 된다. Dueling 구조를 통해 에이전트는 결론적으로 높은 $V$함숫값을 갖는 상태로 정책을 학습하며, 낮은 $V$함숫값을 갖는 행동을 피하도록 정책이 학습된다. 이를 통해 학습 과정에서 발생할 수 있는 낮은 $V$함숫값에 대한 불필요한 연산을 방지하고 $Q$함수의 분산이 감소하여 더욱 안정적이고 빠른 학습이 가능하다. Advantage 함수와 상태 가치함수로 분리된 상태-행동 근사함수의 구조는 다음과 같이 표현할 수 있다.

(6)
$Q(s_{t,\:}a_{t})=V(s_{t})+(A(s_{t,\:}a_{t})-1/|A|\Sigma A(s_{t,\:}a'_{t}))$

수식(6)에서 $V(s_{t})$는 현재 입력된 상태의 가치 정보를 포함하며, $A(s_{t,\:}a_{t})$는 상태와 행동에 대한 누적보상을 포함하는 $Q$함수와 상태에 대한 가치를 포함하는 $V$함수의 오차로 연산 되어 특정 상태에서 수행할 수 있는 행동의 가치를 표현한다.$1/|A|\Sigma A(s_{t,\:}a'_{t})$는 상태 $s_{t}$에서 에이전트가 취할 수 있는 모든 행동 $a'_{t}$에 대한 가치의 평균이다. 이 성분을 뺌으로써 $Q$함수의 누적보상을 기준으로 행동이 수행되었을 때 Advantage 함수 $A$에서 취해지는 값을 0으로 만들어준다. 이를 통해 Advantage 함수에 의해 편향된 행동을 취할 가능성을 차단함으로써 궁극적으로 학습 안정성을 보장할 수 있다. 또한, $Q$함수에 누적되는 보상의 분산을 감소시켜 기존의 강화학습 기법보다 $Q$함수의 일반화 성능개선을 얻을 수 있다. 이처럼 로봇 팔 에이전트가 Dueling 구조를 포함하는 $FCN_{BD}$신경망을 통해 미래 누적보상을 학습함으로써 Advantage 함수 $A$에 의한 학습 수렴속도와 병목 구조에 의한 계산 효율성을 개선할 수 있다.

3. 실험 및 결과

강화학습 기반 로봇 팔 시뮬레이션 환경을 구축하기 위해 로봇팔 역학을 표현할 수 있는 Bullet Physics 2.83과 로봇 팔 동작에 관련된 역운동학 모듈 라이브러리가 포함된 V-REP 시뮬레이터의 UR5 로봇 팔 패키지를 활용하였다.(17) 이 논문에서 제안한 $FCN_{BD}$의 로봇 팔 제어 성능개선을 확인하기 위해 총 3가지의 실험을 진행하였다. 첫 번째로 병목 구조의 유효성을 검증하기 위해 $FCN_{B}$와 VPG(4)의 논문에서 적용된 기존 신경망 간 파지 신경망과 밀기 신경망의 수렴속도와 평가 기준에 따른 성능을 비교한다. 다음으로 Dueling 구조의 학습 성능개선을 확인하기 위해 기존의 VPG 신경망에 Dueling 구조만 적용된 $FCN_{D}$(그림 3참조)와 기존 VPG 신경망 간의 파지 신경망과 밀기 신경망의 수렴속도와 평가 기준에 따른 성능을 비교한다. 마지막으로 제안한 $FCN_{BD}$신경망과 단순 Dueling 구조를 적용한 $FCN_{D}$의 파지 신경망과 밀기 신경망의 수렴속도와 평가 기준에 따른 성능을 비교하여 신경망 구조에 따른 로봇 팔 에이전트의 성능 개선을 확인하였다. 제안된 로봇 팔 알고리즘은 파이썬으로 구현되어 검증되었으며 시뮬레이션에 사용한 컴퓨터의 사양은 i9-10900X CPU, GTX 3090 그리고 RAM 128GB가 장착된 데스크톱이다.

그림. 4. 학습률에 따른 각 동작에 대한 학습 곡선

Fig. 4. Learning curve for each action according to learning rate

../../Resources/kiee/KIEE.2021.70.12.1906/fig4.png

표 1. 파지와 밀기 신경망 훈련을 위한 매개변수

Table 1. Hyper-parameters for training grasping and pushing neural network

Hyper-parameter

Value

Learning Rate (LR)

$10^{-4}$

Discount Factor

0.5

Momentum

0.9

Weight decay

$2^{-5}$

그림. 5. 테스트에 사용된 블록 배치도 예시

Fig. 5. Examples of block arrangement for testing

../../Resources/kiee/KIEE.2021.70.12.1906/fig5.png

3.1 학습 방법

로봇 팔이 동작을 학습하는 환경의 구성은 224*224(cm)사이즈의 판 위에 9개의 서로 다른 모양의 3D 블록을 무작위로 배치한 형태이다. 로봇 팔이 지속해서 파지와 밀기 동작을 수행하며 판 위에 물체가 없어질 때까지 시행착오를 거치며 학습을 진행한다. 물체가 모두 없어지면 다시 이전의 학습을 반복하게 된다. 로봇 팔의 동작을 결정하는 파지 신경망 $ξ_{grasp}$과 밀기 신경망 $ξ_{push}$을 학습시키기 위한 파라미터를 표 1에서 확인할 수 있다. 가중치 계산을 위한 최적화 방식은 모멘텀 기반의 확률적 경사 하강법을 사용하였고, 학습률은 $10^{-4}$, 할인 계수 γ는 0.5, 모멘텀은 0.9 및 Weight decay는 $2^{-5}$로 적용하였다. 그림 4에서 학습률 (LR)에 따른 파지와 밀기 동작의 학습 곡선을 확인할 수 있다. 학습률이 $10^{-3}$일 때 너무 큰 학습률로 인해 신경망이 올바른 정책을 추정하지 못하고 발산함으로써 학습이 제대로 수행되지 않는 모습을 확인할 수 있다. 학습률이 $10^{-5}$일 때 너무 작은 학습률로 인해 신경망 최적의 정책을 추정하지 못하고 지역 최저점에 도달하여 수렴하지 못하는 모습을 확인할 수 있다. 다양한 학습률을 설정하여 비교해본 결과 강화학습의 학습률은 $10^{-4}$로 결정되었다.

그림. 6. 로봇 팔의 파지와 밀기 동작 예시

Fig. 6. Grasping and pushing action of the robot arm

../../Resources/kiee/KIEE.2021.70.12.1906/fig6.png

3.2 평가 방법

로봇 팔 동작의 평가를 위한 테스트 환경은 224*224(cm)치수의 판 위에 다양한 형태의 블록이 인접해있어 블록을 파지하기 위해 추가적인 밀기 동작이 필요한 총 11개의 복잡한 블록 배치를 고려하였다. 그림 5에서 테스트에 사용된 복잡한 블록 배치도 예시를 나타내었고, 그림에서 볼 수 있듯이 다양한 형태의 블록들이 인접해있는 경우들이 포함되어 있다. 이러한 환경에서 로봇 팔이 블록을 성공적으로 파지하기 위해서는 가장 최적의 위치와 방향으로 블록 밀기작업을 먼저 수행해야 한다.

그림 6에서는 다양한 환경에서 로봇 팔이 밀기 및 파지동작을 수행하는 예시들을 나타낸다. 로봇 팔은 작업공간에 존재하는 모든 물체를 지정된 위치로 이동해야 하는데, 밀기와 파지 동작을 효율적으로 사용해서 가장 적은 동작으로 작업을 완수하는 것을 목표로 강화학습을 수행한다. 로봇 팔 동작에 대한 평가는 아래와 같이 3개의 기준으로 성능을 비교하였다. 이 연구에서 사용된 성능 평가지표는 (4)에서 제안된 로봇 팔의 성능 평가지표를 사용한다.

1) 작업 완수율(Completion): 전체 테스트에서 작업을 완수한 비율

2) 파지 성공률(Grasp Success): 테스트 당 평균적인 파지 성공률

3) 작업 효율성(Action Efficiency): 물체의 개수를 전체 행동의 횟수로 나눈 비율

여기서 1)번 평가 기준은 신경망의 정책이 작업을 얼마나 잘 수행하는지 나타낸다. 2)번 평가 기준과 3)번 기준은 정책이 물건을 잡는 과정에서 얼마나 효율적으로 동작하는지 나타낸다. 위에 제시한 1)번에서 3)번까지 모든 측정 항목에 대해 값이 클수록 좋은 결과임을 뜻한다.

표 2. VPG, $FCN_{B}$ 와 $FCN_{BD}$ 신경망의 연산량 개수

Table 2. Number of parameters of VPG, $FCN_{B}$ and $FCN_{BD}$ neural network

Method

Number of Parameters

VPG (4)

131,136

$FC N_{B}$

84,032

$FCN_{BD}$

84,432

그림. 7. VPG, $FCN_{D}$ 및 $FCN_{BD}$ 신경망의 학습에 따른 파지와 밀기 동작 성공률 비교

Fig. 7. Comparison of grasping and pushing success rates of VPG, $FCN_{D}$ and $FCN_{BD}$

../../Resources/kiee/KIEE.2021.70.12.1906/fig7.png

3.3 실험 결과

표 2에서는 기존의 VPG, $FCN_{B}$ 및 $FCN_{BD}$신경망에 대한 파라미터 개수를 나타내었다. 본 연구에서 구현한 $FCN_{B}$신경망은 VPG 신경망과 비교하면 파라미터 개수가 약 64.1%에 불과하므로 학습 시 필요한 계산량을 획기적으로 감소시킨다. 여기서 $FCN_{BD}$신경망의 경우 신경망에서 완전 연결 계층을 통해 상태 가치를 출력하는 과정이 포함되므로 $FCN_{B}$신경망과 비교하여 파라미터의 개수가 소폭으로 증가하지만, 기존 VPG 신경망 대비 Dueling 구조에 의한 성능개선과 병목 구조에 기인한 연산량의 감소를 동시에 얻을 수 있다.

그림 7은 VPG, $FCN_{B}$ 및 $FCN_{BD}$및 신경망에 대해 학습 시간에 따른 로봇 팔의 파지와 밀기 동작 성공률을 나타내었다. 그림에서 볼 수 있듯이 $FCN_{D}$와 $FCN_{BD}$신경망 구조를 적용하였을 때 기존 VPG 신경망 대비 학습에 따른 파지와 밀기의 성공률 기울기가 기존 기법보다 더욱 가파르게 증가하는 것을 확인할 수 있다. 이는 Dueling 구조의 Advantage 함수의 학습 방법에 기인한 결과로써 행동에 대한 예측 보상을 기존 기법보다 잘 예측하여 적은 학습으로도 우수한 성능을 보이는 것을 알 수 있다. 또한, 파지 동작 성공률에 대해서는 출력층에 병목 구조가 포함된 $FCN_{BD}$가 $FCN_{D}$에 비해 학습 초반부에 더 가파른 기울기를 보이며 90%의 성공률에 먼저 도달하는 것을 확인할 수 있다. 병목 구조의 적용으로 연산량 감소를 얻음과 동시에 Dueling 구조와의 통합을 통해 현재 상태에 대한 표현력이 개선되어 $Q$함수의 값을 최대화하는 동작을 정확히 결정하게 됨을 알 수 있다.

표 3. VPG, $FCN_{D}$ 및 $FCN_{BD}$ 신경망의 제어성능 비교

Table 3. Comparison of robot arm control performance of VPG, $FCN_{D}$, and $FCN_{BD}$neural network

Method

Completion

Grasp Success

Action Efficiency

VPG (4)

87.8%

76.1%

59.7%

$FCN_{D}$

97.2%

62.1%

60.9%

$FCN_{BD}$

98.1%

61.4%

61.3%

표 3에서는 3가지 로봇 팔 제어성능 기준에 관한 결과를 비교하였다. 표에서 볼 수 있듯이 $FCN_{BD}$ 및 $FCN_{D}$신경망이 기존 VPG 신경망 대비 작업 완수율에서 약 10.3% 및 9.4%의 개선을 나타내었다. 작업 효율성 측면에서는 VPG 신경망 대비 약 1.6% 및 1.2%의 개선을 나타내었다. 이는 학습 과정에서 단일 신경망 구조와는 다르게 $Q$함수를 이점 함수 $A$와 상태 가치함수 $V$로 나누어 업데이트함으로써 기존 기법보다 우수한 상태 추정을 한 결과이다. $FCN_{BD}$ 및 $FCN_{D}$신경망의 파지 성공률은 VPG 기법보다 낮아졌는데 이는 로봇 팔의 파지 동작을 활용하여 이동시키기 난해한 물체의 위치를 이동시키거나 배치를 변화시키는 것에 기인한 결과임을 작업완수율/효율성 성능 개선 결과 및 시뮬레이션 화면을 통해 확인할 수 있었다. 주어진 실험환경에서의 테스트 작업 완수율, 파지 성공률 및 작업 효율성에서 $FCN_{D}$와 $FCN_{BD}$신경망은 비슷한 성능을 보여주지만, 병목 구조와 Dueling 구조의 통합에서 비롯된 일반화 성능의 개선으로 인해 $FCN_{BD}$신경망의 작업 완수율과 작업 효율성이 소폭 상승했음을 확인할 수 있다. 전체적인 시뮬레이션 결과 $FCN_{BD}$신경망은 로봇 팔이 다양한 상황에서도 주어진 작업을 높은 확률로 완수할 수 있게 하고, 적은 양의 작업횟수로 작업을 완수하게 하며, 빠른 속도로 학습을 가능하게 하므로 카메라 영상 정보를 이용하는 로봇 팔 제어성능의 고도화가 필요한 분야에 널리 활용될 수 있다.

4. 결 론

이 연구에서는 로봇 팔 동작 성능을 개선할 수 있는 Dueling 및 병목 구조 기반의 심층 강화 학습을 이용한 로봇 팔 제어 방식을 제안하였다. 강화 학습 로봇 팔 에이전트가 정책을 학습하기 위해 사용되는 Densenet-121 신경망에 1*1 컨볼루션과 3*3 컨볼루션으로 구성된 병목 구조를 적용하여 계산 효율성을 증가시켰다. 또한, Dueling 구조를 로봇 팔 제어 신경망에 적용하여 보상이 낮을 것으로 예상하는 상태에 대한 불필요한 연산을 방지함으로써 함수의 분산을 감소시켜 안정적인 학습 환경을 제공하였다. V-REP을 이용한 시뮬레이션 결과 제안한 기법이 기존의 VPG 신경망 기반 로봇 팔 제어 기법 대비 파라미터 개수를 약 35.9% 줄이면서, 작업 완수율 및 작업 효율성을 각각 약 10.3%, 1.6% 개선하였음을 확인하였다.

Acknowledgements

This research is financially supported by Changwon National University in 2021~2022.

References

1 
M.Q. Mohammed, K.L. Chung, S. Chyi, 2020, Review of Deep Reinforcement Learning-Based Object Grasping: Techniques, Open Challenges, and Recommendations, IEEE Access, Vol. 8, pp. 178450-178481DOI
2 
M. Arulkumaran, M. P. Deisenroth, M. Brundage, A. A. Bharath, 2017, Deep Reinforcement Learning: A Brief Survey, IEEE Signal Processing Magazine, Vol. 34, No. 6, pp. 26-38DOI
3 
Y. Cho, J. Lee, K. Lee, 2020, CNN based Reinforcement Learning for Driving Behavior of Simulated Self-Driving Car, The Transactions of the Korean Institute of Electrical Engineers, Vol. 69, No. 11, pp. 1740-1749Google Search
4 
A. Zeng, S. Song, S. Welker, J. Lee, A. Rodriguez, T. Funkhouser, 2018, Learning Synergies Between Pushing and Grasping with Self-Supervised Deep Reinforcement Learning, 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 4238-4245DOI
5 
Z. Sun, K. Yuan, W. Hu, C. Yang, Z. Li, 2020, Learning Pregrasp Manipulation of Objects from Ungraspable Poses, 2020 IEEE International Conference on Robotics and Automation (ICRA), pp. 9917-9923DOI
6 
Y. Song, Y. Fei, C. Cheng, X. Li, C. Yu, 2019, UG-Net for Robotic Grasping using Only Depth Image, 2019 IEEE International Conference on Real-time Computing and Robotics (RCAR), pp. 913-918DOI
7 
C. Chen, H.-Y. Li, X. Zhang, X. Liu, U.-X. Tan, Aug 2019, Towards robotic picking of targets with background distractors using deep reinforcement learning,, in Proc. WRC Symp. Adv. Robot. Autom. (WRC SARA), Beijing, ChinaDOI
8 
W. Yuan, J. A. Stork, D. Kragic, M. Y. Wang, K. Hang, 2018, Rearrangement with Nonprehensile Manipulation Using Deep Reinforcement Learning, 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 270-277DOI
9 
H. Song, J. A. Hausten, W. Yuan, K. Hang, 2019, Multi-Object Rearrangement with Monte Carlo Tree Search: A Case Study on Planar Nonprehensile Sorting, arXiv preprint arXiv:1912.07024DOI
10 
P. Ni, W. Zhang, H. Zhang, Q. Cao, 2020, Learning efficient push and grasp policy in a totebox from simulation, Advanced Robotics, Vol. 34, No. 13, pp. 873-887DOI
11 
K. He, X. Zhang, S. Ren, J. Sun, 2016, Deep residual learning for image recognition, In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778Google Search
12 
C. Szegedy, W. J. Liu, Y. Sermanet, P. Reed, 2015, Going deeper with convolutions, In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1-9Google Search
13 
G. Huang, Z. Liu, Q. K, 2017, Densely connected convolutional networks, In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700-4708Google Search
14 
Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, N. Freitas, 2016, Dueling network architectures for deep reinforcement learning, In International conference on machine learning, pp. 1995-2003Google Search
15 
H. Van Hasselt, A. Guez, D. Silver, 2016, Deep reinforcement learning with double q-learning, In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 30, No. 1Google Search
16 
J. Deng, W. Dong, R. Socher, L. Li, Kai Li, Li Fei-Fei, 2009, ImageNet: A large-scale hierarchical image database, 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255DOI
17 
E. Rohmer, S. P. N. Singh, M. Freese, 2013, V-REP: A versatile and scalable robot simulation framework, 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 1321-1326DOI
18 
Maximilian IGL, 2019, Generalization in reinforcement learning with selective noise injection and information bottleneck, arXiv preprint arXiv:1910.12911Google Search

저자소개

김성준(Kim Seong Joon)
../../Resources/kiee/KIEE.2021.70.12.1906/au1.png

Seong Joon Kim is currently pursuing the integrated B.S. and M.S. degree from the Department of Information and Communication Engineering, Changwon National University, Changwon-si, South Korea.

His research interests include visible light communications and artificial intelligence.

김병욱(Byung Wook Kim)
../../Resources/kiee/KIEE.2021.70.12.1906/au2.png

Byung Wook Kim received the B.S. degree from the School of Electrical Engineering, Pusan National University, Pusan, South Korea, in 2005, and the M.S. and Ph.D. degrees from the Department of Electrical Engineering, KAIST, Daejeon, South Korea, in 2007 and 2012, respectively.

He was a Senior Engineer with the Korea Electrotechnology Research Institute, Changwon-si, South Korea, from 2012 to 2013.

He was an Assistant Professor with the School of Electrical and Railway Engineering, Kyungil University, Gyeongsan-si, South Korea, from 2013 to 2016.

He was an Assistant Professor with the Department of ICT Automotive Engineering, Hoseo University, from 2016 to 2019.

He is currently an Assistant Professor with the Department of Information and Communication Engineering, Changwon National University, Changwon-si, South Korea.

His research interests include visible light communications, machine learning, and deep learning.