조건 강화물이 결정적인 요인이 되는 이유는 뭘까요
호루라기 소리 없이 멀리 떨어져 있는 돌고래에게 간단한 점프 동작을 훈련시킨다고 가정해 봅니다. 우선 돌고래가 점프를 해서 공중에 떠 있는 상태일 때 물에 고기를 주기란 불가능합니다.
돌고래가 어떤 점프를 하든지 간에 점프가 끝난 후에야 물고기를 줄 수 있거나 또는 상황에 따라 아예 못 줄 수도 있습니다. 즉, 반복되는 점프 중 한 점프에 대해서만 보상해 준 이유가 무엇인지 혹은 그 점프에서 당신이 좋아하는 부분이 무엇인지를 알려 줄 방법이 없다.
높이였을까 돌고래가 물밖으로 뛰어오른 혹은 물속으로 뛰어든 스타일 때문이었을까? 특정한 높이, 시간, 방향의 점프를 개발시켜 주기 위해서는 수많은 반복 속에서 시행착오를 통해 실수를 제거해 나가는 수밖에 없는데 그러다 보면 그 동작을 정확히 해내기도 전에 이미 지겨워져 버린 돌고래그리고 조련사가 훈련을 포기해 버릴 확률이 높습니다.
이렇듯 조건 강화물 없이 음식 보상만 사용하는 트레이너의 동물들은 정확한 정보가 부족하기 때문에 간절하게 일하긴 하지만 굶주린 만큼 학습 속도는 아주 더딜 수밖에 없습니다.
포상을 받게 해 준 행동이 무엇인지를 정확히 알려 주는 신호 없이 그저 많은 포상을 받아 온 개들에게서 흔히 볼 수 있는 모습이다. 이런 개들은 우호적이고 열정적인 듯 보이지만 사실은 아는 게 아무것도 없다.
또, 트레이너가 표시 신호 없이 음식만 사용하면 동물은 트레이너로부터 항상 음식을 고대하는 경향이 생긴다. 말은 먹이가 있진 않은지 늘 주머니 냄새를 맡고 개는 손을 핥아 대기 바쁘다.
돌고래는 계속 무대 주변을 맴돌고 물고기 양동이를 숭배하다시피 한
다. 이렇게 트레이너만 뚫어져라 바라보고 있다면 돌고래를 조련사의 반대 방향인 관중석 쪽으로 점프하게 만드는 일은 불가능할 수밖에 없다.
그러나 표시 신호를 설정해 둔 이상, 멀리 떨어진 곳에서 일어나는 행동을 발견했을 때도 심지어 동물이 등을 돌리고 있을 때도 아무 문제없이 사용할 수 있다.
또 잘 조건형성된 동물은 먹이를 찾아 온 사방을 킁킁대는 대신 자기가 할 일을 계속하면서 이 마법의 소리에 귀를 기울인다. 말과 개 훈련에서
집중하는 자세는 그 자체만으로도 아주 가치 있는 훈련 자산이다.
조건 강화물은 찰나의 순간을 포착할 수 있다. 즉, 호루라기 소리는 조련사가 찾고 있는 행동이 무엇인지를 돌고래에게 아주 정확하게 알려 줄 수 있기 때문에 조련사와 돌고래 간의 의사소통을 확실하게 해 주고 그 덕분에 우리가 원하는 세부적인 것들까지도 하나씩 하나씩 명확하게 동물에게 가르쳐 줄 수 있게 해줍니다.
예를 들어 오른쪽으로 점프하라는 신호를 할 때마다 돌고래가 오른쪽으로 점프하는 것으로 보아 돌고래가 오른쪽으로 점프하기' 라는 규칙을 완전히 소화했다고 생각된다면 여기에 또 다른 세부 사항이나 규칙을 추가할 수 있습니다.
이제부터는 '더 높이 뛰는 점프만을 강화하겠다.”고 결심하고 그 행동을 강화해 나간다면 머지않아 돌고래는 '더 높이 뛰기' 라는 세부적인 행동 하나를 더 배우게 됩니다.
단계별로 가르쳐 나가는 이 과정이 너무 치밀하게 여겨질 수도 있겠지만 이것이야말로 복잡한 행동을 훈련시키는 데 최단거리 지름길이다. 미숙한 돌고래라 할지라도 앞에서 이야기했던 머리 숙여 작별 인사 하기' 같은 정교한 행동도 2-3일 만에 신호에 따라 하도록 훈련시킬 수 있습니다.
순조롭게 진행된다면 10분짜리 트레이닝 세션 한 번 만에 훈련시킬 수도 있습니다. 오랫동안 나는 돌고래의 특정 행동을 '포착' 해 그것을 특별한 행동으로 형성해 내곤 했는데, 단 한 번의 세션만에 신호에 따라 그 행동을 하도록 만든 적이 셀 수도 없을 정도로 많습니다.
다른 돌고래 조련사들도 마찬가지입니다 필요한 준비물은 클리커와 포상입니다. 십 분짜리 실험을 통해 우리 집 개에게도 조건 강화물을 사용하는 돌고래 훈련법을 쉽게 적용시켜 볼 수 있습니다.
호루라기 소리를 두려워하는 개도 많기 때문에 우리는 클리커를 조건 강화물로 사용한다. 클리커는 누르면 클릭’ 하는 소리가 나는 일종의 장난감인데 병뚜껑, 미니 스테이플러, 볼펜 등 비슷한 소리가 나는 물건을 대신 사용할 수도 있습니다.
그 다음은 포상으로 줄 먹이를 챙길 차례다. 포상은 크기가 충분히 작아야하는데 그래야 15-20번 정도를 줘도 개가 배부르지 않기 때문입니다. 특히 식사 시간 직전에만 먹이에 반응을 보이는 개도 있는데 이럴 때는 좀 더 맛있는 것을 준비할 필요가 있습니다.
클리커를 개에게 처음 소개할 때 주로 작게 자른 닭고기 조각을 사용한다. 일상적으로 사용하게 될 포상은 질 좋은 것이어야 하고 빨리 먹을 수 있는 아주 작은 것이어야 한다. 새로운 작업을 시작할 때는 신선한 먹이를 주는 것이 최상이고 건조한 먹이는 그 행동을 유지하기에 좋다.
만약 기성 제품을 산다면 작은 조각으로 만들어진 것을 찾아보자. 기름기가 많거나 냄새나는 것은 좋지 않으며, 쉽게 부스러지지 않고 조각당 칼로리가 낮고 자연식품인 것이 좋다. 또, 허리 벨트 등에 포상 가방을 매어 두면 손을 자유롭게 쓸 수 있고 돌아다니면서 훈련 사진처럼 다양한 종류의 클리커가 상품화되어 있습니다.
클릭 소리와 포상 연결 짓기위해서는 개에게 클릭 소리가 의미하는 것을 알려 주기 위해 클리커를 누르고 포상을 주는 과정을 4-5번 반복하는데, 방에서 하든 야외에서 하는 위치를 옮겨 가면서 해야 합니다. 그래야 개가 '아, 클릭 소리와 포상은 특정한 위치나 장소에서만 받을수 있는 거구나.' 라는 식의 엉뚱한 생각을 갖는 것을 막을 수 있습니다.
댓글