Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 73, No. 12, p.2326-2332

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 20 Aug. 2024Revised : 22 Oct. 2024Accepted : 26 Oct. 2024

DOI :

https://doi.org/10.5370/KIEE.2024.73.12.2326

AutoAugment 와 Mixup 데이터 증대 기법을 적용한 YOLOv9 기반 실시간 소 행동 탐지

Real-Time Detection of Cattle Behavior Using YOLOv9 with AutoAugment and Mixup Data Augmentation Techniques

이수빈 (Su-bin Lee) ¹iD 박재범 (Jae-beom Park) ²iD 조현종 (Hyun-chong Cho) ^†iD

(Dept. of Data Science, Kangwon National University, Korea.)
(Dept. of Interdisciplinary Graduate Program for BIT Medical Convergence, Kangwon National University, Korea.)

^†Corresponding Author : Dept. of Electronics Engineering and Dept. of Data Science, Kangwon National University, Korea. E-mail : hyuncho@kangwon.ac.kr

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0)which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Translated Abstract

As the number of livestock farms in Korea decreases, the scale of individual farms has grown, necessitating advanced methods for efficient livestock management. Recent studies have increasingly applied computer vision and deep learning to monitor livestock behavior, health, and disease, aiming to enhance productivity and animal welfare. This study introduces a real-time cattle behavior detection system utilizing YOLOv9, a state-of-the-art object detection algorithm known for its high accuracy and efficiency. The YOLOv9-s model, optimized for real-time detection with minimal computational overhead, was employed. To further enhance detection accuracy, we incorporated AutoAugment, a data augmentation technique that automatically selects the optimal augmentation policies, and mixup, a method that improves model generalization by creating new training samples through linear interpolation of existing ones. The application of AutoAugment improved the mean Average Precision (mAP) from 0.926 to 0.941, while the addition of mixup raised the mAP to 0.947, representing a 2.1% performance increase. These results confirm the system's capability for accurate and efficient real-time detection of cattle behavior.

Key words

Cattle Behaviors, Data Augmentation, Deep Learning, Real-time Object Detection, Smart Livestock Farming

1. 서 론

현대 사회에서 인구 증가와 함께 농업 및 축산업의 생산성 향상은 필수 과제로 부각되고 있다^[1]. 대한민국 국가통계포털에 따르면 국내 대형 사육 농가는 증가하는 추세를 보이는 반면에 축산업 종사자 수는 감소하고 있다^[2]. 다음 그림 1은 2019년부터 2023년까지 한우 100두 이상 사육 농장 수와 축산업 종사자 수 추이를 나타내었다. 이러한 배경에서 스마트팜 기술의 도입이 중요해짐에 따라 생산성을 유지하고 가축의 복지를 향상하기 위한 스마트팜 기술과 컴퓨터 비전을 적용한 딥러닝 기술의 결합이 주목받고 있다^[3]. 이에 따라 가축의 행동 및 건강 상태를 자동으로 모니터링하여 조기 감지와 관리를 통해 생산성을 높이는 연구들이 수행되었다^[4]. 스마트 축산에서는 가축 행동을 면밀히 관찰하고, 이에 따른 적절한 대응이 필수적이다. 예를 들어, 소의 기본 행동 패턴과 이상 행동 패턴을 분석하여 질병 여부 및 전반적인 건강상태를 진단하는 연구가 진행되었다^[5]. 또한, Siam-AM 추적 모델을 활용하여 가축의 다리를 추적하고 걸음걸이의 변동성과 규칙성을 프레임 단위로 분석함으로써, 절름발이 소를 판별하고 질병에 취약한 개체를 조기에 탐지하는 연구가 진행되었다^[6]. 더 나아가, 소의 기본적인 행동뿐만 아니라 정밀한 행동을 탐지하기 위해 YOLOv3 및 AlexNet 모델을 활용하여 소의 전체 이미지와 여러 신체 부위에서 추출된 특징을 융합하여 객체 식별을 수행하는 비접촉 방식의 소 식별 연구가 수행되었다^[7]. 또한, 다양한 환경에서 모델의 적용 가능성을 높이기 위해 YOLOv3 모델을 활용하여 소의 개인 및 단체 행동을 구분하고, 행동의 발생 위치와 시간 정보를 결합하여 인식 정확도를 향상시키는 연구가 진행되었다^[8]. 다수의 가축이 있는 농장에서 소, 염소, 양을 정확하게 탐지하고 가려진 상태에서도 지속적으로 추적함으로써 가축 관리의 효율성과 가축 무리의 건강, 농장의 생산성을 향상시키는 연구도 수행되었다^[9]. 이러한 연구들은 스마트 축산의 핵심 요소로서 생산성 향상과 동물 복지 강화에 중대한 기여를 하고 있다. 기존 연구에서는 CNN(Convolutional Neural Network)을 적용한 소 행동 분류 딥러닝 모델이 개발되었으며, 2D CNN과 3D CNN을 결합한 방식을 통해 소의 걷기, 서기, 눕기 등의 기본 동작을 효과적으로 인식하는 모델이 제안되었다. 이 모델은 파라미터 수와 강건성을 효과적으로 제어하면서 91.8%의 정확도를 달성하였다^[10]. 또한, 고정된 카메라 대신 무인 항공기로 수집된 데이터를 활용하여 YOLOv8 모델을 적용한 가축 탐지 연구가 수행되었으며^[11], CBAM(Convolutional Block Attention Module) 어텐션 메커니즘을 적용하여 소형 가축과 다중 객체 탐지 성능을 향상시킨 결과, mAP 84.4%의 성능을 기록하며 다중 객체 인식의 중요성을 확인하였다.

그림 1. 한우 100두 이상 사육 농장 수 및 축산업 종사자 수

Fig. 1. The number of farms raising over 100 Korean cattle (Hanwoo) and the number of workers in the livestock industry

기존 연구들은 대중 객체 인식과 가축 행동 분석에서 딥러닝 모델의 효과성을 입증했다. 그러나 대부분의 연구가 가축의 움직임과 기본적인 행동 탐지에 중점을 두었으며 섭식이나 포유와 같은 정밀 행동 분석에 관한 연구는 부족한 상황이다. 본 연구는 이러한 기존 연구를 바탕으로 YOLOv9 기반 객체 인식 알고리즘을 활용하여 소의 섭식 행동과 포유 행동을 포함한 더욱 정밀한 행동 분석을 목표로 하였다. 이를 통해 가축의 다양한 행동 패턴을 더욱 정교하게 분석하고, 또한 본 연구에서 가축 행동 데이터의 불균형 문제로 인해 모델의 일반화 성능이 저하되는 문제는 데이터 증대 기법인 AutoAugment와 Mixup을 도입하여 해결하고자 하였다^[12,^13]. 이 기법을 통해 소수의 행동 패턴에서 발생하는 데이터 부족 문제를 보완하고 다양한 패턴 학습을 가능하게 하여 모델 성능을 최적화할 수 있다. 본 연구는 이러한 접근을 기반으로 가축의 정밀한 행동 분석과 최적화된 모델 성능을 달성하는 것을 목표로 한다.

2. 본 론

본 연구에서 사용된 데이터셋은 강원도 횡성에 위치한 강원도 축산기술연구소 우사에 설치된 CCTV 카메라를 통해 수집된 영상으로 구성되었다. 데이터 수집에 사용된 카메라는 GB-CDX04와 GASI 모델로, 30fps의 프레임 속도와 HD(1280 $\times$ 720) 해상도로 설정되었다. 영상은 총 35일 동안 연속적으로 촬영되었으며, 시간적 다양성을 확보하기 위해 1주일 간격으로 6일치의 영상을 선별하였다. 수집된 영상은 다양한 환경과 상황을 반영하기 위해 서로 다른 4가지 화각에서 촬영된 장면들을 포함하고 있다.

2.1 데이터셋 제작

사용된 데이터셋은 CCTV 카메라를 통해 총 9,731장의 이미지를 수집하여 구축하였다. 두 개의 우사에서 독립적으로 촬영된 영상으로 구성되었으며, 카메라 위치와 화각을 다르게 설정하여 중복과 편향을 최소화했다. 수집된 이미지는 소의 주요 행동을 기준으로 라벨링 작업을 수행하였으며, 라벨링된 행동 클래스는 서기(Standing), 휴식(Resting), 포유(Feeding), 섭식(Eating)으로 구성되었다. 각 이미지에는 단일 또는 다중 행동 클래스가 라벨링될 수 있으며, 한 이미지 안에 여러 개의 라벨이 포함될 수 있다. 라벨링이 완료된 데이터셋은 학습과 검증을 위해 Train, Validation, Test 세트로 각각 6:2:2의 비율로 분할하였고 Train과 Test 데이터는 각각 다른 환경에서 촬영된 영상으로 구성하였다. 이러한 데이터 분할 방식은 모델이 다양한 상황에서 일반화 성능을 발휘할 수 있도록 지원하며, 학습 과정에서 데이터 편향을 최소화하는 데 기여한다. 본 연구에서 사용된 데이터셋의 세부 구성은 표 1에 제시하였다.

표 1 소 행동 이미지 데이터셋 (단위 : 개)

Table 1 Cattle behaviors image dataset

Labels	Number of label
Labels	Train	Validation	Test
Standing	12,081	3,815	3,830
Resting	6,592	2,089	2,316
Feeding	797	274	289
Eating	5,426	1,946	1,950
All (Number of image)	24,896 (5,832)	8,124 (1,944)	8,385 (1,955)

2.2 AutoAugment

데이터 증대 기법은 원본 데이터가 부족하거나 학습 데이터의 다양성을 높이기 위해 활용되며, 이는 모델의 일반화 성능을 향상시키고 과적합을 방지하는 데 유리하다. 실제 데이터를 추가로 수집하는 대신, 데이터 증대를 통해 추가 데이터를 생성함으로써 비용과 시간을 절감할 수 있다. 본 연구에서는 라벨 수가 가장 적은 포유(Feeding) 클래스의 데이터 양을 효과적으로 증대하기 위해 AutoAugment 기법을 적용하였다. AutoAugment는 Google Brain 팀이 제안한 데이터 증대 정책으로, 25개의 하위 정책으로 구성된다. 이 하위 정책들은 Invert, Contrast, Rotate 등 16가지 이미지 처리 기법 중 두 가지 방식과 각 방식의 적용 확률 및 강도로 이루어져 있다. AutoAugment는 CIFAR-10, ImageNet, SVHN 등 주요 데이터셋에 최적화된 증대 정책을 제공한다. CIFAR-10은 32$\times$32 크기의 소형 이미지로 구성된 10개의 클래스가 포함된 데이터셋이며, ImageNet은 1,000개의 클래스와 1,400만 개 이상의 이미지를 포함한 대규모 데이터셋이다^[14,^15]. SVHN은 거리 주소 번호 인식을 목적으로 한 숫자 이미지 데이터셋이다^[16]. 본 연구에서는 CIFAR-10 데이터셋에 최적화된 AutoAugment 정책을 활용하여, 데이터 비율이 적은 포유 행동 데이터를 25배로 증대시켜 학습에 적용하였다. 본 연구에서 탐지하는 클래스는 총 4개로, 비교적 적은 수의 클래스를 다루고 있기 때문에, CIFAR-10 정책이 다른 정책에 비해 적합하다고 판단하여 이를 연구에 적용하였다. 그림 2는 AutoAugment를 통해 데이터를 증대한 예시를 나타내었다.

그림 2. AutoAugment를 통한 소 행동 이미지 증대예시

Fig. 2. Example of cattle behavior image augmentation using AutoAugment

2.3 Mixup

Mixup은 Google Brain 팀이 제안한 데이터 증대 기법 중 하나로, 모델의 일반화 성능을 향상하기 위해 고안된 방법이다. 본 연구에서는 YOLOv9과 같은 객체 탐지모델에서 사용하기 위해 라벨 생성 과정에서 변형을 주었다. Mixup은 두 개의 샘플 $x_{i}$와$x_{j}$을 선형적으로 결합하여 새로운 학습 데이터를 생성한다. 여기서 $x_{i}$와$x_{j}$는 입력 데이터의 이미지이다. $\widetilde{x}$는 아래의 수식 (1)과 같이 생성된다.

(1)

$\widetilde{x}=\lambda x_{i}+(1 -\lambda)x_{j}$

Mixup기법에서 $\lambda$값은 일반적으로 베타분포를 따른다. 베타분포는 $\alpha$와 $\beta$ 두 매개변수를 가지며 이 값들은 분포의 모양을 결정한다. 예를 들어 $\alpha = 1,\: \beta = 1$ 일 경우 $\lambda$값은 [0,1] 범위에서 값이 고르게 분포되고 $\alpha > 1,\: \beta > 1$ 일 경우 $\lambda$값은 0.5근처로 두 이미지가 고른 확률로 적용되어 생성된다. 반대로 $\alpha < 1,\: \beta < 1$ 일 경우 베타분포가 U자형태를 이루어 $\lambda$값이 0이나 1에 가까운 값에서 더 많이 생성되므로 두 샘플 중 하나가 많이 반영된 샘플이 생성된다. 본 연구에서는 YOLOv9 모델에서 제공하는 최적화된 Mixup 매개변수인 $\alpha = 0.32,\: \beta = 0.32$로 설정하였다. 여러 선행 연구에서 매개변수의 범위를 0.2~0.4 범위 내에서 성능 향상에 기여한 바 있으며 본 연구에서도 이 범위를 따랐다^[17]. 다음 그림 3은 적용한 Mixup 매개변수 값에 따른 확률 분포를 나타낸다. Mixup이 적용된 이미지의 라벨은 결합된 두 이미지의 라벨을 연결하여 사용하였다. 다음 그림 3은 본 연구에서 적용한 $\alpha ,\: \beta$ 값에 따른 확률 분포를 나타내었다.

그림 3. $\alpha ,\: \beta$ 값에 따른 베타 분포표

Fig. 3. Beta distribution table according to $\alpha ,\: \beta$ values

Mixup 기법은 전처리 단계에서 데이터를 증대하는 대신, 학습 과정 중의 50% 확률로 동적으로 적용되는 방식을 채택하였다. 이러한 전략은 모델이 학습 과정에서 더 다양한 데이터 변형을 접할 수 있게 하여, 데이터의 다양성을 효과적으로 학습할 수 있도록 돕는다. 결과적으로 mixup 기법이 모델의 과적합을 방지하고 일반화 성능을 향상시켰다. 그림 4은 mixup을 통하여 데이터가 학습된 적용된 예시를 나타내었다.

그림 4. Mixup을 통한 소 행동 이미지 데이터 학습 예시

Fig. 4. Example of training cattle behavior image data through mixup

2.4 YOLOv9

YOLO(You Only Look Once) 모델은 실시간 객체 탐지 분야에서 높은 성능을 발휘하는 알고리즘으로, 여러 버전을 거치며 지속적으로 성능이 향상되어 왔다^[18]. YOLOv9 모델의 주요 특징 중 하나는 새로운 보조 프레임워크인 PGI(Programmable Gradient Information)의 도입으로, 이는 딥러닝 모델의 정보 병목 현상을 해결하고 학습 성능을 향상시키는 역할을 한다. PGI는 네트워크의 깊은 레이어에서 발생할 수 있는 정보 손실을 줄여, 정보 보존을 강화하고 신뢰할 수 있는 gradient를 생성한다. 또한, YOLOv4에서 사용된 CSPNet과 YOLOv7에서 활용된 ELAN을 개선한 GELAN 아키텍처를 채택하여, 성능을 더욱 향상시켰다^[19,^20]. 기존의 CSPNet은 네트워크를 두 부분으로 나누어 병렬로 처리하는 과정에서 정보 손실이 발생할 수 있는 단점을 가지고 있었으며, 이는 깊은 네트워크에서 중요한 데이터의 소실로 이어져 모델 성능을 저하시킬 수 있다^[21]. 이를 해결하기 위해 개발된 GELAN은 레이어 전반에 걸쳐 이미지 특징을 효과적으로 집계함으로써 네트워크의 정확도를 높인다. CSPNet이 단일 병렬 처리 경로를 사용하여 정보 중복을 줄이는 반면, GELAN은 다중 병렬 경로를 활용하여 더 많은 데이터 경로를 처리할 수 있어, 보다 높은 성능과 효율성을 제공한다. CSPNet과 GELAN 아키텍처의 차이는 네트워크 성능과 효율성에 중대한 영향을 미치며, 다양한 모델 구조를 선택하는 데 중요한 기준이 된다. YOLOv9 모델은 파라미터와 레이어 수에 따라 s, m, c, e 모델로 세분화되며, 본 연구에서는 실시간 객체 탐지의 요구사항을 충족하기 위해 빠른 처리 속도와 낮은 메모리 사용량을 특징으로 하는 YOLOv9-s 모델을 적용하였다. 그림 5는 CSPNet과 GELAN 아키텍처의 구조를 시각적으로 나타낸 것이다.

그림 5. CSPNet 및 GELAN 구조

Fig. 5. CSPNet and GELAN Architecture

3. 연구결과

본 연구에서는 YOLOv9을 기반으로 AutoAugment와 mixup 기법을 적용하여 소의 행동을 분류하였다. 모델 학습 과정에서 과적합을 방지하기 위해 box loss, class loss 등의 손실 함수가 충분히 수렴하고, 추가적인 유의미한 감소가 발생하지 않는 시점에서 학습을 종료하였다. 표 2에는 원본 데이터와 AutoAugment를 적용한 데이터에 대한 클래스별 라벨 수를 비교하여 제시하였다. 포유 클래스를 25배를 증대하였으나 포유 클래스가 포함된 이미지에 다른 클래스나 중복된 클래스가 포함되어 최소 2.1배에서 26배 증대되었다.

표 2 원본 및 증대된 소 행동 이미지 학습 데이터셋의 구성(단위 : 개)

Table 2 Composition of original and augmented cattle behavior training datasets

Type	Number of label
Type	Original	Augment
Standing	12,081	47,806
Resting	6,592	14,192
Feeding	797	20,722
Eating	5,426	30,651

AutoAugment를 적용하여 증대한 데이터셋은 원본 데이터셋과 결합하여 최종 학습 데이터셋을 구성하였다. 학습 완료 후 모델의 탐지 성능은 Precision, Recall, mAP를 통해 평가되었다. Precision은 모델이 탐지한 소의 행동 중 실제로 정확하게 예측된 비율을 의미하는 정밀도 지표이다. Recall은 실제 소의 행동 중 모델이 얼마나 정확하게 탐지했는지를 나타내는 재현율 지표이다. 본 연구에서 사용된 mAP(Mean Average Precision)는 모든 클래스에 대한 AP의 평균값을 나타내며, 성능 평가의 주요 지표로 활용되었다. 또한, IoU(Intersection over Union)의 임계값을 0.5로 설정하여, 예측된 객체와 실제 객체의 검출 영역이 50% 이상 겹치는 경우 성공적으로 탐지된 것으로 간주하였다. 이러한 설정은 모델이 다양한 실제 환경에서 객체를 정확하게 탐지할 수 있도록 하는 기준을 제공한다. 평가지표인 Precision, Recall, AP, mAP의 수식은 아래 (2), (3), (4), (5)에 제시하였으며, TP는 True Positive, TN은 True Negative, FP는 False Positive, FN은 False Negative를 나타내었고, 표 3은 학습과 테스트의 실험환경을 나타내었다.

(2)

$Precision =\dfrac{TP}{TP + FP}$

(3)

$Recall =\dfrac{TP}{TP + FN}$

(4)

$AP =\sum_{n}(R_{n}- R_{n-1})P_{n}$

(5)

$m AP =\dfrac{1}{N}\sum_{i=1}^{N}AP_{i}$

표 3 사용된 하드웨어 및 실험환경

Table 3 Configuration of hardware and experimental environment

CPU	AMD Ryzen 5 3600X 6-Core @ 3.80 GHz
GPU	NVIDIA GeForce RTX　2060 SUPER
OS	Windows 10 x64
CUDA	CUDA 11.8 with cuDNN
Pytorch	2.1.1

평가지표를 비교한 결과, 원본 데이터셋에 비해 AutoAugment로 증대한 데이터셋이 전반적으로 우수한 성능을 보였다. 특히, mAP의 경우 AutoAugment를 적용한 모델이 전체 mAP 0.941을 기록하여, 원본 데이터셋 대비 1.5% 향상된 성능을 확인할 수 있었다. 포유(Feeding) 클래스의 경우, 라벨 수가 797개에서 20,722개로 약 26배 증가하였으며, 섭식(Eating) 클래스는 5,426개에서 30,651개로 약 5.5배 증가하였다. 이러한 데이터 증가는 모델이 학습할 수 있는 샘플의 다양성을 크게 확대하여, 각 클래스에서의 행동 인식 성능을 향상시키는 데 기여하였다. AutoAugment를 통해 데이터셋의 라벨 수가 크게 증가함에 따라, 특히 라벨 수가 적었던 포유 클래스에서 모델 성능이 현저하게 개선되었다.

데이터 증대 기법은 모델의 일반화 능력을 향상하여 AutoAugment와 mixup의 결합을 통해 원본 데이터셋에서 탐지를 정확히 못한 객체를 찾거나 인식할 확률이 최대 29% 증가한 것을 그림 6에서 확인 할 수 있다. 표 4는 딥러닝 모델을 사용하여 원본 데이터셋과 AutoAugment로 증대한 데이터셋, AutoAugmet와 mixup을 결합하여 증대한 데이터셋으로 학습한 결과를 비교한 성능을 제시하고 있다.

그림 6. 원본(좌) 및 증대된(우) 데이터셋의 탐지 결과 비교 예시

Fig. 6. Example of test results for original(left) and augmented(right) datasets in cattle behavior detection

표 4 원본, Autoaugment 및 AutoAugmen-Mixup 결합 데이터셋의 성능 비교

Table 4 Performance comparison of original, AutoAugment, and combined AutoAugment-mixup cattle behavior datasets

Model	Class	Precision	Recall	mAP
Origianl	Standing	0.898	0.944	0.974
	Resting	0.953	0.964	0.986
	Feeding	0.683	0.731	0.769
	Eating	0.907	0.955	0.976
	All	0.860	0.898	0.926
AutoAugment	Standing	0.898	0.944	0.972
	Resting	0.970	0.970	0.988
	Feeding	0.740	0.814	0.829
	Eating	0.929	0.941	0.977
	All	0.891	0.912	0.941
AutoAugmnet +mixup	Standing	0.941	0.916	0.973
	Resting	0.977	0.956	0.988
	Feeding	0.767	0.869	0.852
	Eating	0.934	0.937	0.978
	All	0.905	0.919	0.947

AutoAugment와 mixup을 결합한 데이터셋은 AutoAugment만을 적용한 데이터셋과 비교하여 mAP에서 0.6%의 성능 향상을 보였으며, 원본 데이터셋과 비교했을 때는 mAP가 2.1% 향상되었다. 이 두 가지 데이터 증대 기법을 결합함으로써 가장 큰 성능 향상이 나타났으며, 이는 모델의 성능을 향상시키는 데 효과적임을 입증하였다. 특히, 데이터의 다양성을 확장하고 모델의 일반화 능력을 강화하는 데 중요한 역할을 하였다.

4. 결 론

본 연구에서는 YOLOv9 모델을 활용하여 소의 행동을 실시간으로 탐지할 수 있는 시스템을 개발하였다. 초기 원본 데이터셋은 클래스 간의 불균형으로 인해 전체 클래스 기준 mAP가 2.1% 낮은 성능을 보였다. 이는 적은 라벨 수를 가진 클래스에서 학습 중 과적합이 발생하여 성능 저하의 원인이 되었음을 시사한다. 이러한 문제를 해결하기 위해, CIFAR-10 증대 정책을 적용한 AutoAugment 기법을 활용하여 라벨 수가 적은 포유 행동 클래스를 26배 증대시켰다. 그 결과, 원본 데이터셋에 비해 포유 행동 클래스의 mAP는 6.0% 향상되었으며, 전체 클래스의 평균 mAP 또한 1.5% 상승하였다. 더불어, AutoAugment와 mixup을 결합한 데이터셋은 원본 데이터셋 대비 전체 클래스 평균 mAP가 2.1% 향상되는 결과를 보여주었다. 이는 두 가지 데이터 증대 기법이 모델의 일반화 성능을 향상시키는 데 효과적임을 입증한다. 본 연구에서 개발된 모델은 26fps의 실시간 탐지속도를 달성하여 실제 환경에서의 적용 가능성 또한 입증하였다.

본 연구는 동영상이 아닌 이미지를 기반으로 실시간 소의 행동을 탐지하는 시스템을 개발하였으며, 이로 인해 개체 추적을 통해 각 개체의 건강 상태나 질병 여부를 판단하는 데 한계가 있었다. 향후 연구에서는 동영상 데이터를 활용하여 다양한 행동 클래스를 추가하고, 객체를 추적할 수 있는 방법을 연구할 계획이다. 향후 연구에서는 행동 클래스를 추가하고, 다양한 증대 기법을 비교 분석하여 소 행동 탐지에 최적화된 기법을 탐색 및 개선하며, 이를 고도화하는 작업이 필요하다. 나아가, 데이터 증대와 모델 구조의 수정 등 모델 성능을 강화하고 강건한 모델을 개발하는 연구도 지속적으로 수행할 것이다.

Acknowledgements

This work was supported by the National research Foundation of Korea(NRF) grant funded by the Koreaa government(MSIT) (RS-2023-00242528) and was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (No. 2022R1I1A3053872) and was supported by “Regional Innovation Strategy (RIS)” through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (MOE) (2022RIS-005).

References

Harriet Ndofor Foleng, Harriet Ndofor Foleng, Ndubuisi Samuel Machebe & Cynthia Ebere Nwobodo “Crop-Livestock Interaction for Sustainable Agriculture,” Innovations in Sustainable Agriculture, pp. 557-582, 2019. DOI:10.1007/978-3-030-23169-9_18

National Institute of Animal Science, “Smart Livestock Statistics 30,” July. 3, 2024.

Statistics Korea, “Livestock Farming Households Statistics,” https://kosis.kr/, 2023

Chen, C., Zhu, W. and Norton, T., “Behaviour recognition of pigs and cattle: Journey from computer vision to deep learning,” Computers and Electronics in Agriculture, vol. 187, pp. 106255, 2021. DOI:10.1016/j.compag.2021.106255

Y. Peng, Z. Zeng, E. Lv, X. He, B. Zeng, F. Wu and Z. Li, “A real-time automated system for monitoring individual feed intake and body weight of group-housed young chickens,” Applied Sciences, vol. 12, no. 23, pp. 12339, 2022. DOI:10.3390/app122312339

Zheng, Z., Zhang, X., Qin, L., Yue, S. and Zeng, P., “Cows' legs tracking and lameness detection in dairy cattle using video analysis and Siamese neural networks,” Computers and Electronics in Agriculture, vol. 205, pp. 107618, 2023. DOI:10.1016/j.compag.2022.107618

Hu, H., Dai, B., Shen, W., Wei, X., Sun, J., Li, R. and Zhang, Y., “Cow identification based on fusion of deep parts features,” Biosystems Engineering, vol. 192, pp. 245-256, 2020. DOI:10.1016/j.biosystemseng.2020.02.001

Fuentes, A., Yoon, S., Park, J. and Park, D. S., “Deep learning-based hierarchical cattle behavior recognition with spatio-temporal information,” Computers and Electronics in Agriculture, vol. 177, pp. 105627, 2020. DOI:10.1016/j.compag.2020.105627

Molapo, M., Tu, C., Du Plessis, D. and Du, S., “Management and monitoring of livestock in the farm using deep learning,” 2023 International Conference on Artificial Intelligence, Big Data, Computing and Data Communication Systems (icABCD), pp. 1-6, IEEE, Aug. 2023. DOI:10.1109/icABCD.2023.10220556

Li, Z., Song, L., Duan, Y., Wang, Y. and Song, H., “Basic motion behaviour recognition of dairy cows based on skeleton and hybrid convolution algorithms,” Computers and Electronics in Agriculture, vol. 196, pp. 106889, 2022. DOI:10.1016/j.compag.2022.106889

Fang, C., Li, C., Yang, P., Kong, S., Han, Y., Huang, X. and Niu, J., “Enhancing Livestock Detection: An Efficient Model Based on YOLOv8,” Applied Sciences, vol. 14, no. 11, pp. 4809, 2024. DOI:10.3390/app14114809

E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and Q. V. Le, “Autoaugment: Learning augmentation strategies from data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 113-123, 2019. DOI:10.1109/CVPR.2019.00020

H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, “mixup: Beyond empirical risk minimization,” arXiv preprint arXiv:1710.09412, 2017. DOI:10.48550/arXiv.1710.09412

A. Krizhevsky, “Learning multiple layers of features from tiny images,” Technical report, 2009. DOI:10.1.1.222.9220

J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255, 2009. DOI:10.1109/CVPR.2009.5206848

Y. Netzer, T. Wang, A. Coates, A. Bissacco, B. Wu, A. Y. Ng, “Reading Digits in Natural Images with Unsupervised Feature Learning,” Neural Information Processing Systems (NIPS), vol. 2011, no. 2, pp. 4, 2011. DOI:10.48550/arXiv.1109.4165

Zhang, Z., Liu, C., Shen, C. & Cao, L. “Bag of freebies for training object detection neural networks,” arXiv preprint arXiv:1902.04103, 2019. DOI:10.48550/arXiv.1902.04103

C. Y. Wang, I. H. Yeh, and H. Y. M. Liao, “Yolov9: Learning what you want to learn using programmable gradient information,” European Conference on Computer Vision, pp. 1-21, Springer, Cham, 2025. DOI:10.1007/978-3-031-72751-1_1

A. Bochkovskiy, C. Y. Wang, and H. Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020. DOI:10.48550/arXiv.2004.10934

C. Y. Wang, A. Bochkovskiy, and H. Y. M. Liao, “YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7464-7475, 2023. DOI:10.48550/arXiv.2207.02696

C. Y. Wang, H. Y. M. Liao, Y. H. Wu, P. Y. Chen, J. W. Hsieh, and I. H. Yeh, “CSPNet: A new backbone that can enhance learning capability of CNN,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 390-391, 2020. DOI:10.1109/CVPRW50498.2020.00203

저자소개

이수빈(Su-bin Lee)

Su-bin Lee received the B.S. degree in Electrical and Electronic Engineering from Kangwon National University, South Korea in 2017. He is currently working toward M.S. degree in Department of Data Science from Kangwon National University, South Korea.

박재범(Jae-beom Park)

Jae-beom Park currently working toward B.S and M.S. degree in Interdisciplinary Graduate Program for BIT Medical Convergence from Kangwon National University, South Korea.

조현종(Hyun-chong Cho)

Hyun-chong Cho received his M.S. and Ph.D. degrees in electrical and computer engineering from the University of Florida, USA, in 2009. During 2010–2011, he was a Research Fellow at the University of Michigan, Ann Arbor, USA. From 2012 to 2013, he was a Chief Research Engineer at LG Electronics, South Korea. He is currently a Professor with the Department of Electronics Engineering and Interdisciplinary Graduate Program for BIT Medical, Kangwon National University, South Korea.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Real-Time Detection of Cattle Behavior Using YOLOv9 with AutoAugment and Mixup Data Augmentation Techniques

Translated Abstract

Key words

1. 서 론

2. 본 론

2.1 데이터셋 제작

2.2 AutoAugment

2.3 Mixup

(1)

2.4 YOLOv9

3. 연구결과

(2)

(3)

(4)

(5)

4. 결 론

Acknowledgements

References

저자소개

이수빈(Su-bin Lee)

박재범(Jae-beom Park)

조현종(Hyun-chong Cho)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Real-Time Detection of Cattle Behavior Using YOLOv9 with AutoAugment and Mixup Data Augmentation Techniques

Translated Abstract

Key words

1. 서 론

2. 본 론

2.1 데이터셋 제작

2.2 AutoAugment

2.3 Mixup

(1)

2.4 YOLOv9

3. 연구결과

(2)

(3)

(4)

(5)

4. 결 론

Acknowledgements

References

저자소개

이수빈(Su-bin Lee)

박재범(Jae-beom Park)

조현종(Hyun-chong Cho)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers