인공지능(AI) 분야에서 데이터 품질 하락을 걱정하는 목소리가 높아지고 있다.
암 진단, 야생동물 밀렵, 신용도 예측과 같은 고위험 분야에서 데이터 품질은 매우 중요하지만 역설적으로 데이터는 AI 산업에서 가장 저평가된 부분이다.
구글 연구팀은 인도, 아프리카, 미국의 AI 종사자 53명을 대상으로 이 문제를 분석한 논문을 발표했다.
논문에서는… techneedle.comby 이상현
인공지능(AI) 분야에서 데이터 품질 하락을 걱정하는 목소리가 높아지고 있다.
암 진단, 야생동물 밀렵, 신용도 예측과 같은 고위험 분야에서 데이터 품질은 매우 중요하지만 역설적으로 데이터는 AI 산업에서 가장 저평가된 부분이다.
구글 연구팀은 인도, 아프리카, 미국의 AI 종사자 53명을 대상으로 이 문제를 분석한 논문을 발표했다.
논문에서는 저평가된 데이터 품질로 인해 문제가 점점 더 심각해지고 이후 결과에 부정적인 영향을 미치는 Data Cascade 현상에 대한 증거를 제시한다.
Data Cacade 현상은 AI 산업에 92% 수준으로 만연하고 있다.
논문에 의하면, 데이터는 성능, 공정성, 견고성, 안정성, 확장성에 크게 영향을 주는 반면, AI 연구 개발 분야에서 가장 장려되지 않는 부분이며, 알고리즘이나 모델 작업과 같이 취급되는 대신에 운용 작업으로 여겨진다(AI 에 대해 모델은 데이터로부터 학습된 수학적 알고리즘을 의미한다).대부분의 기업에서 데이터 품질관리가 제대로 안 돼 3%의 회사만이 기본적인 데이터 품질기준을 충족한다는 연구결과도 있다.
이제부터 시작된 문제는 임신부의 건강, 도로안전, 기후변화, 암 진단 같은 고위험 분야에서 큰 영향을 미친다.
Data Cascade 문제는 다음 네 가지 요소에 의해 영향을 받는다.
데이터 분야를 소홀히 하는 AI 보상과 장려 시스템: 데이터 품질 향상은 추적이 쉽지 않고 따라서 보상도 어렵다.
데이터 품질이 미흡한 AI 교육 : 캐글(Kaggle)과 같은 온라인 AI 교육 시스템에서는 실무와는 다르게 정리된 데이터 셋을 제공한다.
어려운 데이터 구축: 지역, 인구, 현상, 씨앗과 같은 특화된 데이터가 필요한 분야가 있지만, 특히 디지털화되지 않은 말라리아 전파와 같은 데이터는 구축이 어렵다.
후속 책임 : 주요 AI 분야는 생명에 직접적인 영향을 미치며, AI 종사자들은 데이터 부족과 후속 방법론으로 인한 문제에 부닥친다.
만약 눈병을 예측하는 모델이 문제 있는 사람을 예측하면 그 사람은 장님이 되거든요라고 아프리카의 의료 종사자들은 말한다.
이 문제를 해결하기 위해 데이터 처리를 더러운 것으로 간주하는 것에서 벗어나 데이터 품질과 가시성을 개선하는 데 집중할 필요가 있다.
덧붙여 보상 시스템을 개선해, 실무 데이터의 상황을 고려한 AI 교육을 실시하는 것이 이 문제를 해결할 수 있는 방법이라고 논문에서는 말하고 있다.
테크니들 인사이트의 필자가 현업에서 AI 프로젝트에 참여하면서 느낀 점은 연구나 모델링보다 데이터와 엔지니어링 작업이 압도적으로 많다는 점이다.
보통 하나의 AI 프로젝트를 출시하려면 데이터를 찾아 분석한 뒤 파이프라인을 만들어 백엔드 서비스와 연동해 배포자동화를 하고, A테스트를 통해 성능을 측정해 모델이 제대로 작동하는 결과가 나와야 한다.
그리고 모니터링과 유지관리 작업이 계속된다.
이 과정에서 알고리즘 및 모델링 작업이 차지하는 비중은 크지 않다.
AI에서 모델이나 알고리즘은 핵심적이지만 그런 만큼 집중해서는 좋은 결과를 낼 수 없다.
출처 : Google Research