[Opinion] '로봇이 아닙니다' [문화 전반]

캡차코딩과 고서복원
글 입력 2021.10.17 21:10
댓글 0
  • 카카오 스토리로 보내기
  • 네이버 밴드로 보내기
  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글 플러스로 보내기
  • 글 스크랩
  • 글 내용 글자 크게
  • 글 내용 글자 작게

 

 

요즘 길거리를 걸으면 코딩학원을 자주 볼 수 있다. 코딩이 더 이상 선택이 아니라 필수인 시대가 도래했음을 실감한다. 그동안 국어, 영어 등 다양한 언어를 배우는 것이 사람과 사람 사이의 커뮤니케이션을 위한 것이었다면 4차 산업혁명 시기 코딩교육은 인공지능을 비롯한 컴퓨터와의 소통 증진을 위함이다. 급변하는 시대에 맞추어 대화할 수 있는 언어 또한 변화를 거듭한 결과라 할 수 있다.

 

오늘날 영어가 필수 언어로 중요해진 것은 글로벌 시대로의 도약 탓이 크다. 사회가 보다 국제화되는 과정에서 글로벌 비즈니스를 위해 외국인과 대화할 수 있는 언어를 습득하는 것이 중요했기 때문이다. 마찬가지로 앞으로 인공지능과 함께 살아가기 위해서는 인공지능과 소통할 수 있는 방법을 아는 것이 점점 더 중요해질 것이다.

 

우리는 사람이 아닌 것을 이해하고 소통해야 하는 시대에 살고 있다. 꼭 IT 관련 직종이 아니더라도 현재 IT 산업의 발전 속도를 보면, 코딩에 대한 전반적인 이해가 디지털화 되는 세상에 적응하는데 있어 핵심적인 무기가 되어줄 것임은 분명하다. 본 글은 너무나 중요해진 코딩기술이, 사회공익에 기여할 수 있는 방안을 다룬다. 리캡차 코딩을 활용한 고서 복원을 예시로 글을 풀어나가고자 한다.

 

코딩은 컴퓨터 프로그래밍 방법을 의미한다. 코딩을 통해 작은 홈페이지부터 다양한 프로그램, 궁극적으로 컴퓨터가 작동하는 방법을 설계하는 것이다. 본 글에서 다루는 캡차 코딩은 ‘Completely Automated Public Turing test to tell Computers and Humans Apart’의 약자로 사람과 완전 자동화된 컴퓨터를 구별하는 HIP (Human Interaction Proof) 기술의 일종이다. 사용자가 실제 사람이 맞는지, 아니면 컴퓨터 프로그램인지 구별하는 것이다.

 

주로 해당 코딩은 컴퓨터는 인식할 수 없으나 사람은 쉽게 인식할 수 있는 텍스트, 이미지를 활용해 사람과 컴퓨터를 구별해낸다. 아래 사진처럼 의도적으로 비튼 그림 등을 제시하고, 해당 그림에 쓰여진 내용을 물어보는 식이다. 일반적으로 광고성 게시물, 아이디 자동생성, 계정해킹을 방지하거나 이메일 주소를 보호하기 위해 많이 사용된다.

 

 

[크기변환]캡차.jpg

 

 

많은 종류의 캡차 중 reCAPTCHA는 기존의 캡차에 집단 지성이 더해진 기술을 이른다. 캡차 출시 이후, 매일 2억개에 달하는 캡차가 전세계에서 입력되며 날마다 약 50시간 정도가 캡차 문제를 푸는데 소비된다고 한다. 그리고 이 긴 시간을 어떻게 하면 유용하게 쓸 수 있을지 연구원들의 고민 속 리캡차가 탄생하게 된다. 리캡차를 활용해 프로그램이 인식하지 못하는 글자들을 사람이 읽도록 하여 고문서 복원 작업에 동참 시키는 것이다.

 

오래된 문서를 텍스트로 만들기 위해서는 OCR 프로그램을 사용하는데, 본 프로그램은 낙서나 얼룩, 해짐 등 방해요소가 있으면 텍스트를 제대로 인식하지 못하는 문제점이 있다. 이런 단어는 사람이 수작업으로 판독해야만 하므로 노동력과 인건비, 많은 시간이 필요하다. 리캡차는 해당 문제를 캡차를 통해 해결하자는 것이다. 해독이 어려운 고문서들을 디지털 파일로 스캔하여 조각조각 캡차 시스템에 덧붙인 후 사람들의 의견을 모으는 방식이다.

 

리캡차가 기존의 캡차 코딩과 차별화되는 점은 두 단어를 입력하는 점이다. 앞 단어는 사용자가 컴퓨터가 아닌지 판단하기 위한 단어로, 첫 번째 단어를 제대로 입력하면 사람으로 인정한 뒤 두 번째 단어로 넘어간다. 두 번째의 경우 고문서에서 스캔한 글자로 해당 단어를 입력하면 고문서 해독에 참여한 것이 된다. 해당 과정을 여러 번 반복하여 높은 비율로 입력된 단어를 선택해 실제 고문서 해독 텍스트로 적용한다. reCAPTCHA 기술을 통해 수억 개의 단어, 연간 250만권 정도의 책을 해독하여 실제 많은 고서가 복원에 성공했다고 한다. 리캡차는 2009년 구글에 인수되어 ‘구글북스’ 프로젝트에 활용되고 있다.

 

ReCAPTCHA 활용의 대표적인 사례는 프로젝트 구텐베르크이다. 프로젝트 구텐베르크는 “세상에 존재하는 모든 책을 디지털화하고, 지구상의 모든 사람들이 보존된 자료를 이용할 수 있도록 한다”는 목표를 가지고 고서 복원 등 다양한 분야의 서적 디지털화 사업을 진행하고 있다. 실제 프로젝트 구텐베르크 사이트에 회원가입만 하면 누구나 무료로 전자 문서 형태의 자료를 열람할 수 있다.

 

 

[크기변환]구텐베르크.jpg

 

 

아마 우리 중 상당수가 이미 프로젝트 구텐베르크에 참여했을지도 모른다. 초기에는 자원봉사자가 고서를 일일이 타이핑하거나 촬영, 혹은 스캔하는 형식이었고 문자 인식 시스템이 구축된 이후로는 컴퓨터가 고문서를 스캔해 글자 이미지를 텍스트로 옮겼다.

 

하지만 앞서 언급했듯 고서의 보존상태가 좋지 않을 경우 한계가 있었고 사람이 육안으로 직접 확인해야만 하는 번거로움이 따랐다. 이런 문제를 해결한 것이 바로 구텐베르크 프로젝트와 리캡차 기술의 융합이다. 본 사례는 인류의 지적 문화 유산을 보존하고 관리한다는 인문학적 목표를 표방하는 프로젝트에 코딩기술이 더해져 사회 공익에 기여한 긍정적 경우로 꼽힌다.

 

리캡차를 통한 고서복원 사례는 거창한 기술력이나 완전히 새로운 것을 요구하지 않는다. 기존 기술에 문제 해결을 위한 아이디어를 더했을 뿐이다. 하지만 이 아이디어는 옛 인류의 역사를 담고 있는 고문서 복원이라는 결과를 이끌어 냈다. 사이버 공간 속 이름 모를 수많은 사람들의 도움과 함께 말이다. reCAPTCHA 기술은 가상공간과 이를 활용한 집단지성, 간단한 코딩만 있어도 큰 변화를 이끌 수 있음을 보여준다.

 

코딩은 분명 21세기를 이끌어갈 국제적인 ‘언어’이다. 그리고 이 기술을 ‘어떻게’ 활용할 지는 우리에게 남겨진 과제일 것이다. 혼란의 시대를 지혜롭게 헤쳐 나갈 수 있도록, 변화하는 시대 속 인류가 보다 나은 방향으로 그 발걸음을 뗄 수 있도록, 코딩 기술을 비롯한 다양한 기술이 보다 사회의 공익에 기여하는 방향으로 활용되기를 진심으로 바라며 본 글을 마친다.

 

 

[포맷변환][크기변환]로봇.jpg


 

[이시현 에디터]



<저작권자 ⓒ아트인사이트 & www.artinsight.co.kr 무단전재-재배포금지.>
 
 
 
 
 
등록번호/등록일: 경기, 아52475 / 2020.02.10   |   창간일: 2013.11.20   |   E-Mail: artinsight@naver.com
발행인/편집인/청소년보호책임자: 박형주   |   최종편집: 2024.04.25
발행소 정보: 경기도 부천시 중동로 327 238동 / Tel: 0507-1304-8223
Copyright ⓒ 2013-2024 artinsight.co.kr All Rights Reserved
아트인사이트의 모든 콘텐츠(기사)는 저작권법의 보호를 받습니다. 무단 전제·복사·배포 등을 금합니다.