“구글에 맞선다”..미국 AI회사가 ‘봇 탐지기’에 이더리움 활용 이유는

봇 방지 프로그램, 일명 봇 탐지기(bot detecter)는 인터넷 웹 사이트를 로그인 할때 종종 마주치게 된다. 일부 코인 거래소는 가입자들이 로그인할 때마다 ‘난 봇(자동화 프로그램)이 아니다’라는 걸 증명하기 위해 퍼즐 조각을 맞춰야 한다. 빈 구멍에 조각을 제대로 선택해야만 내가 인간임을 증명하게 되는  것이다. 

구글 크롬 웹사이트 가입을 시도하면 ‘도로 표지판에 해당하는 사진을 고르라’는 화면을 볼 수 있다. ‘내가 로봇이 아니다’는 문구와 함께 공란에 체크하거나 임의의 숫자, 문자 배열을 그대로 적는 방식을 넘어서 이미지를 식별해서 인간임을 증명하는 단계까지 온 셈이다.

구글 봇 탐지기 리캡쳐(recaptcha)의 예시. (이미지 출처 : 레딧)

일각에선 구글의 이 절차가 ‘인공지능(AI)을 훈련하려는 용도’라고 주장한다. 실제 지난 2012년 미 IT매체 테크크런치는 “최근 구글 봇 탐지기에서 구글 거리뷰에서 따온 것으로 보이는 집주소 번호들이 종종 보인다”며 “구글에 따르면 스팸을 방지하는 이 프로그램을 통해 도로명이나 주소를 식별, 구글맵 데이터를 개선하기 위한 실험을 하고 있다”고 보도한 바 있다. 

지난달 IT매체 패스트컴퍼니 보도에 따르면 구글의 봇 탐지기 리캡쳐(recAPTCHA) 신규 버전(v3)을 쓰는 웹사이트는 로그인 뿐 아니라  웹사이트 모든 페이지에 이 프로그램의 코드를 내재하도록 권장한다. 이후 구글 봇 탐지기는 웹사이트 사용자의 행동을 분석해 위험도를 평가한다. 웹 사용자가 자동차, 신호등, 도로 표지판, 인간 등을 일일이 확인해야 하는 행동도 구글 알고리즘이 현실 세계를 잘 구분하도록 트레이닝시키고 있다는 주장이 나오는 이유다. 

미국의 인공지능 스타트업 인튜이션머신의 엘리-사울 케두리(Eli-Shaoul Khedouri) 대표도 구글이 광범위하게 사용자 행동 패턴을 수집해 활용한다고 우려하는 인물 중 하나다. 

지난달 28일 미국 샌프란시스코에서 만난 케두리 대표는 “인공지능이 기업 단 1% 만 쓸 수 있는 기술이 되고 있다”고 우려했다. 이번 달 이더리움을 활용해 이미지 분류 작업에 암호화폐 보상을 주는 봇 탐지기를 출시한 후 진행된 서면 인터뷰에서도 그는 “인공지능이 사람의 노동력에서 시작되는만큼 블록체인 기술을 활용해 (정당한) 대가를 지불하는 창구를 마련할 수 있다”고 강조했다.

Q.인튜이션머신 팀에 대해 먼저 소개해주세요.

우린 미국 샌프란시스코를 기반으로 한 인공지능 회사입니다. 핀란드 헬싱키, 독일 베를린에도 오피스가 있어요. 우리 팀원들은 애플, 구글, 아마존, 클라우데라(Cloudera) 출신이고, MIT, 스탠퍼드를 졸업했어요. 개방적인 협력을 믿는 사람으로서 인공지능, 기계학습 컨퍼런스에도 정기적으로 연구결과를 발표하고 오픈소스 소프트웨어에도 기여하고 있습니다.

인튜이션머신 팀이 개발한 봇 탐지기 예시. (이미지 출처 : 에이치캡쳐)

Q.‘봇 탐지기’가 무엇인가요? 왜 ‘봇 탐지기’ 제품을 개발하게 됐나요?

‘봇 탐지기’는 웹 스팸을 포함한 ‘봇’을 막기 위해 사용됩니다. 동시에 봇 탐지를 위한 질문을 할 때 사람들이 응답을 제출함으로서 유용한 노동력을 수집할 수도 있습니다.

예컨대 구글이 쓰고 있는 리캡쳐를 떠올릴 수 있습니다. 봇이 아니라는 걸 증명하기 위해 ‘자동차 그림을 고르라’거나 ‘신호등 그림을 고르라’고 하죠. 이 그림을 골라주는 작업은 곧 구글이 자율주행차를 준비하는 데 필요한 이미지 인식용 기계학습 데이터로 쓰일 수 있습니다. (기계를 학습시키는 데) 사람의 주석이 상당량 필요합니다. 이렇게 라벨이 붙여지면 데이터의 가치는 올라가죠. 사람들은 자기도 모르는 새 무료로 구글의 기계학습을 도와주는 셈이죠.

이번에 저희가 선보인 에이치캡쳐(hCaptcha)는 구글의 안티봇 서비스를 대신할 제품입니다. 블록체인 상에 기록하는 자동화 계약 프로그램(스마트컨트랙트)는 인공지능 데이터를 외부에서 구하는 작업에서 그 과정과 결과에 대해 서로 믿어야만 하는 소위 ‘신뢰 문제’도 일정 부분 해소합니다.  

구글은 안티봇으로 수집한 작업량을 무료로 가져갑니다. 이와 달리 에이치캡쳐는 그 작업에 대한 비용을 지불하기 때문에 더 공정하다고 생각합니다. 웹사이트 사용자는 방문객의 봇 방지 프로그램 사용량을 암호화폐 보상으로 받고, 대신 (방문객의 데이터를 기반으로 한) 광고 판매에 기대지 않아 사용자 프라이버시는 더 효과적으로 보호한다는 점이 다릅니다.

Q.에이치캡쳐 서비스에서 이더리움은 어떤 역할을 하나요?

이더리움 블록체인과 스마트컨트랙트를 활용해 에이치캡쳐의 바탕이 되는 휴먼 프로토콜에 동력을 공급합니다. 서비스에 가입한 모든 웹사이트 관리자는 이더리움 지갑 주소를 제공받습니다. 물론 인터페이스상에서 보상을 받는 전자지갑을 ‘이더리움 지갑’이라 부르진 않지만요. 마치 광고를 노출해 광고비를 받는 것처럼 봇 탐지기를 운영해 그 운영비를 버는 셈입니다.

현재 크고 작은 회사들이 이미 에이치캡쳐를 쓰고 있습니다. 이들이 블록체인에 대해 따로 생각할 필요 없이 안티봇 서비스를 편리하게 사용하도록 개발했습니다. 서비스 계약만 하면 나머지는 휴먼 프로토콜이 나머지 작업을 도맡습니다.

웹사이트 방문객이 봇 탐지기를 쓰면 웹사이트 제공자는 광고비가 아닌 암호화폐 보상을, 인공지능 회사는 인간이 재확인한 식별 데이터를 받게 된다. 방문객은 데이터 추적을 받지 않아 프라이버시를 지킬 수 있다. (이미지 출처 : 에이치캡쳐)

Q.휴먼 프로토콜이 봇 탐지에 대한 보상을 웹사이트에 되돌려주는 것 외에 어떤 예시에 적용될 수 있나요?

사업 외주 프로세스에서도 휴먼 프로토콜이 쓰일 수 있습니다. 예를 들어 설문에 응답하는 작업을 외부에 맡길 때를 가정해볼게요. 5명에게 질문을 하고 답변 데이터를 받을 경우 모델 내에 안전장치를 둬서 예상치와 비교했을 때 전혀 다른 결과물을 제출했다면 자동으로 피드백을 줄 수 있어요. 법적 프레임이 아직 미비한 국가에 소재한 기업과 비즈니스 계약을 맺을 때도 신뢰 문제를 해결할 수 있고요. 업무 결과물이 성사되 면 토큰이 자동으로 지급되는 시스템이 가능합니다. 대기업 입장에선 (이 프로토콜을 플랫폼 삼아) 인프라 부담이나 리스크를 줄일 수 있습니다. 

Q.인튜이션머신 팀의 향후 계획이 궁금합니다.

인공지능은 이제 막 주요 비즈니스를 향하고 있습니다. 앞으로 더 발전하겠지만, 인간의 도움이 많이 필요합니다. 예컨대 아마존의 인공지능 스피커 알렉사가 사람들의 명령어 덕분에 나날이 발전하는 것과 같습니다. 광학식 문자 판독(OCR, 스캐닝) 소프트웨어로서 인공지능이 사람의 노동력으로부터 시작되는 것도 마찬가지고요.

블록체인 기술을 활용하면 기계가 스스로 개선되는 데 필요한 도움을 인간에게 요청하고, 동시에 대가를 지불하는 새로운 창구를 마련할 수 있습니다. (이런 전망을 바탕으로) 저희 팀은 올해 이 사업으로 더 많은 사용자를 확보하고, 블록체인 기술에 기반을 둔 기업용 솔루션도 도입할 계획입니다. 

관련 기사 : “진료기록, 환자가 가져가세요”…서울대병원 뛰어든 ‘마이데이터’는

썸네일 출처 : 에이치캡쳐