최종 프로젝트 2주차

이번주는 산출물 작성 및 데이터 조사/수집으로 바쁜 주간이었다.

살면서 이렇게 카드사 홈페이지를 하루종일 며칠 동안이나 들여다보게 될 줄 누가 알았을까


프로젝트 주제

카드사 상담원의 업무 효율성 향상을 위한 AI 기반 실시간 문서 검색 및 상담 후 피드백 지원 시스템

 

 

1. 데이터 고민

카드사로 선정하면서 우선 가장 큰 장점은 데이터가 방대하다는 것이었다.

카드 상품만 해도 몇 백 개 단위고, 각 카드마다 연결된 제휴 브랜드, 혜택, 관련 카드 등

카드라는 게 워낙 많은 사람들이 일상적으로 사용하는 물건이다보니 꽤 여러 방향으로 탐색할 수 있었다.

 

내일배움카드교통패스 같은 국가 정책과 엮여있는 케이스도 다양한데,

이런 정책 관련 내용은 카드사에서 어디까지를 다루어야 하는지도 고민이 필요했다.

그래서 금감원 홈페이지도 모자라 금융법과 소비자보호법까지 뒤져보면서 의도치 않은 지식들도 얻어왔다.

 

고객들의 행동 패턴 역시 중요하다.

나라면 어떤 상황에 뭐가 궁금할지, 상담원한테 전화까지 하는 상황이라면 어떤 문의일지,

기존 카드사들에 빈도 높게 들어오는 유형이 무엇인지 등등

이 부분에서 팀원들과 정말 많은 의견을 나눴다.

 

 

2. 쉽지 않다.

탐색하면서 든 생각은 데이터가 너무 많고 흩어져있다...

유사하거나 아예 같은 카테고리의 내용인데도 서로 다른 페이지에 적혀있고,

한 쪽에 적혀있는 내용이 다른 쪽엔 없어서 뭔가 기준이 다른가? 싶기도 하고,

카드 분실이나 한도 확인 같은 건 내가 직접 신청해야 후속 정보가 나와서 정확히 어떤 프로세스로 처리하는지도 모호하다.

 

무엇보다,

일반 고객들 보라고 이쁘게 홈페이지에 박혀있는 이 내용들을

텍스트로 어떻게 정리해서 어떤 형식으로 전처리해야하는가? 참 난감하다.

약관이나 상품안내를 pdf로 주는건 다행인데 문제는 표가 너무 많다! 추출이 문제다.

 

 

3. 수집 계획

시간은 가고, 서둘러 데이터 수집에 착수해야 했다.

우리팀은 다음과 같이 데이터를 모아보기로 결정했고, 깃허브에 데이터 관리용 레포를 따로 만들어 push하기로 했다.

1. 카드사의 카드 상품 (제휴카드 포함)
2. 특수 목적 카드 (K패스 등)
3. 이용약관, 개인정보 방침 등 법률 기반 안내
4. 해외이용, 신용카드 용어, 대출안내 등 소비자 가이드
5. 실제 상담 데이터
6. 카드사가 주목하는 사회 이슈 (정보유출 사건, 사칭 사기, 보이스피싱 등)

 

나는 여기서 3, 4, 6을 담당했다.

3, 4는 크롤링으로 해결되는 영역이었고

6은 카드사의 '공지사항' 페이지를 대상으로 조사했는데, 페이지가 CSR 형식으로 되어있어 HTML 안에 데이터가 없었고, 동적 크롤링을 시도했으나 보안 이슈로 페이지 구조가 탐지가 안되어 수동으로 수집 후 전처리를 거쳤다...

+ Recent posts