클래스: 데이터 과학 학습: 기본 이해

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 23,200개를 수강하세요.

큰 쓰레기를 통해 걸러내기

큰 쓰레기를 통해 걸러내기

비정형 데이터는 완전히 새로운 일련의 과제를 제시합니다. 가장 먼저 마주치는 질문 중 하나는 일부 데이터를 삭제할 것인지 여부입니다. 데이터 과학 팀이 데이터에 과학적인 방법을 사용한다는 점을 기억하세요. 흥미로운 질문을 할 수 있기를 원하므로 질문하고 싶은 질문에 제한이 있는지 결정해야 합니다. 데이터의 일부를 보관하고 버려야 한다는 좋은 주장이 있습니다. 일부 데이터 분석가는 묻고 싶은 모든 질문을 결코 알지 못할 것이라고 주장합니다. 또한 방대한 양의 데이터를 유지하는 것이 상대적으로 저렴하며 일반적으로 기가바이트당 몇 센트에 불과합니다. 무엇을 버릴지 실제 결정을 내리기보다는 보관하는 편이 낫습니다. 장기 보존 회의에 시간을 보내는 것보다 새 하드 드라이브를 구입하는 것이 더 저렴할 수 있습니다. 반면에 일부 분석가는 데이터를 버려야 한다고 주장합니다. 빅 데이터 클러스터에는 많은 쓰레기가 있습니다. 쓰레기가 많을수록 쓰레기가 많을수록 흥미로운 결과를 찾기가 더 어려워집니다. 일부 분석가들은 이 데이터를 노이즈라고 부릅니다. 진정한 투쟁입니다. 많은 데이터 과학 팀이 여전히 이를 파악하려고 노력하고 있습니다. 그 많은 쓰레기는 어떻게 처리하나요? 한때 이 문제에 직면한 회사에서 일했습니다. 잠재적인 자동차 구매자와 자동차 대리점을 연결하는 웹사이트를 소유했습니다. 고객이 웹사이트에서 본 모든 것을 기록하는 태깅 시스템을 만들었습니다. 이미지를 롤오버할 때마다 데이터베이스는 새 레코드를 추가합니다. 가는 모든 곳에서 도달한 모든 링크는 이 태그 시스템에 의해 수집되었습니다. 시스템은 수천 개의 태그로 성장했습니다. 각 태그에는 수백만 건의 거래가 있었습니다. 태그가 캡처한 데이터가 무엇인지 이해하는 사람이 회사에 거의 없었기 때문에 흥미로운 보고서를 작성하기가 어려웠습니다. 그들은 얼마나 많은 사람들이 태그를 넘겼는지 파악할 수 있었지만 태그가 무엇을 의미하는지 아는 사람은 소수에 불과했습니다. 구조화되지…

목차