클래스: 데이터 과학 학습: 기본 이해

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 23,200개를 수강하세요.

체계화되지 않은 데이터 수집

체계화되지 않은 데이터 수집

우리는 많은 일을 겪었으므로 간단히 요약해 보겠습니다. 일반적으로 데이터 과학 팀은 다른 데이터 유형 세 가지로 작업할 겁니다. 구조화된 데이터가 있습니다. 스프레드시트의 데이터와 가장 유사한 데이터입니다. 정해진 순서와 일관된 형식이 있습니다. 일반적으로 관계형 데이터베이스에 저장됩니다. 그런 다음 반구조화된 데이터가 있습니다. 그것은 일부의 구조를 가진 데이터입니다. 그러나 일부 필드 이름을 변경할 수 있는 유연성이 추가되었습니다. 마지막으로 가장 인기 있는 데이터 유형이 있습니다. 다른 모든 것이 있습니다. 구조화되지 않은 데이터입니다. 일부 분석가는 데이터의 80%가 비구조화된 데이터라고 추정합니다. 그것에 대해 생각할 때이것은 많은 의미가 있습니다. 매일 창출하는 데이터에 대해 생각해 보십시오. 음성 메일을 남길 때마다, Facebook에 업로드하는 모든 사진, 직장에서 만든 Microsoft Word 메모 또는 PowerPoint 프레젠테이션. 그들의 웹을 검색해도 대부분 구조화되지 않았습니다. 고양이에 대한 검색은 비디오, 노래, 책, 심지어 음악까지 가져올 것입니다. 이 모든 데이터의 공통점은 무엇입니까? 음, 그것이 핵심 과제 중 하나입니다. 짧은 대답은 많지 않습니다. 스키마 목록입니다. 스키마는 지도와 같다는 것을 기억하십시오. 데이터의 필드, 테이블 및 관계를 보여줍니다. 비구조화된 데이터로는 그럴 수 없습니다. 비구조화된 데이터의 경우 형식은 파일에 따라 다릅니다. Microsoft Word 문서에는 설정된 형식이 있을 수 있습니다. 그러나 해당 형식은 해당 응용 프로그램에서만 사용됩니다. 모든 텍스트 문서의 형식이 아닙니다. 그래서 일반적으로 다른 프로그램의 Microsoft Word 문서를 편집할 수 없습니다. 이는 또한 설정된 데이터 모델이 없음을 의미합니다. 필드 이름과 데이터를 찾을 일관된 위치가 없습니다. 수십 개의 다른 파일 유형의 제목과 내용을 어떻게 알 수 있습니까? 그 중 일부가…

목차