大数据:数据采集和存储

Big Data: adquisición y almacenamiento de datos

1163 次查看
巴塞罗那自治大学
Coursera
  • 完成时间大约为 19 个小时
  • 中级
  • 西班牙语
注:本课程由Coursera和Linkshare共同提供,因开课平台的各种因素变化,以上开课日期仅供参考

课程概况

¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones Big Data?

En este curso aprenderás los principios para comprender la terminología, conceptos básicos y herramientas más importantes para resolver problemas de análisis de datos enfocándonos en los problemas y las aplicaciones. El objetivo es proporcionar una visión de sistema para entender los retos más importantes que nos encontramos cuando trabajamos en entornos con grandes volúmenes de datos.

En el curso se plantea una introducción a diversas herramientas utilizadas de forma común en la comunidad como Hadoop, Spark o Hive y tendrás que resolver diferentes retos de análisis de datos mediante su uso.

Al terminar el curso habrás adquirido conocimientos sobre el ecosistema de herramientas Big Data incluyendo ejemplos de uso con problemas industriales y científicos. Tendrás una serie de recursos sobre cómo un análisis a realizar se traduce en una serie de operaciones de recolección de datos, monitorización, almacenamiento, análisis y creación de informes sobre los resultados obtenidos. También adquirirás un criterio para elegir cuál es la herramienta más adecuada para resolver un cierto problema de análisis de datos a partir de los requerimientos de uso de las herramientas.

El curso está orientado tanto a estudiantes universitarios de primeros cursos de estudios universitarios relacionados con la informática, la ingeniería o las matemáticas, como a otros estudiantes con conocimientos de programación, interesados en aprender cómo utilizar de análisis de datos con herramientas de código abierto. Para realizar los ejercicios es necesario utilizar una máquina virtual que deberá ser instalada en tu ordenador.

课程大纲

INTRODUCCIÓN

LA MÁQUINA VIRTUAL

A lo largo de estos cursos vamos a trabajar con un conjunto de herramientas contenidas en la máquina virtual Cloudera. En este apartado te explicamos cómo descargar e instalar dicha máquina virtual en tu ordenador. <br><br>La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.

<br><br> <i><b>Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma</i></b>

MÓDULO 1 - Introducción al ecosistema Apache Hadoop

En este módulo se van a introducir los conceptos básicos sobre el uso de Apache Hadoop y su utilización para plantear análisis de grandes conjuntos de datos. Se van a presentar las herramientas principales y la arquitectura del sistema.<br><br><i>Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Hadoop y HDFS, y accede a los foros para discutir los temas que te parezcan más interesantes.</i>

MÓDULO 2 - Tecnologías SQL y NoSQL. Consistencia, fiabilidad y escalabilidad

En este módulo se introducen conceptos básicos sobre la naturaleza de los datos a tratar y de qué forma los sistemas NoSQL se diferencian de las bases de datos relacionales. Se presenta el teorema CAP y se muestra su importancia en el contexto de los sistemas distribuidos. Finalmente, se muestran una serie de sistemas junto con su uso en la industria actual. <br><br><i>Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.</i>

MÓDULO 3 - Adquisición de datos

En este módulo se presentan los desafíos que hay que resolver a la hora de incorporar datos a los sistemas NoSQL y una breve introducción a las herramientas asociadas al ecosistema Hadoop más importantes. <br><br><i>Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Apache Scoop, y accede a los foros para discutir los temas que te parezcan más interesantes.</i>

MÓDULO 4 - Herramientas para el análisis de datos industrial

En este módulo se presenta el análisis industrial de grandes volúmenes de datos y se introducen una serie de herramientas y sistemas de segunda generación dedicados a resolver necesidades específicas de la industria.<br><br><i>Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza los ejercicios prácticos sobre Apache Hive y Sparck, y accede a los foros para discutir los temas que te parezcan más interesantes.</i>

千万首歌曲。全无广告干扰。
此外,您还能在所有设备上欣赏您的整个音乐资料库。免费畅听 3 个月,之后每月只需 ¥10.00。
Apple 广告
声明:MOOC中国十分重视知识产权问题,我们发布之课程均源自下列机构,版权均归其所有,本站仅作报道收录并尊重其著作权益。感谢他们对MOOC事业做出的贡献!
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 网易云课堂
  • 中国大学MOOC
  • 学堂在线
  • 顶你学堂
  • 华文慕课
  • 好大学在线CnMooc
  • (部分课程由Coursera、Udemy、Linkshare共同提供)

© 2008-2022 CMOOC.COM 慕课改变你,你改变世界