[ESP/ENG] La Ciencia de Datos y Estadística, de mi para ti. || Data Science and Statistics, from me to you.

in LeoFinance3 years ago

Excelente día para todos y todas, en la universidad tuve la oportunidad de estudiar ciencia de datos y estadística, y aunque no completé la carrera tengo mucho conocimiento sobre el tema, y aprovechando la oportunidad que #hive nos da de publicar nuestro contenido, quiero hacerlo, @leofinance es la comunidad que mejor se apega a este tipo de contenido ya que la estadística es fundamental en cuanto a las finanzas e incluso al mundo de las criptomonedas, voy a dividir la explicación en varias publicaciones ya que el contenido es bastante extenso pero, quiero compartirlo para quienes tienen planes de expandir su conocimiento en base al tema, además, de aportar algo nuevo a la comunidad. Aquí encontrarás información eficaz y efectiva sobre lo más importante en Data Science (Ciencia de Datos). Para que lo tengas accesible en todo momento y en un formato diferente, he creado un pequeño libro resumen de todo el contenido del curso, que podrás descargar en la siguiente lección.

En el curso empezaremos por ver los pilares más importantes en el mundo de la Ciencia de Datos, y veremos también cómo nunca es suficiente dominar esos pilares, sino que también es necesario tener ciertas habilidades complementarias. Hablaremos en detalle sobre lo que deberás aprender, dónde encontrar material gratuito sobre esos temas, qué herramientas se suelen utilizar, qué diferencia hay entre la educación universitaria y la educación online o auto-didacta en materia de Data Science, y muchos otros tips y recomendaciones. Espero que te guste esta publicación y sobre todo que te aporte valor y te ayude a progresar de manera efectiva en el camino de la Ciencia de Datos.

Un saludo,

Miguel, @nerdvana

Excellent day for everyone, in college I had the opportunity to study data science and statistics, and although I did not complete the race I have a lot of knowledge on the subject, and taking advantage of the opportunity that #hive gives us to publish our content, I want to do it, @leofinance is the community that best sticks to this type of content since statistics is fundamental in terms of finance and even the world of cryptocurrencies, I will divide the explanation in several publications since the content is quite extensive but, I want to share it for those who have plans to expand their knowledge based on the subject, in addition, to contribute something new to the community. Here you will find efficient and effective information about the most important things in Data Science. To make it accessible to you at all times and in a different format, I have created a small summary book of all the content of the course, which you can download in the next lesson.
In the course we will start by looking at the most important pillars in the world of Data Science, and we will also see how it is never enough to master those pillars, but it is also necessary to have certain complementary skills. We will talk in detail about what you will need to learn, where to find free material on those topics, what tools are usually used, what is the difference between university education and online or self-taught Data Science education, and many other tips and recommendations. I hope you like this publication and above all that it brings you value and helps you to progress effectively on the path of Data Science.
Best regards,
Miguel, @nerdvana



source-g553304168_1920.jpg

Fuente/Source

En esta sección vamos a ver cuáles son los pilares fundamentales de la ciencia de datos y cuáles son las habilidades complementarias que te van a ayudar en este camino para iniciar. En el mundo de la ciencia de datos existen tres pilares fundamentales que constituyen el soporte del éxito en este campo. Por ejemplo, veamos el siguiente diagrama Uno de esos pilares va a ser la estadística.

In this section we are going to see what are the fundamental pillars of data science and what are the complementary skills that will help you on this path to get started. In the world of data science there are three fundamental pillars that constitute the support for success in this field. For example, let's look at the following diagram One of those pillars is going to be statistics.

graph-gffe3f7bce_1920.jpg

Fuente/Source

El segundo pilar va a ser la programación y el tercer pilar va a ser el conocimiento del campo en el que estás trabajando. Luego hablaremos con más detalle sobre cada uno de ellos, pero esta es la razón fundamental por la cual cada uno de ellos son tan importantes. Por ejemplo, la estadística es la parte científica de lo que serán tus proyectos. Es decir, lo que te va a enseñar la estadística es la base y los métodos científicos para saber cómo extraer la información de los datos.

The second pillar is going to be programming and the third pillar is going to be knowledge of the field you are working in. We will talk in more detail about each of them later, but this is the fundamental reason why each of them are so important. For example, statistics is the scientific part of what your projects will be. That is, what statistics will teach you is the basis and the scientific methods to know how to extract information from data.

Recuerden que estamos hablando de ciencia de datos, entonces necesitamos datos y necesitamos hacer ciencia en base a esos datos. La estadística nos va a dar eso, nos va a aportar la parte científica. Luego tenemos la programación y la programación. Bueno, es inevitable. Hay que tener conocimientos sobre programación, porque en la práctica la mayoría de las veces no vamos a hacer los cálculos nosotros a mano, no vamos a hacer un modelo a mano y hacer todo lo que lo que queramos hacer con ese modelo, predicciones o lo que sea, en base a lo que sea utilizar una calculadora, por ejemplo, si no que lo que vamos a hacer es utilizar herramientas más avanzadas que nos van a ayudar en esos cálculos, que a veces son cálculos muy complejos. Y esa herramienta nos aporta esa automatización o esa sencillez, no, porque reduce la complejidad que nosotros, nos toma más trabajo y pues la programación va a ser esa herramienta y es como por ejemplo lo que sería el pincel para el artista o el piano para el pianista. En fin, es la herramienta que el científico de datos usará para poder analizar efectivamente esos datos. Y luego está el conocimiento de campo. Esta parte también es importante, es otro pilar, pero es, digamos, una parte añadida. Es una parte opcional a principio, porque a la larga tiene una importancia significativa.

Remember that we are talking about data science, so we need data and we need to do science based on that data. Statistics is going to give us that, it's going to give us the scientific part. Then we have programming and scheduling. Well, it's inevitable. You have to have knowledge about programming, because in practice most of the time we are not going to do the calculations by hand, we are not going to make a model by hand and do everything we want to do with that model, predictions or whatever, based on the use of a calculator, for example, but what we are going to do is use more advanced tools that are going to help us in those calculations, which are sometimes very complex calculations. And that tool gives us that automation or that simplicity, no, because it reduces the complexity that we, it takes more work and the programming is going to be that tool and it is like for example what would be the brush for the artist or the piano for the pianist. In short, it is the tool that the data scientist will use to be able to effectively analyze that data. And then there is the field knowledge. This part is also important, it is another pillar, but it is, let's say, an added part. It is an optional part at the beginning, because in the long run it has a significant importance.

code-g21af37bb6_1280.png

Fuente/Source

Pero obviamente, cuando nosotros estamos iniciando este camino no vamos a saber exactamente en qué campo al final vamos a terminar. O incluso podemos tocar varios campos. Entonces, al principio es complicado dominar este pilar, pero a la larga es importante, porque mientras más conocimientos nosotros tengamos del campo en el que estamos trabajando, por ejemplo, imagina que estamos trabajando en el campo de finanzas. Mientras más conocimiento tengamos de finanzas de los conceptos financieros, cómo funcionan los bancos, etc., pues mejor nos irá bien. Entonces, claro, mientras mejor entendamos la preguntas y las respuestas que podemos obtener de los datos, mejor será la interpretación que nosotros podemos darle a esos resultados. Sin embargo, como les he dicho al principio, esto no es un requerimiento, no es obligatorio. No tenemos que preocupar tanto por esto, porque no nos vamos a enfocar desde el inicio en un área de aplicación en concreto, a no ser que realmente ya nosotros estemos trabajando en esa área y nos interese continuar en ella. Pero en ese caso ya dominaremos el conocimiento de campo. Así que si ya estás en esa área perfecto, si no sabes en que área vas a estar, pues no te preocupes, porque una vez que te incorporas a ese trabajo ya va a ser un campo específico, ya vas a ver, vas a saber cuál es. Y claro, eso va a ser un pilar importante cuando ya estás incorporado y lo tendrás que fortalecer. Pero se irá reforzando con el tiempo, con la misma práctica o con la experiencia que vayas ganando. Entonces, en resumen, tenemos tres pilares que son los más importante en ciencia de datos, que es la estadística, la programación y el conocimiento de campo. Y en la clase siguientes vamos a ver más detalles sobre cada uno de ellos.

But obviously, when we are starting this path we will not know exactly in which field we will end up. Or we may even touch several fields. So, at the beginning it is complicated to master this pillar, but in the long run it is important, because the more knowledge we have of the field in which we are working, for example, imagine that we are working in the field of finance. The more knowledge we have of finance, of financial concepts, how banks work, etc., the better we will do well. So, of course, the better we understand the questions and the answers we can get from the data, the better the interpretation we can give to those results. However, as I said at the beginning, this is not a requirement, it is not mandatory. We don't have to worry so much about this, because we are not going to focus from the beginning on a particular application area, unless we are really already working in that area and we are interested in continuing in that area. But in that case we will already have mastered the field knowledge. So if you are already in that area, perfect, if you don't know what area you are going to be in, then don't worry, because once you join that job it will already be a specific field, you are going to see, you are going to know what it is. And of course, that will be an important pillar when you are already incorporated and you will have to strengthen it. But it will be reinforced over time, with the same practice or with the experience you gain. So, in summary, we have three pillars that are the most important in data science, which are statistics, programming and field knowledge. And in the next class we are going to see more details about each of them.

Vamos a empezar por el primero de los pilares la estadística. Todos los que se quieran iniciar o están al inicio del proceso de introducirse en el mundo de la ciencia de datos, tienen cierto miedo a la parte estadística. Sobre todo si vienen de un campo muy diferente o han tenido una mala experiencia en el nivel escolar con las asignaturas de matemáticas, álgebra, estadística.
Sin embargo, con el tiempo verás que es un área de conocimiento muy bonita, que está presente en casi todos los aspectos del mundo real y que es muy necesaria y tiene muchísimas, muchísimas aplicaciones. Entonces, la complejidad no es realmente tanta como uno se imagina y los beneficios son muchísimos más de los que te imaginas. Vamos a ver un ejemplo en el que la estadística es muy importante para tomar una decisión. Imagina que estamos trabajando en una empresa farmacéutica y queremos verificar la efectividad de un nuevo tratamiento contra una enfermedad en comparación con el tratamiento anterior o el tratamiento ya existente. Imagina que te interesa el medicamento que más efectividad tenga y el resultado que obtienes es esto, que el tratamiento nuevo tiene un 90 por ciento de efectividad, mientras que el tratamiento anterior tiene un 80 por ciento de efectividad. En este punto, qué dirías? Aceptarías el nuevo tratamiento porque tiene mayor tasa de efectividad? Bien, pues la respuesta correcta es. Depende, porque si esos porcentajes son el resultado de esto, datos por sentido común, no nos fijaremos demasiado porque tenemos 10 pacientes en nuestro estudio y obtenemos con el nuevo tratamiento 9 pacientes con efectividad donde el tratamiento nuevo ha sido efectivo y el tratamiento anterior 8 pacientes donde ha tenido efectividad ese tratamiento, el tratamiento anterior. Pero cuál es el problema aquí? Que tenemos muy pocos datos, que a lo mejor si tenemos muchos más estos ya no se cumplen. Entonces si ese porcentaje el 90 por ciento 80 por ciento se traduce o viene o es resultado de estos datos de esta tabla azul, no nos vamos a fiar demasiado. Sin embargo, si en el estudio obtenemos esos resultados en base a muchos más pacientes, por ejemplo 100000 pacientes, obviamente la confianza en ese resultado va a ser mucho mayor. Bien, entonces este ejemplo sencillo nos demuestra que debemos tener en cuenta la confianza, la significación estadística, todo eso cuando hacemos este tipo de comparaciones o hipótesis, entonces implemente mirar un porcentaje en comparación con otros, sino que hay toda una teoría detrás que es la que nos da soporte para nosotros creer realmente que esa es la decisión correcta, sobre todo en estos campos tan complejos en medicina, en finanzas. No imaginen a la hora de tomar una decisión sobre una vacuna o sobre un medicamento nuevo. Es muy importante tener suficiente confianza y ese soporte nos da la estadística. Entonces, en resumen, en ciencia de datos no nos interesa tanto la parte teórica de la estadística en el sentido de crear un nuevo método, esa parte de yo que sé, propiedades teóricas o teoremas para crearnos un nuevo método, sino que lo que nos va a interesar es realmente la estadística aplicada, la estadística que resuelve problemas, no problemas reales. Los métodos ya existentes que nosotros podemos aplicar en dependencia del problema que estemos resolviendo en ese momento.

Let's start with the first of the pillars, statistics. All those who want to start or are at the beginning of the process of entering the world of data science, have a certain fear of the statistical part. Especially if they come from a very different field or have had a bad experience at school level with the subjects of mathematics, algebra, statistics.
However, with time you will see that it is a very nice area of knowledge, that it is present in almost every aspect of the real world and that it is very necessary and has many, many, many applications. So, the complexity is not really as much as one imagines and the benefits are much more than you imagine. Let's see an example in which statistics is very important to make a decision. Imagine that we are working in a pharmaceutical company and we want to verify the effectiveness of a new treatment against a disease in comparison with the previous treatment or the existing treatment. Imagine that you are interested in the drug that is most effective and the result you get is this, that the new treatment is 90 percent effective, while the previous treatment is 80 percent effective. At this point, what would you say? Would you accept the new treatment because it has a higher rate of effectiveness? Well, the correct answer is. It depends, because if those percentages are the result of this, common sense data, we won't look too closely because we have 10 patients in our study and we get with the new treatment 9 patients with effectiveness where the new treatment has been effective and the previous treatment 8 patients where that treatment, the previous treatment, has been effective. But what is the problem here? We have very little data, and maybe if we have a lot more data they are no longer fulfilled. So if that percentage, 90 percent, 80 percent, translates or comes from or is the result of the data in this blue table, we are not going to be very confident. However, if in the study we get those results based on many more patients, for example 100,000 patients, obviously the confidence in that result is going to be much higher. Well, so this simple example shows us that we must take into account the confidence, the statistical significance, all that when we make this type of comparisons or hypotheses, so that we are not only looking at a percentage in comparison with others, but there is a whole theory behind that which gives us the support to really believe that this is the right decision, especially in these complex fields in medicine, in finance. Do not imagine when making a decision about a vaccine or a new drug. It is very important to have enough confidence and that support gives us the statistics. So, in summary, in data science we are not so much interested in the theoretical part of statistics in the sense of creating a new method, that part of I don't know, theoretical properties or theorems to create a new method, but what we are really interested in is applied statistics, statistics that solves problems, not real problems. The already existing methods that we can apply depending on the problem we are solving at that moment.

Puede ser que esto tenga cierta complejidad y el hecho de entender los métodos que vamos a utilizar y cómo funcionan. Eso lo tenemos que hacer, pero esto es imprescindible para que? Para luego poder decidir en la práctica qué método podemos usar? Cómo lo podemos configurar? Cómo lo podemos interpretar? Y esto puede tener un cierto grado de complejidad, pero no tanto como nosotros. Por ejemplo, venir a agregar un nuevo método que funcione mejor que todos los anteriores, etc. Eso es otra historia muy diferente. Entonces, el grado de complejidad no es extremo, es lo que hay que hacer. Y además es muy emocionante, muy emocionante porque? Porque cuando ya realmente tienes todo ese conocimiento, lo único que tienes que hacer es ponerlo en práctica y ponerlo en práctica significa resolver problemas, resolverlo en diferentes aplicaciones que al final van a ser aplicaciones del mundo real. Y eso es muy emocionante.

There may be some complexity to this and understanding the methods we are going to use and how they work. We have to do that, but this is essential for what? So that we can then decide in practice which method we can use? How can we configure it? How can we interpret it? And this may have a certain degree of complexity, but not as much as we do. For example, coming to add a new method that works better than all the previous ones, and so on. That's a very different story. So, the degree of complexity is not extreme, it's the right thing to do. And it's also very exciting, very exciting because? Because when you really have all that knowledge, the only thing you have to do is to put it into practice and putting it into practice means solving problems, solving it in different applications that in the end are going to be real-world applications. And that's very exciting.

En esta clase vamos a hablar de programación o más específicamente, de los lenguajes de programación más usados en ciencia de datos. Existen muchos, pero los dos lenguajes de programación más utilizados a día de hoy son R y Python. Hay otros que son quizás se podrían considerar complementarios, como por ejemplo SQL. También puede ser que necesites aprender Excel. Depende del campo en el que vayas a trabajar, de la empresa, del software que usan, etc. Pero lo básico y lo que debes aprender es uno de estos dos. Para qué? Para que vayas cogiendo soltura, practiques ese conocimiento que te da la estadística de todos esos métodos y una vez que lo pongas en práctica y lo vas a poner en práctica a través de los lenguajes de programación o uno, el que tú elijas R o Python, pues entonces se va a afianzar mejor todo ese conocimiento. Entonces, quizás la empresa a la que vayas a solicitar el trabajo o la o la ya estés trabajando, te pueden pedir como requisito estos otros Excel o o algunos software que son ya más visuales pero que al final no son tan complejos de entender. Y lo que realmente yo te aconsejo es que como pilar fundamental, te enfoques en poner en práctica los conocimientos de ciencia de datos. Todo lo metodológico que vayas a aprender lo pongas en práctica a través de uno de estos dos lenguajes de programación R o Python si puedes los dos mejor incluso bien que más no es nada complicado.

In this class we are going to talk about programming or more specifically, the most used programming languages in data science. There are many, but the two most used programming languages today are R and Python. There are others that are perhaps considered complementary, such as SQL. You may also need to learn Excel. It depends on the field you are going to work in, the company, the software they use, and so on. But the basics and what you should learn is one of these two. Why? So that you can get used to it, practice the knowledge that statistics gives you of all these methods and once you put it into practice and you are going to put it into practice through programming languages or one, the one you choose, R or Python, then all this knowledge will be better consolidated. Then, maybe the company to which you are going to apply for the job or the one where you are already working, may ask you as a requirement these other Excel or some software that are more visual but that in the end are not so complex to understand. And what I really advise you is that as a fundamental pillar, you should focus on putting into practice the knowledge of data science. Everything methodological that you are going to learn you put into practice through one of these two programming languages R or Python if you can both better even well that more is not complicated at all.

Y esos son dos lenguajes de programación un poquito más avanzados, son los que debes aprender. Si lo que quieres hacer es efectivamente resolver problemas basándote en datos no análisis descriptivos, análisis predictivos para predecir datos futuros en bases de datos que ya ya has recogido para aplicar métodos de machine learning o learning, aprendizaje automático, de aprendizaje profundo, etcétera, etcétera, etcétera. Entonces, por ejemplo, para iniciarte en R, lo primero que tienes que hacer es instalar el programa base que se llama R a secas y tienes que ir a la página web que te la pongo después. En esta diapositiva y también lo tienes en el libro resumen que está al inicio del curso. Bien, todos los enlaces de dónde tienes que ir para descargar las cosas. Pero bueno, lo primero que tenéis que hacer es descargar R y luego tienes que descargar lo que se llama un IDE e Integrated Development Environment, que significa entorno de desarrollo integrado, que es como para entender y trabajar con R, pero de una forma más visual y más sencilla. Para nosotros, no para poder trabajar con eso, donde no sólo es el código que estás escribiendo, sino que también ves los datos que has cargado o las variables que has ido creando, o las variables que sean, o yo qué sé, o las matrices de datos que se han resultado de tu yo análisis de datos, los gráficos, etc. Tenses todo en una misma ventanita y ese y en ese entorno. Desarrollo integrado para ver se llama R Studio que se descarga después que ya tienes instalado el error, se descarga y se instala y te ayuda a trabajar con R de una manera mucho más visual, mucho más sencilla. Y luego para iniciarte en Python, lo primero que tienes que hacer es lo mismo descargar e instalar la última versión de Python según tu sistema operativo y luego necesitas también un entorno donde trabajar con código Python de una forma más visual, más sencilla. No hay muchos entornos, por ejemplo, puesto aquí, algunos están Spyder, el átomo, el paisaje, también el Visual Studio, etc. Yo voy a recomendar los dos más sencillos que son que os tenemos aquí el Google Cola, el Google Cola donde ni siquiera te tienes que instalar nada. Ahora te lo explico. Y también está el Júpiter Notebook, entonces para el Júpiter sí que te lo tienes que instalar. Y ahí de puesto el enlace para el collab es simplemente abrirlo. Por qué? Porque el Google Collab o Google con laboratory no hay. No hay que instalar nada porque estarás usando una máquina de Google a la cual te conectas mediante tu propia cuenta de Google. Y si tienes un correo de Gmail ya tienes cuenta de Google y si no te la creas porque es gratuita y entonces cuando tú te conectas ahí estás utilizando los recursos de Google, que además son mucho mejores de los que tú vas a tener. Muy probablemente no? Entonces te va a dejar crear y usar cuadernos de Python, incluso para problemas muy complejos que requieren altos recursos, como por ejemplo los modelos de redes neuronales y todo eso no es para nada difícil de entender. Y bueno, al principio incluso te da una introducción para ver cómo funciona. Se parece mucho a un notebook. Son cuaderno que se guardan además automáticamente en tu drive tú creas un cuaderno y se guarda en una carpeta que me parece que se llama collab notebooks o algo parecido. Y ahí te los guarda, lo puede reutilizar, puedes copiar, puedes incluso importar de otro cuaderno, de quien sea, o un cuaderno que está en it up. O sea que tiene muchísimas funcionalidades y y y muchísimas opciones. Y además, la ventaja es que no tienes que instalar nada, sobre todo si estás aprendiendo. Es una ventaja muy grande no tener que instalar nada, no? Entonces, cuál es la desventaja? Porque todo tiene sus ventajas y sus desventajas. La desventaja es que no puedes dejar el código corriendo más de 24 horas porque digamos que te desconecta y así tú no lo estás usando. Al rato te desconecta y si lo estás usando a las 24 horas, te desconecta. Qué quiere decir eso? Que tú no puedes dejar un código que tarde mucho, mucho de mucho tiempo por su complejidad, porque cuando te desconecta pues se va a parar todo y cuando vuelves a meterte te conectas a otra máquina donde puedes usar ese código, pero tendrías que volverlo a iniciar. Entonces, y está de ventaja para las personas que están empezando a aprender. No es una ventaja muy grave porque no vamos a utilizar nunca un código y lo vamos a dejar corriendo, porque eso sería una simulaciones que nosotros ya estamos haciendo. Que bueno que lo vamos a hacer ya, incluso cuando estamos trabajando. Quizás es un problemas muy muy muy complejos que obviamente Google dice bueno, yo te dejo iniciarte, trabajar aquí, pero con un tiempo limitado, porque si no, no puedo darle la oportunidad a todo el mundo de usar mis herramientas. Entonces es totalmente lógico y ni siquiera es una desventaja para lo que estamos iniciando en este mundo.

And those are two programming languages that are a little bit more advanced, those are the ones that you need to learn. If what you want to do is to effectively solve problems based on data, not descriptive analysis, predictive analysis to predict future data in databases that you have already collected to apply machine learning or learning methods, machine learning, deep learning, etcetera, etcetera, etcetera, etcetera. So, for example, to get started in R, the first thing you have to do is to install the base program that is called R and you have to go to the web page that I will show you later. In this slide and also you have it in the summary book that is at the beginning of the course. Okay, all the links of where you have to go to download things. But well, the first thing you have to do is download R and then you have to download what's called an IDE and Integrated Development Environment, which means integrated development environment, which is like to understand and work with R, but in a more visual and simpler way. For us, not to be able to work with that, where it's not just the code that you're writing, but you also see the data that you've loaded or the variables that you've been creating, or the variables that are, or I don't know, or the data matrices that have resulted from your data analysis, the graphs, and so on. Tenses everything in the same little window and that and in that environment. Integrated development to see is called R Studio that you download after you already have the bug installed, you download and install it and it helps you work with R in a much more visual, much simpler way. And then to get started with Python, the first thing you have to do is the same thing download and install the latest version of Python according to your operating system and then you also need an environment where you work with Python code in a more visual, simpler way. There are not many environments, for example, put here, some are Spyder, Atom, Landscape, also Visual Studio, etc. I'm going to recommend the two simplest ones which are that we have you here the Google Cola, the Google Cola where you don't even have to install anything. Now I'll explain it to you. And there is also the Jupiter Notebook, so for the Jupiter you do have to install it. And there of put the link for the collab is simply to open it. Why? Because there is no Google Collab or Google with laboratory. You don't have to install anything because you will be using a Google machine to which you connect through your own Google account. And if you have a Gmail you already have a Google account and if not you create it because it is free and then when you connect there you are using Google's resources, which are also much better than what you are going to have. Most likely not? Then it will let you create and use Python notebooks, even for very complex problems that require high resources, such as neural network models and all that is not at all difficult to understand. And well, at the beginning it even gives you an introduction to see how it works. It's a lot like a notebook. They are notebooks that are automatically saved in your drive, you create a notebook and it is saved in a folder that I think is called collab notebooks or something similar. And it saves them there, you can reuse them, you can copy them, you can even import them from another notebook, from whomever, or from a notebook that is in it up. So it has a lot of functionalities and a lot of options. And also, the advantage is that you don't have to install anything, especially if you are learning. It's a very big advantage not to have to install anything, isn't it? So, what is the disadvantage? Because everything has its advantages and disadvantages. The disadvantage is that you can't leave the code running for more than 24 hours because let's say it disconnects you and so you are not using it. After a while it disconnects you and if you are using it after 24 hours, it disconnects you. What does that mean? That you cannot leave a code that takes a long, long, long time because of its complexity, because when it disconnects you, everything stops and when you log in again you connect to another machine where you can use that code, but you would have to start it again. So, and it's an advantage for people who are just starting to learn. It is not a very serious advantage because we are never going to use a code and leave it running, because that would be a simulation that we are already doing. Good thing we are going to do it already, even when we are working. Maybe it's a very very very very complex problem that obviously Google says well, I'll let you get started, work here, but with a limited time, because if not, I can't give everybody the opportunity to use my tools. So it is totally logical and it is not even a disadvantage for those of us who are starting in this world.

digital-marketing-g71d763311_1920.jpg

Fuente/Source

Así que yo lo que recomiendo es iniciarte con Google Collab y si no, pues también puedes instalar el juguete en bambú y hoy que lo tienes instalado en la web, te pone las instrucciones de cómo instalarlo y como utilizarlo. Y es básicamente lo mismo. Es lo mismo. Lo único que lo vas a usar en tu ordenador, entonces vas a ir utilizando las características o la potencia que tú tengas localmente en tu ordenador, no? Entonces la ventaja es que estás utilizando tus propios recursos, que tampoco es una desventaja porque realmente no vas a usar tantos recursos ahora al inicio para aprender eso, únicamente cuando estás haciendo problemas ya mucho más avanzado de redes neuronales profundas, analizar datos de imágenes o de vídeos, cosa muy, muy, muy, muy, muy complejas donde necesitas más recursos, no en análisis de datos normales. Pues no, no va, no vas a tener problema a no ser que tengas muchísimo, muchísimos datos. Pero bueno, esas son las dos opciones que yo recomiendo. Y por cierto, también hay una versión de R en la nube, digamos bien como la de Google Collab, que es más o menos en la nube porque no estás en local. Pues hay para R también y es muy similar y se llama R Studio Cloud. Así que, en resumen, sobre lenguajes de programación tienes que dominar R o Python, el que elijas o incluso los dos si te animas y verás que tienes a disposición muchísimas formas de utilizarlo, de aprender. No es complicado y lo único que tienes que saber al principio es lo básico, lo básico en cualquiera de estos dos lenguajes. Cómo crear variables como yo, que sé trabajar con matrices de datos, con modificarlas, como seleccionar a lo mejor subconjuntos de datos. Si estás trabajando con datos de algún tipo específico, como por ejemplo con fecha, cómo trabajar las fechas? Cosas muy básicas donde verás que no es para nada complicado. Una vez que te pongas ya tienes más soltura y cualquier duda que tengas, cualquier pregunta sobre esto, cualquier error que te dé como ahora.

So what I recommend is to get started with Google Collab and if not, you can also install the toy in bamboo and today that you have it installed on the web, it gives you the instructions on how to install it and how to use it. And it's basically the same thing. It's the same thing. The only thing is that you're going to use it on your computer, so you're going to be using the features or the power that you have locally on your computer, right? So the advantage is that you are using your own resources, which is not a disadvantage because you are not really going to use so many resources now at the beginning to learn that, only when you are doing much more advanced problems of deep neural networks, analyzing image or video data, something very, very, very, very, very, very, very complex where you need more resources, not in normal data analysis. Well, no, no way, you're not going to have a problem unless you have lots and lots and lots of data. But well, those are the two options that I recommend. And by the way, there is also a version of R in the cloud, let's say like Google Collab, which is more or less in the cloud because you are not in local. Well there is for R as well and it's very similar and it's called R Studio Cloud. So, in summary, about programming languages you have to master R or Python, the one you choose or even both if you dare and you will see that you have at your disposal many ways to use it, to learn. It's not complicated and the only thing you have to know at the beginning is the basics, the basics in either of these two languages. How to create variables like I do, I know how to work with data arrays, how to modify them, how to select maybe subsets of data. If you're working with data of some specific type, like for example with date, how to work with dates? Very basic things where you will see that it is not complicated at all. Once you get into it you're more fluent and any doubts you have, any questions about this, any errors you get like now.

Hoy en día todo está en internet y es difícil traer algo nuevo, sin embargo trato de hacerlo. Es super sencillo buscar las respuestas, simplemente lo ponemos en Google y en seguida vas a ver que hay muchísimas personas hablando sobre ese error porque también han pasado por ahí y vas a poder resolverlo al instante. Así que espero que no le tengas miedo ni a la estadística ni a la programación, que son los dos pilares más importantes para iniciarte en ciencia de datos. Esta será la primera parte de varias en donde les hablaré mucho más sobre este maravilloso mundo de la ciencia de datos. Muchas gracias por la visita.

Nowadays everything is on the internet and it is difficult to bring something new, however I try to do it. It is super easy to look for the answers, just put it in Google and you will immediately see that there are many people talking about that error because they have also been there and you will be able to solve it instantly. So I hope you are not afraid of statistics and programming, which are the two most important pillars to get started in data science. This will be the first part of several where I will tell you much more about this wonderful world of data science. Thank you very much for visiting.

Sin-título-2.gif

Sort:  

Hola, no se si es el lugar indicado pero no tengo otro medio para consultarte, se que conoces mucho de esta plataforma y tal vez podrías ayudarme. Desde hace unos dias cuando intento cargar una foto para un post me salta el siguiente error.
Error uploading image: Request failed with status code 500
Te subiría la imagen pero me acabo de dar cuenta que ocurre con cualquier imagen que quiera subir a la plataforma ¿Alguna vez te sucedió? Nuevamente gracias y disculpa si te consulte esto desde un post

que editor usas? peakd,hive, ecency?

Utilizo PeakD