{"id":2568,"date":"2023-05-18T17:29:18","date_gmt":"2023-05-18T20:29:18","guid":{"rendered":"https:\/\/kondado.com.br\/blog\/?p=2568"},"modified":"2023-05-18T17:29:19","modified_gmt":"2023-05-18T20:29:19","slug":"o-que-e-data-mining","status":"publish","type":"post","link":"https:\/\/kondado.com.br\/blog\/blog\/2023\/05\/18\/o-que-e-data-mining\/","title":{"rendered":"O que \u00e9 Data Mining?"},"content":{"rendered":"\n<p>Dentro do mundo dos dados, existem diversos termos comumente usados. Data Mining, ou Minera\u00e7\u00e3o de Dados em portugu\u00eas, \u00e9 um deles. No entanto, \u00e9 importante destacar que a minera\u00e7\u00e3o de dados \u00e9 apenas uma etapa do processo de KDD, Knowledge Discovery in Databases, que significa Descoberta de Conhecimento em Bancos de Dados em portugu\u00eas. Vamos explorar mais detalhes sobre esses termos no artigo de hoje!<\/p>\n\n\n\n<div data-slot=\"dwc\" data-param-slot-name=\"ma-dwc-2\"><\/div>\n\n\n\n<p>Data Mining, ou Minera\u00e7\u00e3o de Dados, \u00e9 um processo de descoberta de padr\u00f5es, rela\u00e7\u00f5es e insights valiosos em grandes conjuntos de dados. Trata-se da extra\u00e7\u00e3o de conhecimento a partir de dados, especialmente em grande volumes, o que se enquadra no contexto do<strong> Big Data<\/strong>. Essa pr\u00e1tica \u00e9 amplamente aplicada em diversas \u00e1reas, como engenharia, medicina, ci\u00eancias e o mercado financeiro.&nbsp;<\/p>\n\n\n\n<p>Podemos considerar o Data Mining como um termo que precede a Ci\u00eancia de Dados. Hoje, a Ci\u00eancia de Dados vai al\u00e9m do Data Mining, incorporando t\u00e9cnicas avan\u00e7adas de an\u00e1lise, como machine learning, big data, visualiza\u00e7\u00e3o de dados e governan\u00e7a de dados. Assim, a Ci\u00eancia de Dados \u00e9 um campo mais abrangente e atualizado, enquanto o Data Mining \u00e9 uma parte importante, mas mais espec\u00edfica, desse ecossistema de dados.<\/p>\n\n\n\n<p>De modo mais simplificado, a minera\u00e7\u00e3o de dados pode ser comparada ao processo de minera\u00e7\u00e3o em geral, como a busca por ouro em uma \u00e1rea de terra. No contexto de dados, a minera\u00e7\u00e3o consiste em explorar conjuntos de dados em busca de informa\u00e7\u00f5es valiosas, assim como encontrar pepitas de ouro.<\/p>\n\n\n\n<p>Por exemplo, no campo do marketing, quando voc\u00ea compra um produto e come\u00e7a a receber sugest\u00f5es de produtos semelhantes ou an\u00fancios de produtos que lhe interessam, mesmo sem ter pesquisado sobre eles na internet. Como isso acontece? Abordaremos esse assunto mais adiante.<\/p>\n\n\n\n<h2>Big Data<\/h2>\n\n\n\n<p>Antes de seguirmos para os processos de Data Mining, vamos definir Big Data, citado acima. Pois trata-se de um conjunto de dados grandes e complexos que est\u00e3o al\u00e9m das capacidades dos m\u00e9todos tradicionais de gerenciamento e processamento de dados.&nbsp;<\/p>\n\n\n\n<p>O big data envolve enormes quantidades de dados gerados a partir de diversas fontes, sua an\u00e1lise requer tecnologias avan\u00e7adas como computa\u00e7\u00e3o em nuvem, processamento distribu\u00eddo e algoritmos de aprendizado de m\u00e1quina (Machine Learning) para extrair <strong>insights, padr\u00f5es e tend\u00eancias.<\/strong><\/p>\n\n\n\n<p><strong>Data Mining<\/strong> permite a extra\u00e7\u00e3o de conhecimento ou insights dessas gigantes fontes de dados.&nbsp;<\/p>\n\n\n\n<h2>O processo de Data Mining para KDD\u00a0 (Knowledge Discovery in Databases)<\/h2>\n\n\n\n<h3>Coleta de dados<\/h3>\n\n\n\n<p>O primeiro passo para a minera\u00e7\u00e3o de dados ou data mining, \u00e9 o de reunir dados relevantes de v\u00e1rias fontes, como bancos de dados, data warehouses, sites ou outros reposit\u00f3rios. <\/p>\n\n\n\n<div class=\"wp-block-columns\">\n<div class=\"wp-block-column\">\n<p>Para esse passo, \u00e9 poss\u00edvel contar com ferramentas como a <a href=\"http:\/\/kondado.com.br\/\" data-type=\"URL\" data-id=\"http:\/\/kondado.com.br\/\" target=\"_blank\" rel=\"noreferrer noopener\">Kondado<\/a>, que automatizam a integra\u00e7\u00e3o de dados e possibilitam a centraliza\u00e7\u00e3o de <a href=\"https:\/\/kondado.com.br\/conectores.html\" data-type=\"URL\" data-id=\"https:\/\/kondado.com.br\/conectores.html\" target=\"_blank\" rel=\"noreferrer noopener\">mais de 80 fontes<\/a> em um data warehouse, data lake ou planilha.<\/p>\n<\/div>\n\n\n\n<div class=\"wp-block-column\">\n<section id=\"contact-cta-section\" class=\"contact-cta-section\" style=\"font-weight: 800;float: center;width:100%;text-align: center;padding-top:0px;padding-bottom:30px\">\n  <div class=\"wrapper-full\" style=\"width: 100%;margin: 0 auto\">\n    <div class=\"cta-wrapper\" style=\"margin-bottom: 0;text-align: left;padding: 20px;background-color: #25A9E1;border-radius: 3px\">\n      <div class=\"details-wrapper\" style=\"float: center;width: 100%\">\n        <h2 style=\"font-weight: 700;margin: 0 0 0px 0;color: #fff;font-size: 22px;text-align: center\">Automatize suas integra\u00e7\u00f5es de dados com alguns cliques<\/h2>\n      <\/div>\n   <div class=\"cta-wrapper\" style=\"margin-bottom: 0;text-align: center;padding: 20px;background-color: #25A9E1;border-radius: 3px;font-size:18px\">\n      <a class=\"blue-cta-button\" style=\"padding: 15px 50px;text-decoration: none;background-color: #25A9E1;color: #FFF;border-radius: 3px;font-weight: 600;float: center;margin: 0;color: #FFF;background-color: #000;padding: 7px;width: 100%;text-align: center\" href=\"https:\/\/share.kondado.com.br\/6n\" target=\"_blank\" rel=\"noopener\">Fa\u00e7a um teste gr\u00e1tis<\/a><\/div>\n      <div class=\"clearfix\" style=\"clear: both\"><\/div>\n    <\/div>\n  <\/div>\n<\/section>\n<\/div>\n<\/div>\n\n\n\n<h3>Pr\u00e9-processamento de dados<\/h3>\n\n\n\n<p>O segundo passo, antes da minera\u00e7\u00e3o de dados, \u00e9 o pr\u00e9-processamento dos dados. O pr\u00e9-processamento de dados envolve a transforma\u00e7\u00e3o e prepara\u00e7\u00e3o dos dados brutos para an\u00e1lises posteriores. Isso ocorre porque n\u00e3o \u00e9 adequado simplesmente usar os dados em sua forma original para a minera\u00e7\u00e3o, pois podem conter erros, falta de padr\u00f5es e outras quest\u00f5es que podem levar a resultados incorretos.&nbsp;<\/p>\n\n\n\n<p>Nessa etapa, s\u00e3o realizadas atividades como limpeza dos dados, normaliza\u00e7\u00e3o para padronizar as escalas, sele\u00e7\u00e3o de atributos relevantes e integra\u00e7\u00e3o de dados de diferentes fontes.<\/p>\n\n\n\n<p>O pr\u00e9-processamento deve garantir a qualidade e consist\u00eancia dos dados, al\u00e9m de torn\u00e1-los adequados para aplica\u00e7\u00e3o de algoritmos de minera\u00e7\u00e3o de dados.&nbsp;<\/p>\n\n\n\n<h3>A minera\u00e7\u00e3o de dados<\/h3>\n\n\n\n<p>Existem basicamente dois principais modelos de Data Mining, o de descri\u00e7\u00e3o e os preditivos.&nbsp;<\/p>\n\n\n\n<p>Um modelo de <strong>descri\u00e7\u00e3o<\/strong> \u00e9 usado para entender o funcionamento ou a estrutura dos dados e assim, conseguir informa\u00e7\u00f5es relevantes sobre um certo fen\u00f4meno.&nbsp;<\/p>\n\n\n\n<p>O modelo <strong>preditivo<\/strong> utiliza essas informa\u00e7\u00f5es para fazer previs\u00f5es ou estimativas sobre eventos futuros. Esse tipo de modelo utiliza t\u00e9cnicas estat\u00edsticas ou de aprendizado de m\u00e1quina para identificar padr\u00f5es nos dados de treinamento e aplic\u00e1-los a novos dados para fazer previs\u00f5es ou estimativas. Esse modelo \u00e9 utilizado no exemplo mencionado no in\u00edcio do artigo, no qual voc\u00ea recebe recomenda\u00e7\u00f5es de produtos que nem mesmo pesquisou ainda!<\/p>\n\n\n\n<h4>A minera\u00e7\u00e3o de dados envolve comumente 6 tarefas :<\/h4>\n\n\n\n<p><strong>Detec\u00e7\u00e3o de anomalias <\/strong>(detec\u00e7\u00e3o de valores at\u00edpicos\/mudan\u00e7as\/desvios) &#8211; A identifica\u00e7\u00e3o de registros de dados incomuns, que podem ser interessantes ou erros nos dados que exigem investiga\u00e7\u00e3o adicional.<\/p>\n\n\n\n<p><strong>Aprendizado de regras de associa\u00e7\u00e3o<\/strong> (modelagem de depend\u00eancia) &#8211; Busca por relacionamentos entre vari\u00e1veis.&nbsp;<\/p>\n\n\n\n<p>Por exemplo, uma loja pode coletar dados sobre os padr\u00f5es de compra de seus clientes. Usando o <em>aprendizado de regras de associa\u00e7\u00e3o<\/em>, o setor de dados da loja pode determinar quais produtos s\u00e3o frequentemente comprados juntos e usar essas informa\u00e7\u00f5es para fins de marketing.<\/p>\n\n\n\n<p><strong>Clusteriza\u00e7\u00e3o &#8211;<\/strong> \u00e9 a tarefa de descobrir grupos e estruturas nos dados que sejam, de alguma forma, &#8220;similares&#8221;, sem usar estruturas conhecidas nos dados.<\/p>\n\n\n\n<p><strong>Classifica\u00e7\u00e3o<\/strong> &#8211; \u00e9 a tarefa de generalizar uma estrutura conhecida para aplic\u00e1-la a novos dados. Por exemplo, quando um programa de e-mail classifica um e-mail como &#8220;leg\u00edtimo&#8221; ou &#8220;spam&#8221;.<\/p>\n\n\n\n<p><strong>Regress\u00e3o &#8211;<\/strong> tenta encontrar uma fun\u00e7\u00e3o que modele os dados com o menor erro poss\u00edvel, ou seja, para estimar as rela\u00e7\u00f5es entre os dados ou conjuntos de dados.<\/p>\n\n\n\n<p><strong>Sumariza\u00e7\u00e3o <\/strong>&#8211; fornecer uma representa\u00e7\u00e3o mais compacta do conjunto de dados, incluindo visualiza\u00e7\u00e3o e gera\u00e7\u00e3o de relat\u00f3rios.<\/p>\n\n\n\n<h4>Alguns softwares para a minera\u00e7\u00e3o de dados incluem:<\/h4>\n\n\n\n<p><strong>IBM SPSS Modeler:<\/strong> Um software abrangente de minera\u00e7\u00e3o de dados e an\u00e1lise preditiva que oferece uma ampla gama de algoritmos e t\u00e9cnicas para an\u00e1lise de dados, minera\u00e7\u00e3o de texto e constru\u00e7\u00e3o de modelos.<\/p>\n\n\n\n<p><strong>RapidMiner: <\/strong>Uma ferramenta de minera\u00e7\u00e3o de dados de c\u00f3digo aberto que fornece uma interface amig\u00e1vel para constru\u00e7\u00e3o de modelos anal\u00edticos usando um fluxo de trabalho visual. Ela suporta v\u00e1rias tarefas de minera\u00e7\u00e3o de dados, incluindo pr\u00e9-processamento de dados, modelagem, valida\u00e7\u00e3o e implanta\u00e7\u00e3o.<\/p>\n\n\n\n<p><strong>Weka: <\/strong>Um software de minera\u00e7\u00e3o de dados de c\u00f3digo aberto com uma cole\u00e7\u00e3o de algoritmos de aprendizado de m\u00e1quina para pr\u00e9-processamento de dados, classifica\u00e7\u00e3o, regress\u00e3o, clusteriza\u00e7\u00e3o e visualiza\u00e7\u00e3o. Ele tamb\u00e9m fornece uma interface gr\u00e1fica de usu\u00e1rio para facilitar o seu uso.<\/p>\n\n\n\n<p><strong>SAS Enterprise Miner:<\/strong> Um software poderoso de minera\u00e7\u00e3o de dados e an\u00e1lise preditiva oferecido pela SAS Institute. Ele fornece um conjunto abrangente de ferramentas para explora\u00e7\u00e3o de dados, modelagem e implanta\u00e7\u00e3o, com suporte a uma variedade de t\u00e9cnicas estat\u00edsticas e de aprendizado de m\u00e1quina.<\/p>\n\n\n\n<p><strong>Microsoft Azure Machine Learning Studio:<\/strong> Uma plataforma baseada em nuvem que permite aos usu\u00e1rios construir, testar e implantar modelos de aprendizado de m\u00e1quina. Ela oferece uma interface de arrastar e soltar e suporta v\u00e1rios algoritmos e t\u00e9cnicas de minera\u00e7\u00e3o de dados.<\/p>\n\n\n\n<h3>P\u00f3s processamento de dados<\/h3>\n\n\n\n<p>O p\u00f3s-processamento de dados na minera\u00e7\u00e3o de dados \u00e9 a etapa realizada ap\u00f3s a conclus\u00e3o da an\u00e1lise e modelagem dos dados. Essa etapa n\u00e3o pode ser realizada nas ferramentas citadas acima, sendo utilizadas outras, como PowerBI e Tableau.&nbsp;<\/p>\n\n\n\n<p>S\u00e3o um conjunto de diferentes t\u00e9cnicas que t\u00eam como objetivo interpretar e comunicar os resultados obtidos durante a minera\u00e7\u00e3o de dados, ou seja, demonstrar os resultados de modo que seja entend\u00edvel para os tomadores de decis\u00e3o.<\/p>\n\n\n\n<p>Entre as tarefas, podemos destacar:<\/p>\n\n\n\n<p><strong>Interpreta\u00e7\u00e3o dos resultados: <\/strong>Analisar e compreender os padr\u00f5es, rela\u00e7\u00f5es e insights descobertos durante a minera\u00e7\u00e3o de dados, buscando uma compreens\u00e3o mais profunda do significado e das implica\u00e7\u00f5es dos resultados.<\/p>\n\n\n\n<p><strong>Visualiza\u00e7\u00e3o de dados:<\/strong> Representar graficamente os resultados da minera\u00e7\u00e3o de dados de forma visualmente atraente e compreens\u00edvel, utilizando gr\u00e1ficos, diagramas ou outras t\u00e9cnicas de visualiza\u00e7\u00e3o para facilitar a interpreta\u00e7\u00e3o e a comunica\u00e7\u00e3o dos insights obtidos.<\/p>\n\n\n\n<p><strong>Sumariza\u00e7\u00e3o e relat\u00f3rios:<\/strong> Resumir os principais resultados e insights em formatos mais concisos, como resumos, relat\u00f3rios ou apresenta\u00e7\u00f5es, para fornecer uma vis\u00e3o geral dos principais achados aos tomadores de decis\u00e3o e outros usu\u00e1rios interessados.<\/p>\n\n\n\n<p><strong>Valida\u00e7\u00e3o e verifica\u00e7\u00e3o: <\/strong>Avaliar a qualidade e a precis\u00e3o dos resultados obtidos durante a minera\u00e7\u00e3o de dados, utilizando t\u00e9cnicas estat\u00edsticas ou m\u00e9tricas de desempenho para verificar a confiabilidade dos modelos constru\u00eddos e dos insights gerados.<\/p>\n\n\n\n<p><strong>Implanta\u00e7\u00e3o e integra\u00e7\u00e3o:<\/strong> Incorporar os resultados da minera\u00e7\u00e3o de dados em sistemas ou processos existentes, integrando-os \u00e0s opera\u00e7\u00f5es empresariais ou desenvolvendo aplicativos e sistemas que possam aproveitar os insights para melhorar a tomada de decis\u00f5es ou otimizar processos.<\/p>\n\n\n\n<h2>Data Mining e sua import\u00e2ncia<\/h2>\n\n\n\n<p>A minera\u00e7\u00e3o de dados ou data mining, est\u00e1 relacionada com duas \u00e1reas-chave: machine learning e ci\u00eancia de dados. O machine learning \u00e9 uma disciplina que utiliza algoritmos e t\u00e9cnicas para ensinar sistemas computacionais a aprender e melhorar com base em dados.<\/p>\n\n\n\n<p>A minera\u00e7\u00e3o de dados fornece os insights necess\u00e1rios para alimentar e treinar modelos de machine learning, permitindo a cria\u00e7\u00e3o de sistemas inteligentes capazes de tomar decis\u00f5es automatizadas e predi\u00e7\u00f5es precisas.<\/p>\n\n\n\n<p>Na ci\u00eancia de dados a minera\u00e7\u00e3o de dados \u00e9 uma etapa essencial, fornecendo os fundamentos para a an\u00e1lise explorat\u00f3ria, a identifica\u00e7\u00e3o de padr\u00f5es e a constru\u00e7\u00e3o de modelos preditivos.<\/p>\n\n\n\n<h2>Conclus\u00e3o<\/h2>\n\n\n\n<p>Data Mining \u00e9 um processo para se chegar ao conhecimento. A minera\u00e7\u00e3o de dados \u00e9 apenas uma tarefa com o objetivo de encontrar o conhecimento, assim como mencionado o exemplo do ouro no in\u00edcio do artigo. Na pr\u00e1tica, ela faz parte de um grande processo em busca de conhecimento proveniente de uma grande quantidade de dados.<\/p>\n\n\n\n<section id=\"contact-cta-section\" class=\"contact-cta-section\" style=\"font-weight: 700;float: left;width: 100%;text-align: center;padding-top:20px;padding-bottom:30px\">\n  <div class=\"wrapper-full\" style=\"width: 100%;margin: 0 auto\">\n    <div class=\"cta-wrapper\" style=\"margin-bottom: 0;text-align: left;padding: 20px;background-color: #1075BD;border-radius: 3px\">\n      <div class=\"details-wrapper\" style=\"float: left;width: 60%\">\n        <h2 style=\"font-weight: 700;margin: 0 0 4px 0;color: #FFF;font-size: 22px\">Centralize seus dados no seu Data Warehouse ou Data Lake<\/h2>\n      \n      <\/div>\n      <a class=\"blue-cta-button\" style=\"padding: 10px;background-color: #1075BD;color: #FFF;border-radius: 3px;text-decoration: none;border: none;font-weight: 700;font-size: 18px;float: right;margin: 0;margin-top: 5px;color: #FFF;background-color: #000;padding: 7px;width: 35%;text-align: center\" href=\"https:\/\/share.kondado.com.br\/6n\" target=\"_blank\" rel=\"noopener\">Fa\u00e7a um teste gr\u00e1tis<\/a>\n      <div class=\"clearfix\" style=\"clear: both\"><\/div>\n    <\/div>\n  <\/div>\n<\/section>\n","protected":false},"excerpt":{"rendered":"<p>Data Mining, ou Minera\u00e7\u00e3o de Dados, \u00e9 um processo de descoberta de padr\u00f5es, rela\u00e7\u00f5es e insights valiosos em grandes conjuntos de dados. Conhe\u00e7a mais neste artigo!<\/p>\n","protected":false},"author":4,"featured_media":2575,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[30,2],"tags":[541,26,285,292,312,273,42,540,41,43,27,213],"_links":{"self":[{"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/posts\/2568"}],"collection":[{"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/comments?post=2568"}],"version-history":[{"count":6,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/posts\/2568\/revisions"}],"predecessor-version":[{"id":2578,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/posts\/2568\/revisions\/2578"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/media\/2575"}],"wp:attachment":[{"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/media?parent=2568"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/categories?post=2568"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/kondado.com.br\/blog\/wp-json\/wp\/v2\/tags?post=2568"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}