Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining). В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce - важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности. Издание будет в равной мере полезна студентам и программистам-практикам.
В практикуме рассматривается ряд библиометрических индикаторов, связанных с цитируемостью научных публикаций: импакт-фактор (двухлетний, пятилетний, совокупный, средневзвешенный, относительный), средняя цитируемость статей организации/автора, средняя нормализованная цитируемость (с нормализацией по областям науки и по журналам), SNIP, SJR, Eigenfactor, индекс Хирша и др. Для каждого показателя дается определение и демонстрируется его расчет или поиск готового значения по базам данных (Web of Science, Scopus). Цель практикума - в доступной форме представить алгоритм расчета индикаторов и, что еще более важно, донести до читателя их «физический смысл». Демонстрируются особенности различных показателей, типичные ошибки при их расчете, даются практические рекомендации к их применению и корректной интерпретации. Значительное место занимают и подробные "кнопочные" указания - как в той или иной базе данных найти или самостоятельно рассчитать соответствующий индикатор. Пособие адресовано...
Насколько велики на самом деле "большие данные" - огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на "большие данные" вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель - лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина "культуромика", показывают, каким образом анализ "больших данных" помогает исследовать трудные проблемы языка, культуры и истории.
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц. Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Рассматриваются модели, методы и алгоритмы анализа данных, используемые в современных системах обработки информации. Приводятся основные понятия и определения общей теории информационных систем, анализируется типовая структура систем извлечения информации и систем обработки информации, рассматриваются типовые задачи анализа данных в системах обработки информации и базовые подходы для их решения. Представлены методы и алгоритмы, используемые при решении задач оценивания, регрессии и фильтрации, распознавания и кластеризации образов. Рассматриваются классические и современные реализации указанных алгоритмов в рамках статистического и детерминистского подходов. В книге и на сайте издательства приводятся примеры построения компьютерных моделей в среде MATLAB, представляющих программную реализацию алгоритмов анализа данных.
Вес: **501**
Ширина упаковки: ****
Высота упаковки: ****
Глубина упаковки: ****
Data Science - это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных. Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python. Обработка и анализ данных - одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Вес: **501**
Ширина упаковки: ****
Высота упаковки: ****
Глубина упаковки: ****
Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Но гораздо чаше случается так, что данные разбросаны по всемирной сети па многочисленных страницах онлайновых магазинов, заметках в социальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга. Основной материал книги разделён на две части. В первой части дано краткое введение в R - описание среды разработки, языка и основных пакетов-расширений. Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из социальных сетей. Также рассмотрены необходимые технические вопросы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных. ...
Вес: **295**
Ширина упаковки: **140**
Высота упаковки: **20**
Глубина упаковки: **200**
Книга позволяет изучить науку о данных (Data Science) и применить полученные знания на практике. Она написана так, что способствует погружению в Data Science аналитика, фактически не обладающего глубокими знаниями в этой прикладной дисциплине. В объемах, достаточных для начала работы в области Data Science, книга содержит интенсивный курс языка Python, элементы линейной алгебры, математической статистики, теории вероятностей, методов сбора, очистки, нормализации и обработки данных. Даны основы машинного обучения. Описаны различные математические модели и их реализация по методу k ближайших соседей, наивной байесовской классификации, линейной и логистической регрессии, а также модели на основе деревьев принятия решений, нейронных сетей и кластеризации. Рассказано о работе с рекомендательными системами, описаны приемы обработки естественного языка, методы анализа социальных сетей, основы баз данных, SQL и MapReduce.
Вес: **320**
Ширина упаковки: **170**
Высота упаковки: **30**
Глубина упаковки: **240**
Книга знакомит с одной из самых распространенных и мощных библиотек визуализации данных - D3.js, Прочтя ее, вы сможете решить любую задачу: от создания визуализации с нуля до запуска ее на сервере и написания автоматизированных тестов.Издание предназначено разработчикам веб-приложений, специалистам по анализу и обработке данных и всем, интересующимся интерактивным представлением данных в вебе с помощью библиотеки D3.
Вес: **325**
Ширина упаковки: **150**
Высота упаковки: **10**
Глубина упаковки: **210**
Оригинальное название: **D3.js 4.x Data Visualization**
Автор: **Эндрю Рининсланд,Свизек Теллер**
Тип издания: **Отдельное издание**
Тип обложки: **Мягкая обложка**
Тираж: **200**
Переводчик: **А. Слинкин**
Овладейте искусством превращения необработанных первичных данных в плодотворные догадки, гипотезы и новые знания с помощью языка R. Эта книга задумана как введение в вычислительную среду R, среду разработки RStudio и библиотеку tidyverse - коллекцию пакетов, совместное использование которых обеспечивает быстроту и легкость анализа данных. Книга ориентирована на читателей, не имеющих предварительного опыта программирования, и предназначена для того, чтобы помочь им в как можно более короткие сроки начать решать задачи науки о данных.Авторы книги познакомят вас со всеми стадиями процесса анализа данных, включая импорт, предварительную подготовку, разведочный анализ и моделирование данных, а также демонстрацию результатов. Прочитав книгу, вы получите цельное представление как о процессе анализа данных в целом, так и об основных инструментах, используемых при его проведении.
Вес: **1085**
Ширина упаковки: **180**
Высота упаковки: **40**
Глубина упаковки: **250**
Автор: **Хэдли Уикем,Гарретт Гроулмунд**
Тип издания: **Отдельное издание**
Тип обложки: **Твердый переплет**
Цветные иллюстрации: **Да**
Произведение: **Язык R в задачах науки о данных. Импорт, подготовка, обработка, визуализация и моделирование данных**
ОбрСсылка:Произведение: **Язык R в задачах науки о данных. Импорт, подготовка, обработка, визуализация и моделирование данных**
Прочитав эту книгу, вы сможете:• строить и интерпретировать модели дерева решений и случайного леса;• оценивать дискриминирующую способность полученных моделей;• улучшать модели дерева с помощью процедуры обрезки ветвей (прунинга);• улучшать модели логистической регрессии, используя информацию дерева и случайного леса;• применять правила классификации/прогноза, полученные с помощью дерева и случайного леса, к новым данным;• овладеть навыками конструирования признаков (feature engineering);• улучшать модели случайного леса с помощью автоматизированной оптимизации параметров.
Вес: **140**
Ширина упаковки: **180**
Высота упаковки: **40**
Глубина упаковки: **240**
Автор: **Артем Груздев**
Тип издания: **Отдельное издание**
Тип обложки: **Твердый переплет**
Произведение: **Прогнозное моделирование в IBM SPSS Statistics, R и Python. Метод деревьев решений и случайный лес**
ОбрСсылка:Произведение: **Прогнозное моделирование в IBM SPSS Statistics, R и Python. Метод деревьев решений и случайный лес**
Грант С. Ингерсолл, Томас С. Мортон, Эндрю Л. Фэррис
В книге описаны инструменты и методы обработки неструктурированных текстов. Прочитав ее, вы научитесь пользоваться полнотекстовым поиском, распознавать имена собственные, производить кластеризацию, пометку, извлечение информации и автореферирование. Знакомство с фундаментальными принципами сопровождается изучением реальных применений. Издание предназначено для читателей без подготовки в области математической статистики и обработки естественных языков. Примеры написаны на Java, но сами идеи могут быть реализованы на любом языке программирования.
Вес: **475**
Ширина упаковки: **140**
Высота упаковки: **20**
Глубина упаковки: **200**
Оригинальное название: **Taming Text: How to Find, Organize, and Manipulate It**
Автор: **Грант С. Ингерсолл,Томас С. Мортон,Эндрю Л. Фэррис**
Тип издания: **Отдельное издание**
Тип обложки: **Мягкая обложка**
Тираж: **200**
Переводчик: **А. Слинкин**
Произведение: **Обработка неструктурированных текстов. Поиск организация и манипулирование**
Вашему вниманию предлагается издание «Анализ данных в теории распознавания. Алгоритм установления диагноза и некоторые приложения, включая выборы президента».
Вес: **135**
Ширина упаковки: **150**
Высота упаковки: **10**
Глубина упаковки: **210**
Автор: **Дмитрий Уздин**
Тип издания: **Отдельное издание**
Тип обложки: **Мягкая обложка**
Городской портал Москвы: новости, погода, афиша, работа (вакансии и резюме), бесплатные объявления (недвижимость, авто), каталог организаций, интернет-магазин.
При цитировании и использовании любых материалов ссылка на gorodskoyportal.ru обязательна.
Для интернет-изданий — гиперссылка: gorodskoyportal.ru.