A imagem da cidade de dados

Lev Manovich, Agustín Indaco

Lev Manovich é Doutor em Estudos Visuais e Culturais, Professor da City University of New York (CUNY), diretor da Software Studies Initiative. Estuda análise cultural, computação social, big data e sociedade, humanidades digitais, história da arte, teoria e história da mídia, estudos de software, visualização de dados.

Agustín Indaco é Mestre em Economia, pesquisador da Software Studies Initiative. Estuda a intersecção entre microeconomia aplicada, saúde e big data, além de análise de comportamento econômico através de dados obtidos em mídias sociais.


Como citar esse texto: MANOVICH, L.; INDACO, A. A imagem da cidade de dados. Traduzido do inglês por Marcelo Tramontano. V!RUS, São Carlos, n. 13, 2016. Disponível em: <http://www.nomads.usp.br/virus/virus13/?sec=4&item=1&lang=pt>. Acesso em: 09 Mai. 2021.


Palavras-chave: Big Data; Instagram; Coeficiente de Gini; Nova York; Redes sociais.


A imagem de uma cidade de dados

O conteúdo de redes sociais1 compartilhado, hoje, nas cidades, como as imagens, tags e descrições do Instagram, é uma chave de leitura da vida urbana contemporânea. Ela informa as pessoas sobre onde se encontram atividades e lugares que lhes interessam, e permite-lhes compartilhar suas experiências urbanas e auto-representações. Ela cria uma "imagem de cidade" tanto para os residentes quanto para o mundo exterior. Pode-se argumentar que a identidade de qualquer cidade compõe-se, hoje, tanto pelo conteúdo mediatizado nela compartilhado através de redes sociais quanto por sua infraestrutura e suas atividades econômicas. É por isso que todo estudo sobre experiência urbana e auto-representação deve considerar o conteúdo compartilhado por redes sociais em uma determinada cidade.

A análise computacional de grandes quantidades de fotos e vídeos geradas e compartilhadas por usuários em áreas específicas pode também ajudar-nos a entender como as pessoas vivenciam a arquitetura e as estruturas urbanas e o que fazem nelas. Isso pode ser feito em qualquer escala, da urbana até o nível hiperlocal das ruas, edifícios ou seus interiores. É possível comparar a porcentagem de fotos do Instagram que mostram o ambiente construído em diferentes cidades, analisar quais enquadramentos são mais populares para cada monumento, e quais emoticons eles evocam segundo a hora do dia. Podemos comparar esses padrões segundo residentes e turistas, segundo diferentes gêneros, faixas etárias, etc.. Em resumo, pode ser muito útil estarmos aptos a analisar pegadas digitais do que grande número de pessoas faz no ambiente construído e como elas o vêem e o utilizam.

Fig. 1: Comparação de atividades no Instagram nas cidades de Bangcoc, Berlim, Moscou, Nova York, São Paulo e Tóquio (da esquerda para a direita, de alto a baixo). Cada visualização apresenta 20.000 imagens compartilhadas durante uma semana em cada cidade. Fonte: Lev Manovich, Jay Chow, 2013-2016. Copyright: Software Studies Initiative. 

Em nosso Software Studies Lab (softwarestudies.com), localizado na Universidade da Califórnia, San Diego, e no The Graduate Center, da City University of New York, analisamos mais de 16 milhões de fotos do Instagram compartilhadas em 17 cidades globais a partir de 2012. As equipes de pesquisa incluíram cientistas de dados, desenvolvedores de software, designers de visualização de dados, teóricos dos meios digitais, historiadores da arte, economistas e urban designers. Começando por uma comparação geral entre 2,3 milhões de imagens compartilhadas em 13 cidades globais (Phototrails, 2013, http://phototrails.net/), nos concentramos, em seguida, em categorias mais específicas de imagens, filtradas por tipo de conteúdo: auto-retratos (Selfiecity, 2014, http://selfiecity.net ), uma rua específica (On Broadway, 2014, http://on-broadway.net), e uma combinação entre uma área de uma cidade e um período de tempo (o centro de Kiev [Ucrânia] durante a revolução Maidan, de 2014, em http://www.the-everyday.net/ ). As figuras que ilustram o presente ensaio apresentam alguns desses projetos.

Se o trabalho do laboratório demonstra quão úteis podem ser os dados de redes sociais para entender o hiperlocal, ele também revela as limitações desse tipo de dado. Em muitas áreas centrais urbanas, as redes sociais têm resolução espacial e temporal bem alta. Para o projeto Inequaligram, o laboratório coletou todas as 7.442.454 fotos geocodificadas do Instagram compartilhadas publicamente em Manhattan durante os cinco meses entre março e agosto de 2014. Por exemplo, em uma única área de 30m X 100m, em Times Square, os usuários do Instagram compartilharam 43.541 imagens. Em muitas outras áreas de Manhattan, no entanto, as pessoas compartilharam apenas algumas dezenas de imagens nos mesmos cinco meses. Essa baixa densidade em várias partes das cidades limita a utilidade das redes sociais para se entender a vida urbana dessas áreas. Outra limitação é demográfica: por exemplo, em muitas cidades globais, pode ser que apenas pessoas jovens e com bom nível educacional postem conteúdo. Assim, enquanto em alguns casos as redes sociais são uma excelente fonte para o estudo de locações hiperlocais, em outros, a observação direta ou enquetes serão mais úteis. Análises computacionais em larga escala de redes sociais urbanas podem, portanto, apenas complementar - e não substituir - outros métodos de pesquisa em estudos urbanos, design e arquitetura.

Fig. 2: Projeto On Broadway combinando uma instalação interativa e um website (http://on-broadway.nyc ). Captura de tela da instalação interativa com uma vista em zoom-out completo mostrando toda a extensão (13 milhas) da rua Broadway em Manhattan. A instalação foi apresentada na New York Public Library, entre dezembro de 2014 e janeiro de 2016. Fonte: Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. Copyright: Software Studies Initiative. 

On Broadway

Os dois estudos mais detalhados de redes sociais em escala hiperlocal produzidos até agora pelo Software Studies Initiative são os projetos On Broadway e Inequaligram. Encomendado pela Biblioteca Pública de Nova York, On Broadway (2015) baseou-se em um conceito original do media designer Daniel Goddemeyer. Moritz Stefaner foi o responsável pela direção artística e pelo design de visualização de dados, e Dominikus Baur, pelo desenvolvimento de software.

O foco do projeto foi uma única rua, muito longa: a parte da Broadway que cruza toda Manhattan (21 quilômetros). A equipe de projeto também quis incluir uma área um pouco mais larga do que a rua em si para captar atividades próximas. Para definir estas áreas, os pequisadores dividiram a rua Broadway em segmentos de 30 metros de comprimento cada um e, a seguir, selecionaram áreas retangulares de 100 metros de largura em torno de cada segmento. O resultado foram 713 retângulos idênticos, de 30m X 100m. O projeto visualiza e compara imagens de redes sociais e outros dados através dessas 713 áreas.

O principal objetivo do projeto era construir um novo mecanismo para se navegar em uma "data city", constituído de várias camadas de imagens e dados. Perguntamo-nos se haveria outro modo de visualizar estruturas urbanas além de mapas, gráficos e números. O resultado das múltiplas explorações é visualmente rico, uma interface centrada na imagem, na qual os números desempenham um papel secundário e mapas não são utilizados. Essa interface propõe uma nova metáfora visual para se pensar a cidade: uma pilha vertical de camadas de imagens e dados. Há 13 camadas assim no projeto, todas atreladas a locações ao longo da Broadway. Elas incluem imagens compartilhadas ao longo da rua no Instagram e no Twitter, imagens do Google Street View, check-ins no Foursquare, corridas de táxis e indicadores econômicos e sociais selecionados do U.S. Census [recenseamento geral dos Estados Unidos, n. t.]. Ao todo, utilizamos mais de 30 milhões de dados e imagens para representar atividades ao longo de uma única rua.

Ao mover-se ao longo da representação da rua, vê-se uma seleção de fotos do Instagram de cada área, imagens do Google Street View dos lados esquerdo e direito da rua e do céu, além das principais cores extraídas dessas imagens. Pode-se, ainda, ver o número médio de partidas e de chegadas de corridas de táxi, postagens no Twitter com imagens, e a renda familiar média nas áreas da cidade atravessadas pela Broadway. Para auxiliar a navegação, acrescentamos camadas adicionais com o nome dos bairros de Manhattan cortados pela avenida, das ruas transversais e de marcos urbanos.

Fig. 3: On Broadway. Captura de tela da instalação interativa. Vista com zoom ao nível do bairro mostrando o centro de Manhattan. A instalação foi apresentada na New York Public Library, entre dezembro de 2014 e janeiro de 2016. Fonte: Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. Copyright: Software Studies Initiative.

Fig. 4: On Broadway. Captura de tela da instalação interativa. Vista com zoom ao nível do quarteirão na região de Times Square, em Manhattan. Fonte: Daniel Goddemeyer. Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. Copyright: Software Studies Initiative. 

Fig. 5: On Broadway. Gráfico comparando as camadas de dados utilizados para representar a rua Broadway no projeto. A rua está projetada sobre o eixo horizontal (Norte-Sul torna-se esquerda-direita). A altura do gráfico em cada locação corresponde ao volume de determinada camada de dados nesta locação. Fonte: Daniel  Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. Copyright: Software Studies Initiative. 

Esse "corredor" multi-camadas da Broadway pode ser explorado em diferentes escalas. Em uma visão em zoom out, vêem-se os 21 quilômetros da rua. Para isso, dispusemos estreitas fatias verticais de cada foto do Google Street View. Quando se começa a aproximar com o zoom, as fatias vão se tornando mais largas. Finalmente, na visão mais próxima do zoom, a imagem da área selecionada é mostrada inteiramente. Todas as peças visuais de todas as camadas e todos os números referentes a atividades agregadas são instantaneamente atualizados quando o usuário move seu campo de visão para a direita ou para a esquerda, ou altera o nível de zoom.

Ao explorar as camadas de dados ao longo da Broadway, a equipe do projeto percebeu que os volumes das camadas correlacionavam-se fortemente. Informalmente, isso pode ser visualizado na Figura 5, que apresenta os volumes de todas as variáveis: as alturas das variáveis aumentam e diminuem juntas. Como é possível interpretar essa "cidade correlacionada"? Os dados sugerem que a desigualdade social e a fratura digital são agora acompanhadas por uma fratura ainda mais extrema nas redes sociais. Em áreas ricas, as pessoas ganham mais dinheiro, usam táxis e postam mais imagens no Instagram e no Twitter. Em áreas pobres, as pessoas ganham menos, raramente usam táxis e postam muito menos imagens em redes sociais online.

Inequaligram

Os membros do laboratório decidiram explorar mais profundamente estas conexões. Isso resultou em um novo projeto chamado Inequaligram (2016), criado pelos autores deste ensaio. Nele, são analisadas características das postagens no Instagram e indicadores socioeconômicos extraídos do U.S. Census para Manhattan.

O U.S. Census reporta características socioeconômicas agregadas de populações usando um tipo de divisão chamada "setores". Existem 287 setores censitários em Manhattan. A população média de cada um deles situa-se entre 3 mil e 4 mil pessoas, e sua área média é de 0,36 km2. O projeto utiliza estes setores para comparar padrões de compartilhamento no Instagram e indicadores tais como renda e taxa de desemprego.

A equipe do projeto escolheu o Instagram para essa análise porque ele apresenta a mais forte identidade geográfica e espacial dentre todos os principais serviços online de redes sociais. Enquanto tweets e postagens no Facebook podem também ter geocoordenadas e informam sobre eventos locais no entorno do usuário no momento da postagem, com frequência as imagens no Instagram capturam diretamente tais eventos e mostram os usuários em lugares específicos. E uma vez que as postagens no Instagram contêm ou uma imagem, ou um vídeo, metadados sobre data e tempo, descrições e hashtags, elas permitem estudar representações coletivas de vida urbana em cada uma dessas dimensões separadamente. Por exemplo, podemos comparar o número de imagens compartilhadas em áreas distintas, a presença de diferentes assuntos nessas imagens, as hashtags mais populares e as menos comuns, a maneira como as pessoas se vestem, etc.. Estas e muitas outras características podem ser automaticamente extraídas das postagens no Instagram utilizando-se técnicas de data science, disponíveis em programas computacionais de código aberto.

Os conteúdos de redes sociais compartilhados em uma determinada área podem combinar contribuições de diversos tipos de usuários: pessoas que residem na área, pessoas que vivem em outras partes da cidade ou em periferias mas que, em dias úteis, permanecem um tempo significativo nessa área a trabalho, turistas nacionais ou internacionais em visita à cidade, empresas localizadas na área, entre outros. Juntos, os conteúdos compartilhados por todos esses usuários criam uma "voz" coletiva desta área específica da cidade. De fato, uma cidade pode ser comparada a um coral formado por todas essas vozes, ainda que, é claro, elas não estejam necessariamente interpretando uma mesma peça musical. A aplicação do conceito de desigualdade a um conjunto selecionado dessas vozes urbanas pode nos trazer novos modos de entender a cidade e prover uma métrica adicional para se comparar inúmeras cidades ao redor do mundo.

Fig. 6: Inequaligram. Locações de imagens do Instagram compartilhadas por visitantes de Nova York (esquerda) e locais (direita). Cada mapa utiliza um conjunto de 100.000 imagens, extraídas do conjunto maior de 7.442.454 imagens georreferenciadas compartilhadas publicamente em Manhattan entre março e julho de 2014.Fonte: Agustin Indaco, Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Em contraste com outros serviços de redes sociais, as imagens e as locações veiculadas pelo Instagram criam uma "imagem de cidade" tanto para os locais como para os visitantes. Desse modo, temos que entender o que essas representações coletivas contêm e como suas características se relacionam tanto com a estrutura arquitetônica da cidade (por exemplo, presença de pontos turísticos) como com a estrutura socioeconômica (por exemplo, locações em áreas ricas ou pobres).

Planejadores urbanos e arquitetos sabem mapear as estruturas físicas das cidades, mas quais seriam, para eles, os meios mais informativos para se mapear e analisar redes sociais? Em uma cidade como Nova York, as pessoas compartilham uma quantidade enorme de imagens via Instagram, em certas áreas, e muito pouco, em outras. As imagens compartilhadas em algumas áreas podem, ainda, conter mais hashtags e descrições sobre a arquitetura local do que aquelas compartilhadas em outras áreas. Ao mapearmos essas características nas postagens, usando sua geolocalização, percebemos que sua distribuição espacial é bastante irregular.

Para quantificar exatamente quão irregulares são essas distribuições, a equipe do Inequaligram desenvolveu um conceito novo, o de "desigualdade em redes sociais". Tal conceito permite comparar quantitativamente padrões espaciais em atividades relevantes em redes sociais, entre partes de uma cidade, entre várias cidades, ou entre quaisquer outras áreas. Esse conceito foi definido a partir de uma analogia com o conceito de desigualdade econômica. A desigualdade econômica indica como uma característica econômica, como renda, riqueza ou consumo, é distribuída em uma cidade, um país, ou entre países. Da mesma forma, a desigualdade em redes sociais indica como uma característica de conteúdos compartilhados em redes sociais é distribuída em áreas geográficas. Exemplos dessas características são o número de fotos compartilhadas por todos os usuários de uma rede social, como o Instagram, em uma determinada área da cidade, o número de hashtags e de hashtags pouco comuns.

Para compensar as diferenças das dimensões geográficas entre os setores, os dados Instagram foram normalizados segundo o tamanho do setor. O projeto também usou as datas das imagens compartilhadas para estimar se um usuário específico vive em Manhattan, ou está apenas visitando. Dados do Escritório Norte-americano das Indústrias de Viagens e Turismo (U.S. Office of Travel and Tourism Industries) indicam que o visitante médio permanece 10,5 dias em Nova York. Decidimos usar um período um pouco maior, de 12 dias, e considerar um usuário como um "visitante" se ele postou todas as suas fotos em um único período de 12 dias, do total dos cinco meses de nossa coleta de dados. Por outro lado, se um utilizador compartilhou pelo menos duas fotos dentro de qualquer intervalo maior do que 12 dias, considerou-se esta pessoa um "local". Embora este método muito simples não seja preciso, a análise dos dados mostra que, de forma eficaz, ele realmente diferencia capturas entre estes dois grupos. O nosso conjunto de dados contém 5.918.408 milhões de imagens de 366.539 contas Instagram de residentes locais, e 1.524.046 imagens de 505.345 contas pertencentes aos visitantes.

Fig. 7: Inequaligram. Proporções horárias de imagens compartilhadas por locais em bairros selecionados de Manhattan abaixo da rua 59. O gráfico usa informações temporais de 5.918.408 imagens compartilhadas por 366.539 residentes. Fonte: Agustin Indaco, Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Fig. 8: Inequaligram. Proporções horárias de imagens compartilhadas por visitantes em bairros selecionados de Manhattan abaixo da rua 59. O gráfico usa informações temporais de 1.524.046 imagens compartilhadas por 505.345 visitantes. Fonte: Agustin Indaco, Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Fig. 9: Inequaligram. Proporções horárias de imagens compartilhadas por locais em bairros selecionados de Manhattan acima da rua 59. O gráfico usa informações temporais de 5.918.408 imagens compartilhadas por 366.539 residentes. Fonte: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Para comparar a desigualdade em redes sociais entre esses dois grupos, em Manhattan, o Inequaligram decidiu usar o mais popular instrumento de medição de desigualdade econômica: o coeficiente de Gini. Este instrumento é usado na maioria das discussões sobre desigualdade de renda e de riqueza, tanto em Economia quanto na grande imprensa. No caso do Instagram, se as pessoas compartilhassem exatamente o mesmo número de imagens cada uma, em cada setor censitário da cidade, isso significaria igualdade completa e o coeficiente de Gini seria igual a 0. Se, ao contrário, as pessoas compartilhassem todas as imagens em apenas um setor e nenhuma imagem em nenhum outro setor, isso significaria completa desigualdade e o coeficiente de Gini seria igual a 1.

O Inequaligram verificou que o coeficiente de Gini para o número de imagens compartilhadas em Manhattan, considerando todos os setores censitários, é de 0,494 para os locais e de 0,669 para os visitantes. Para o número total de hashtags, o coeficiente é ainda mais alto: 0,514 para os locais e 0,678 para os visitantes. Contextualizando, a desigualdade relacionada às imagens dos visitantes de Manhattan (Gini = 0,669) é maior do que a desigualdade de renda no país mais desigual do mundo (Seychelles, onde Gini = 0,658). Já as imagens compartilhadas em redes sociais por locais têm um coeficiente de Gini similar ao de países que situam-se entre a 25a. e a 30a. posições na lista de países segundo a desigualdade de renda. São países como Costa Rica (0,486), México (0,481) e Equador (0,466).

O que leva à alta desigualdade de compartilhamento no Instagram entre as regiões de Manhattan? Os visitantes compartilham a maioria de suas imagens no centro de Manhattan (área de grandes lojas e hotéis), em torno de monumentos famosos, como a Times Square e o Flatiron Building, e nas áreas de restaurantes e bares noturnos, como East Village e Lower East Side. No caso dos locais, nossa análise sugere que as diferenças de atividade nas redes sociais entre as regiões da cidade são, em grande medida, impulsionadas por padrões de deslocamento. Durante a semana, nos horários de trabalho, os moradores das regiões menos ricas, tais como aquelas acima da rua 100, trabalham nas regiões mais ricas, abaixo da rua 100 e, particularmente, no centro da cidade. É aí que eles compartilham imagens no Instagram durante o dia e, por isso, suas ações são contabilizadas junto a essas áreas.

Observando os padrões de desigualdade em compartilhamentos no Instagram de moradores e visitantes em conjunto, o Inequaligram percebeu que as áreas de Manhattan abaixo da rua 100, onde se localiza a maioria dos negócios, são também as mais populares entre os visitantes. Temos, assim, um efeito de dupla amplificação: as contribuições dos residentes abastados dessas áreas em redes sociais são amplificadas pelas contribuições de pessoas que se deslocam até lá a trabalho, vindo de outras partes de Manhattan, e também por contribuições de visitantes de fora da cidade. Comparando as estatísticas de redes sociais com indicadores do Censo para os setores de Manhattan, verificamos que a desigualdade do número de imagens do Instagram, entre setores, é maior do que as desigualdades nos níveis de renda e desemprego. Os coeficientes de Gini são 0,32 (renda mediana), 0,22 (renda mediana), 0,35 (taxa de desemprego) e de 0,49 (número de imagens no Instagram compartilhadas por moradores locais). Este é um resultado muito interessante e original.

Fig. 10: Inequaligram. Esquerda: Coeficiente Gini de desigualdade para imagens compartilhadas no Instagram, em Manhattan, comparado com coeficientes de desigualdade de renda em países selecionados. Direita: Coeficiente de Gini de desigualdade para imagens compartilhadas no Instagram por locais em 287 setores censitários de Manhattan e indicadores econômicos selecionados do Censo (renda, desemprego) para os mesmos setores. "Setores" são divisões espaciais utilizadas pelo Censo nacional norte-americano em relatórios de resultados das pesquisas. Os coeficientes de Gini para indicadores econômicos são calculados usando dados do Censo de 2014. Source: Agustin Indaco, Lev Manovich, 2016. Copyright: Software Studies Initiative.

Estudando a vida urbana na era dos dados

Muitas são as possibilidades analíticas oferecidas pelos big data extraídos de redes sociais aos estudiosos urbanos e arquitetos que podem ser exploradas além do que foi discutido aqui. Ao fazer o download, análise e visualização de fotos compartilhadas por usuários, juntamente com as suas tags, descrições, informações temporais e coordenadas geográficas, os pesquisadores do Software Studies Lab construíram uma "imagem de cidade" coletiva e conseguiram perceber como ela se altera ao longo do tempo. O conceito de desigualdade em redes sociais nos permite mensurar alterações dessa imagem de uma região da cidade a outra, além de comparar essas imagens em escalas espaciais arbitrárias.

Notas

1 Nota da tradução: o termo em inglês "social media", referindo-se às redes sociais online via Internet, será traduzido aqui apenas como "redes sociais".

The image of a data city

Lev Manovich, Agustín Indaco

Lev Manovich is Ph.D. in Visual and Cultural Studies, Professor at City University of New York (CUNY), director of Software Studies Initiative. He studies cultural analytics, social computing, big data and society, digital humanities, digital art history, history and theory of media, software studies, data visualization.

Agustín Indaco is Master in Economy, researcher at Software Studies Initiative. He studies the intersection among applied microeconomics, health and big data, in addition to analysis of economic behavior through data obtained in social media.


How to quote this text: Manovich, L. and Indaco, A. The image of a data city. V!RUS, [e-journal] 13. [online] Available at: <http://www.nomads.usp.br/virus/virus13/?sec=4&item=1&lang=en>. [Accessed: 09 May 2021].


Keywords:: Big Data; Instagram; Gini index; New York; Social media.


The Image of a Data City

Social media content shared today in cities, such as Instagram images, their tags and descriptions, is the key form of contemporary urban life. It tells people where activities and locations that interest them are, and it allows them to share their urban experiences and self-representations. It creates an “image of a city” for both its residents and the outside world. One can argue that the identity of any city today is as much composed of the media content shared in that city on social networks as its infrastructure and economic activities. For these reasons, any analysis of city experience and self-representation needs to consider social media content shared in a given city.

Computational analysis of large numbers of user-generated photos and videos shared in particular areas can also help us to understand how people experience architecture and urban structures and what they do there. This can be done on any scale, from cities to the hyperlocal level of streets, buildings or parts of interiors. It is possible to compare the percentage of Instagram photos that show built environment in different cities, analyse which points of view are most popular for every landmark, and what emotions they evoke depending on time of the day. We can compare these patterns for residents and for tourists, for different genders, ages, and so on. In short, being able to analyse digital traces of what large number of people do in our built environments and how they see and use them can be very useful.

Fig. 1: Comparison of Instagram activity in different cities of Bangkok, Berlin, Moscow, New York, Sao Paolo and Tokyo (left to right and top to bottom). Each visualization shows 20,000 images shared consequently over one week in a given city. Source: Lev Manovich and Jay Chow, 2013-2016. Copyright: Software Studies Initiative. 

In our Software Studies Lab (softwarestudies.com) located at University of California, San Diego and The Graduate Center, City University of New York we have been analysing over 16 million Instagram photos shared in 17 global cities starting in 2012. The research teams included data scientists, software developers, data visualization designers, media theorists, art historians, economists, and urban designers. Starting with a general comparison between 2.3 million images shared in 13 global cities (Phototrails, 2013, http://phototrails.net/ ), we consequently focused on more specific types of images, filtered by type of content: self-portraits (Selfiecity, 2014, http://selfiecity.net ), a particular street (On Broadway, 2014, http://on-broadway.net ), and a combination of a city area and a time period (the centre of Kiev during Maidan revolution of 2014 in http://www.the-everyday.net/ ). The illustrations for this essay present some of these projects.

While the lab’s work shows how social media data can be useful for understanding the hyperlocal, it also reveals the limitations of this type of data. In many central urban areas social media has very high spatial and temporal resolution. For the Inequaligram project, the lab collected all 7,442,454 geo-coded Instagram photos publically shared in Manhattan during five months of March – August 2014. For example, in a single 30 m x 100 m area at Times Square, Instagram users shared 43,541 images. But in many other areas of Manhattan, people shared only a few dozen images during the same five months. Such low density in many parts of cities limits the usefulness of social media in understanding city life in such areas. Another limitation is demographic: for example, in many world cities only younger, well-educated people may post content. So while in some cases social media is a great resource to study hyperlocal locations, in other cases direct observation or surveys will be more useful. Therefore, large-scale computational urban social media analysis can only supplement - as opposed to replace - other research methods in urban studies, design and architecture.

Fig. 2: On Broadway project combing an interactive installation and a website (http://on-broadway.nyc .) A screenshot from the interactive installation with a full zoom-out view showing the full length (13 miles) of Broadway street in Manhattan. The installation was shown at New York Public Library, December 2014 – January 2016. Source: Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. Copyright: Software Studies Initiative. 

On Broadway

The two most detailed studies of social media on a hyperlocal urban scale to date carried out by Software Studies Initiative are On Broadway and Inequaligram projects. Commissioned by New York Public Library, On Broadway (2015) was based on the original concept of media designer Daniel Goddemeyer. Moritz Stefaner was responsible for artistic direction and data visualization design, and Dominikus Baur for software development.

The project focused on a single very long street - part of Broadway that crosses all Manhattan (21 kilometers). The project team also wanted to include a slightly wider area than the street itself so we can capture the activities nearby. To define these areas, the researchers divided Broadway street into 30 meter-long segments, and then selected 100-meter wide rectangle areas around each segment centered on every point. The result was 713 identical 30 m x 100 m rectangles. The project visualizes and compares social media images and other data across these 713 areas.

The main goal of the project was to construct a novel mechanism for navigating a “data city” consisting from many layers of images and data. We asked ourselves if there was a different way to visualize urban structures and activities besides maps, graphs, and numbers. The result of many explorations is a visually rich, image-centric interface, where numbers play only a secondary role, and no maps are used. This interface proposes a new visual metaphor for thinking about the city: a vertical stack of image and data layers. There are 13 such layers in the project, all aligned to locations along Broadway. They include images shared along Broadway on Instagram and Twitter, images from Google Street View, Foursquare check-ins, taxi rides, and selected economic and social indicators from the U.S. Census. Overall, we used over 30 million data points and images to represent activities along a single street.

As you move along the representation of a street, you see a selection of Instagram photos from each area, left, right, and top Google Street View images and extracted top colours from these image sources. You also see the average number of taxi pickups and drop-offs, Twitter posts with images, and average family income for the parts of the city crossed by Broadway. To help with navigation, we added additional layers showing names of Manhattan neighbourhoods crossed by Broadway, cross-streets and landmarks.

Fig. 3: Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. On Broadway. A screenshot from the interactive installation. Neighbourhood-level zoom view showing midtown area in Manhattan. The installation was shown at New York Public Library, December 2014 – January 2016. Copyright: Software Studies Initiative. 

Fig. 4: Daniel Goddemeyer. Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. On Broadway. A screenshot from the interactive installation. Block-level zoom view cantered on Time Square area in Manhattan. Copyright: Software Studies Initiative. 

Fig. 5: Daniel Goddemeyer, Moritz Stefaner, Dominikus Baur, Lev Manovich, 2014. On Broadway. A graph comparing the data layers used to represent Broadway street in the project. Broadway street is projected onto horizontal axis (south to north becomes left to right). The height of a graph at every location corresponds to volume of a particular data layer at this location. Copyright: Software Studies Initiative. 

This multi-layered Broadway “corridor” can be explored on many scales. In zoomed out view, you see all 21 kilometers of the street. To do this, we are displaying narrow vertical slices of every Google Street photo. When you start zooming in, the slices become wider. Finally, in a complete zoomed in view, the image of the currently selected area is shown in full size. All visuals in all layers and numbers showing aggregated activity are instantly updated when a user moves right or left, or changes zoom level.

When the project team was exploring all data layers along Broadway, it found that volumes of all data layers are strongly correlated. Informally this can be seen on the graph that plots volumes of all variables we looked at: the variables go up and down together. How is it possible to interpret this “correlated city?” The data suggest that social inequality and digital divide are now joined by a social media divide that is even more extreme. In affluent areas, people make more money, take taxis, and post more images on Instagram and Twitter. In poor areas, people make less money, rarely use taxis, and post much fewer images on social networks.

Inequaligram

The members of the lab decided to further explore these connections. The result is a new project called Inequaligram (2016) created by the authors of this essay. It analyzes characteristics of Instagram posts and socio-economic indicators reported by the U.S. Census across Manhattan.

U.S. Census reports aggregate socio-economic characteristics of populations using a type of division called “tracts.” There are 287 census tracts in Manhattan. The average population of each tract is 3,000-4,000 people and its average size is 0.36 square km. The project uses these tract areas to compare patterns in Instagram sharing and indicators such as income and unemployment rate.

The project team chose Instagram for this analysis because it has the strongest geographic and spatial identity among all top social media services. While tweets and Facebook posts can also have geo-coordinates and talk about the local events around the user at the moment of posting, Instagram images often directly capture these events and show users in particular places. And since Instagram posts contain an image or a video, date and time metadata, descriptions, and hashtags, this allows us to study collective representations of city life along these separate dimensions. For example, we can compare the number of images shared between areas, presence of different subjects in these images, most popular and most unique hashtags, how people are dressed and so on. These and many other characteristics can be extracted automatically from Instagram posts using data science techniques available in open source software.

Social media content shared in a given area may combine contributions from different kinds of users: people who reside in this area, people who live in different parts of the city or in suburbs but spend significant time in this area for work during weekdays; international or domestic tourists visiting a city; companies located in this area, and so on. Together, the content shared by all these users create a collective “voice” of a particular area of a city. A city as a whole can be compared to a chorus of all these voices although, of course, they are not necessary performing the same composition. Applying the concept of inequality to a collection of these urban voices can give us new ways of understanding a city, and provide an additional metric for comparing numerous cities around the world.

Fig. 6: Inequaligram. Locations of Instagram images shared by NYC visitors (left) and locals (right). Each map uses a 100,000 random image sample. They are drawn from the larger set of 7,442,454 geo-tagged images publicly shared in Manhattan during 3/2014-7/2014. Source: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative. 

In contrast to other social media services, image and location driven by Instagram create an “image of a city” for both locals and visitors. Therefore, we need to understand what such collective representations contain and how their characteristics are related to both a city’s architectural structure (for example, presence of tourist landmarks) and socio-economic social structure (for example, the locations of rich/poor areas).

Urban planners and architects know how to map cities’ physical structures, but what are the most informative ways for them to map and analyze social media? In a city like New York, people share a very large number of Instagram images in some areas and very few in others. The images shared in some areas may also contain more hashtags and descriptions that talk about local architecture than in other areas. When we plot such characteristics of users’ posts using their geo-locations, we see that their spatial distributions are very uneven.

To be able to quantify exactly how uneven these distributions are, the Inequaligram team developed a new concept of “social media inequality.” This concept allows us to quantitatively compare spatial patterns in relevant social media activity between parts of a city, a number of cities, or any other spatial areas. The team defined this concept using an analogy with the concept of economic inequality. Economic inequality indicates how some economic characteristic or material resource, such as income, wealth or consumption is distributed in a city, country or between countries. Accordingly, social media inequality indicates how some characteristic of shared social media content is distributed between geographic areas. Examples of such characteristics are the number of photos shared by all users of a social network such as Instagram in a given city area, numbers of hashtags, and numbers of unique hashtags.

To compensate for the differences in the geographic size of tracts, Instagram data was normalized by tract size. The project also used the dates of shared images to estimate if a particular user lives in Manhattan or is only visiting. Data from the U.S. Office of Travel and Tourism Industries indicates that the average visitor stays 10.5 days in New York City. We decided to use a slightly larger 12-day period, and consider a user a “visitor” if she posted all her photos within a single 12-day period out of the total five months of our data collection. On the other hand, if a user shared a minimum of two photos within any interval larger than 12 days, we consider this person a “local.” Although this very simple method is not precise, analysis of the data show that it does effectively differentiates captures between these two groups. Our dataset contains 5,918,408 million images from 366,539 unique Instagram accounts of local residents, and 1,524,046 images from 505,345 accounts that belong to visitors.

Fig. 7: Inequaligram. Hourly proportions of images shared by locals in selected Manhattan neighbourhoods below the 59th street. The graph uses time stamps of 5,918,408 million images shared by 366,539 local residents. Source: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Fig. 8: Inequaligram. Hourly proportions of images shared by visitors in selected Manhattan neighbourhoods below the 59th street.  The graph uses time stamps of 1,524,046 images shared by 505,345 visitors. Source: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative. 

Fig. 9: Inequaligram. Hourly proportions of images shared by locals in selected Manhattan neighborhoods above the 59th street. The graph uses time stamps of 5,918,408 million images shared by 366,539 local residents. Source: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative. 

To compare social media inequality across Manhattan for these two groups, Inequaligram decided to use the most popular measure of economic inequality – the Gini index. This is the same measurement used in most discussions of income and wealth inequality in both economics and in popular press. In the case of Instagram, if people were to share exactly the same number of images each in each city tract, this means complete equality, and Gini index = 0. If, on the other hand, people were to share all images in only one tract, and nothing in all other tracts, this means complete inequality, and Gini index = 1.

Inequaligram found that Gini index for the number of images shared in Manhattan between all tracts is 0.494 for locals, and 0.669 for visitors. For the total numbers of hashtags, the index is even higher: 0.514 for locals, and 0.678 for visitors. To put this in context, Instagram inequality for numbers of visitors’ images in Manhattan (Gini = 0.669) is larger than income inequality in the most unequal country in the world (Seychelles where Gini = 0.658). Social media shared by locals has a Gini coefficient similar to countries that rank between 25 and 30 in the list of countries by income inequality. These are countries like Costa Rica (0.486), Mexico (0.481) and Ecuador (0.466).

What drives high inequality of Instagram sharing between parts of Manhattan? In the case of visitors, they share most images in midtown Manhattan (big shopping and hotels area), around famous landmarks such as Times Square and the Flatiron Building, and in the evening dining and drinking areas like East Village and Lower East Side. In the case of locals, our analysis suggests that differences in their social media activity among parts of a city are to a large extent driven by commuting patterns. During work hours on weekdays the residents of less prosperous areas such as parts of Manhattan above 100th street work in more prosperous parts of the city - areas below 100th street, and particularly in Midtown. This is where they share images on Instagram during the day, so their shares get added to these areas.

Looking at inequality patterns in Instagram shares of locals and visitors together, Inequaligram found that the areas of Manhattan below 100th street with most businesses are also the ones that are the most popular among visitors. Thus, we have the effect of double amplification – social media contributions by affluent residents from these areas get amplified by the contributions of people who commute there for work from other parts of Manhattan, and also by contributions from out-of-city visitors. Comparing social media statistics with Census indicators for tracts in Manhattan, we find that the inequality of numbers of Instagram images between tracts is bigger than inequalities in levels of income, rent, and unemployment. Gini indexes are 0.32 (median income), 0.22 (median rent), 0.35 (unemployment rate), and 0.49 (numbers of Instagram images shared by local residents). This is a very interesting and original result.

Fig. 10: Inequaligram. Left: Gini inequality measure for numbers of Instagram images and tags shared in Manhattan compared to income inequality measures in selected countries. Right: Gini inequality measures for Instagram images shared by locals in 287 Manhattan tracts and selected Census economic indicators (rent, income, unemployment) for the same tracts. “Tracts” are spatial divisions used by U.S. Census in reporting surveys results. Gini measures for economic indicators are calculated using 2014 Census data. Source: Agustin Indaco and Lev Manovich, 2016. Copyright: Software Studies Initiative.

Studying the Urban Life in the Data Era

There are many analytical possibilities that social media’s big data offers to urban researchers and practicing urbanists and architects that can be explored besides those discussed here. By downloading, analyzing, and visualizing user-shared photos, along with their tags, descriptions, time stamps and geo-coordinates, the Software Studies Lab researchers have pieced together a collective “image of a city” and been able to see how it changes over time. The concept of social media inequality allows us to measure how this image changes from area to area, and also compare such images at arbitrary spatial scales.

A thorough analysis of cities and city life in the 21st century certainly should contain more layers than social media alone. And yet, as we suggest in this essay, the social media layer plays a very important role because it filters the city in particular ways, highlighting some locations and making others invisible. Social media data allows us to create new representations and new concepts that help us understand cities and city life in new ways. As On Broadway shows, we can construct new visual representations of cities that portray urban behavior and media using many scales and layers of data. And as Inequaligram shows, social media data also allows us to produce new metrics for understanding city life and comparing cities across the world. We believe that such new approaches will supplement other existing research methods in urban studies, architecture, media studies, and social sciences and will shape the way we understand urban life in the decades to come.