from IPython.display import Image
Image(url='https://data.broadinstitute.org/bbbc/BBBC013/visual_plate_map.png',width=700)


import requests
import zipfile
from pathlib import Path


if not Path('BBBC013_v1_images_bmp').is_dir():
    url = 'https://data.broadinstitute.org/bbbc/BBBC013/BBBC013_v1_images_bmp.zip'
    myfile = requests.get(url, allow_redirects=True)
    open('BBBC013_v1_images_bmp.zip', 'wb').write(myfile.content)
    with zipfile.ZipFile('BBBC013_v1_images_bmp.zip', 'r') as zip_ref:
        zip_ref.extractall('.')


import os

data_path = Path('BBBC013_v1_images_bmp')


os.listdir(data_path)[0:10]

['Channel1-62-F-02.BMP',
 'Channel2-91-H-07.BMP',
 'Channel1-25-C-01.BMP',
 'Channel1-78-G-06.BMP',
 'Channel2-42-D-06.BMP',
 'Channel2-02-A-02.BMP',
 'Channel1-70-F-10.BMP',
 'Channel1-85-H-01.BMP',
 'Channel1-87-H-03.BMP',
 'Channel1-46-D-10.BMP']


file_list1 = list(data_path.glob('Channel1*.BMP'))
file_list2 = list(data_path.glob('Channel2*.BMP'))
file_list1[0:10]

[PosixPath('BBBC013_v1_images_bmp/Channel1-62-F-02.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-25-C-01.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-78-G-06.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-70-F-10.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-85-H-01.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-87-H-03.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-46-D-10.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-27-C-03.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-28-C-04.BMP'),
 PosixPath('BBBC013_v1_images_bmp/Channel1-18-B-06.BMP')]


from natsort import natsorted


file_list1 = natsorted(file_list1)
file_list2 = natsorted(file_list2)

print(f'file #8 in channel1: {file_list1[1]}')
print(f'file #8 in channel2: {file_list2[1]}')

file #8 in channel1: BBBC013_v1_images_bmp/Channel1-02-A-02.BMP
file #8 in channel2: BBBC013_v1_images_bmp/Channel2-02-A-02.BMP


import re

position = re.findall('.*\-.*\-(.*)\-(.*)\.BMP',file_list1[8].name)
position

[('A', '09')]


pip install git+https://github.com/guiwitz/microfilm.git@master#egg=microfilm


import skimage.io
import skimage.measure
import skimage.filters
import matplotlib.pyplot as plt
import numpy as np

from microfilm import microplot


image1 = skimage.io.imread(file_list1[1])
image2 = skimage.io.imread(file_list2[1])


fig, ax = plt.subplots(figsize=(10,10))
microplot.microshow([image1, image2], rescale_type='limits', limits=[0,100],  cmaps=['pure_green','pure_blue'], ax=ax);


threshold = skimage.filters.threshold_otsu(image2)
mask = image2 > threshold


mask_lab = skimage.measure.label(mask)


fig, ax = plt.subplots(1,1, figsize=(10,10))
ax.imshow(image1, cmap = 'gray')
ax.imshow(mask_lab.astype(np.uint8), cmap=microplot.random_cmap());


regions = skimage.measure.regionprops_table(mask_lab, intensity_image=image1,
                                           properties=('label','area','mean_intensity'))


import pandas as pd
regions = pd.DataFrame(regions)
regions.head()


regions['mean_intensity'].mean()

26.829120444044293


import seaborn as sns
import pandas as pd

sns.displot(data=regions, x='area');


area_threshold = 50
selected_regions = regions[regions['area'] > area_threshold]
selected_regions.mean()

label             132.488189
area              178.366142
mean_intensity     26.706697
dtype: float64


def my_segmentation(image1, image2, area_threshold):
    
    threshold = skimage.filters.threshold_otsu(image2)
    mask = image2 > threshold
    mask_lab = skimage.measure.label(mask)

    regions = skimage.measure.regionprops_table(mask_lab, intensity_image=image1,
                                           properties=('label','area','mean_intensity'))
    regions = pd.DataFrame(regions)
    selected_regions = regions[regions['area'] > area_threshold]
    return selected_regions


output = my_segmentation(image1,image2, area_threshold=50)
output.mean()

label             132.488189
area              178.366142
mean_intensity     26.706697
dtype: float64


import pandas as pd
import numpy as np


drugs = pd.read_csv('https://data.broadinstitute.org/bbbc/BBBC013/BBBC013_v1_platemap_all.txt')
len(drugs)

96


drug_amounts = pd.DataFrame(np.reshape(drugs.values, (8,12)))
drug_amounts


import string
alphabetical = [string.ascii_uppercase[i] for i in range(12)]
alphabetical

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L']


drug_amounts.rename({i: i+1 for i in range(12)}, axis='columns', inplace=True)
drug_amounts.rename({i: alphabetical[i] for i in range(12)}, axis='rows', inplace=True)
drug_amounts


drug_type = drug_amounts.copy()
drug_type[:] = 'Control'

drug_type.iloc[0:4,2:-1] = 'Wortmannin' 
drug_type.iloc[4:8,2:-1] = 'LY294002'
drug_type.iloc[0:4,0] = 'Negative Control'
drug_type.iloc[4:8,-1] = 'Negative Control'
drug_type.iloc[4:8,0] = 'Positive Control'
drug_type.iloc[0:4,-1] = 'Positive Control'
drug_type.iloc[:,1] = 'Empty'

drug_type


drug_amounts.reset_index().melt(id_vars='index').head(5)


drug_info = pd.merge(drug_amounts.reset_index().melt(id_vars='index'),
         drug_type.reset_index().melt(id_vars='index'), on=['index', 'variable'])
drug_info.rename({'index': 'row', 'variable': 'column', 'value_x': 'amount', 'value_y': 'drug type'},
                 axis='columns', inplace=True)
drug_info = drug_info.set_index(['row', 'column'])
drug_info.head(5)


drug_info['area'] = np.nan
drug_info['intensity'] = np.nan
drug_info['number nuclei'] = np.nan
drug_info.head(5)


position

[('A', '09')]


drug_info.loc[(position[0][0], int(position[0][1])),'area'] = regions['area'].mean()


area_threshold = 50
full_distributions= []
for f1, f2 in zip(file_list1, file_list2):
    
    image1 = skimage.io.imread(f1)
    image2 = skimage.io.imread(f2)

    regions = my_segmentation(image1,image2, area_threshold=area_threshold)
    
    position = re.findall('.*\-.*\-(.*)\-(.*)\.BMP',f1.name)
    
    drug_info.loc[(position[0][0], int(position[0][1])),'area'] = regions['area'].mean()
    drug_info.loc[(position[0][0], int(position[0][1])),'intensity'] = regions['mean_intensity'].mean()
    drug_info.loc[(position[0][0], int(position[0][1])),'number nuclei'] = len(regions)

    # keep complete distributions
    distr = regions.drop('label',axis='columns')
    distr['amount'] = drug_info.loc[(position[0][0], int(position[0][1]))]['amount']
    distr['drug type'] = drug_info.loc[(position[0][0], int(position[0][1]))]['drug type']
    distr['well row'] = position[0][0]
    distr['well column'] = int(position[0][1])
    full_distributions.append(distr)

full_distributions = pd.concat(full_distributions)
full_distributions.rename({'mean_intensity': 'intensity'}, axis='columns', inplace=True)


drug_info


import seaborn as sns


clean_drug = drug_info[drug_info['drug type'].isin(['LY294002','Wortmannin'])]


fig, ax = plt.subplots(figsize=(7, 7))
ax.set(xscale="log")
sns.lineplot(data=clean_drug, x='amount', y='intensity', hue='drug type', ax=ax, marker="o");


from sklearn import linear_model


X = clean_drug.sort_values(by='amount')['amount'].values
X = X[:, np.newaxis]
y = clean_drug.sort_values(by='amount')['intensity'].values

ols = linear_model.LinearRegression()
ols.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)


fig, ax = plt.subplots(figsize=(7, 7))
ax.plot(X,y,'o', label='data')
ax.plot(X, ols.coef_ * X + ols.intercept_, linewidth=1, label='linear fit')
ax.set(xscale="log");
ax.legend()

<matplotlib.legend.Legend at 0x7f6c43398890>


from scipy.optimize import curve_fit

def sigmoid (x, A, h, slope, C):
    return 1 / (1 + np.exp ((x - h) / slope)) *  A + C

p, _ = curve_fit(sigmoid, np.ravel(X), y)
x = np.ravel(X)


fig, ax = plt.subplots()
ax.set_xscale('log')
ax.plot(x, y, 'o', label='data')
ax.plot(x, sigmoid(x, *p), label='sigmoid fit')
ax.legend();


sns.histplot(data=clean_drug.reset_index(), x='area', hue='drug type');


clean_full = full_distributions.reset_index()
clean_full_drug = clean_full[clean_full['drug type'].isin(['LY294002','Wortmannin'])]
sns.histplot(data=clean_full_drug, x='area', hue='drug type', stat='density', common_norm=False);


sns.displot(data=clean_full[(clean_full.amount==0) | (clean_full.amount==7.81) | (clean_full.amount==250)], x='intensity', hue='amount', stat='density', common_norm=False,
            palette=sns.color_palette("hls", 3));


drug_info.reset_index().to_csv('BBBC013_analyzed.csv', index=False)


full_distributions.to_csv('BBBC013_analyzed_full.csv', index=False)

	label	area	mean_intensity
0	1	180	42.644444
1	2	64	18.656250
2	3	87	3.517241
3	4	83	15.614458
4	5	160	51.668750

	0	2	3	4	5	6	7	8	9	10	11
0	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
1	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
2	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
3	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
4	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
5	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
6	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
7	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0

	1	3	4	5	6	7	8	9	10	11	12
A	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
B	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
C	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
D	0.0	0.98	1.95	3.91	7.81	15.63	31.25	62.5	125.0	250.0	150.0
E	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
F	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
G	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0
H	80.0	0.31	0.63	1.25	2.50	5.00	10.00	20.0	40.0	80.0	0.0

	index	variable	value
0	A	1	0.0
1	B	1	0.0
2	C	1	0.0
3	D	1	0.0
4	E	1	80.0

		amount	drug type	area	intensity	number nuclei
row	column
A	1	0.0	Negative Control	NaN	NaN	NaN
B	1	0.0	Negative Control	NaN	NaN	NaN
C	1	0.0	Negative Control	NaN	NaN	NaN
D	1	0.0	Negative Control	NaN	NaN	NaN
E	1	80.0	Positive Control	NaN	NaN	NaN

Image processing routine for quantitative analysis¶

Import data¶

Parse files¶

Image processing pipeline¶

Thresholding¶

Measure regions¶

Clean-up¶

Complete pipeline¶

Combine with metadata¶

Import metadata¶

Complete with new information¶

Plotting¶

Export the data¶

	1	2	3	4	5	6	7	8	9	10	11	12
A	Negative Control	Empty	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Positive Control
B	Negative Control	Empty	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Positive Control
C	Negative Control	Empty	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Positive Control
D	Negative Control	Empty	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Wortmannin	Positive Control
E	Positive Control	Empty	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	Negative Control
F	Positive Control	Empty	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	Negative Control
G	Positive Control	Empty	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	Negative Control
H	Positive Control	Empty	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	LY294002	Negative Control

		amount	drug type	area	intensity	number nuclei
row	column
A	1	0.0	Negative Control	182.006780	22.666447	295.0
B	1	0.0	Negative Control	178.280255	26.306847	157.0
C	1	0.0	Negative Control	182.649007	33.285372	151.0
D	1	0.0	Negative Control	190.920732	35.943763	164.0
E	1	80.0	Positive Control	187.769231	49.245178	182.0
...	...	...	...	...	...	...
D	12	150.0	Positive Control	179.518987	86.719140	158.0
E	12	0.0	Negative Control	165.988571	25.168306	175.0
F	12	0.0	Negative Control	173.591398	31.286983	186.0
G	12	0.0	Negative Control	164.596026	35.620328	151.0
H	12	0.0	Negative Control	172.548223	30.369579	197.0